幕張メッセで開催中の「Interop Tokyo 2005」で8日、「インターネット検索技術にせまる! ネットから価値を引き出すあの技術、この技術」と題したワークショップが行なわれた。検索サービスに関する最近の動向や、実際のWeb検索サービスの構築から得られたノウハウなどが紹介された。
■ Web日記なども対象にするブログ検索サービス「blogWatcher」
東京工業大学精密工学研究所の奥村学氏は、主にブログを対象とした検索技術について解説した。東京工業大学の奥村研究室では、ブログ検索サービス「blogWatcher」を公開している。
奥村氏は、ブログサービスの普及に加えて、一般の消費者から発信される掲示板やブログなどの大量の情報を有効に活用したいというビジネス的な背景などから、ブログの検索技術にも注目が集まっているとして、国内でも多数のブログを対象とした検索サービスが開始されていることを紹介した。
こうしたブログを対象とした検索サービスの特徴としては、通常のキーワード検索だけでなく、ブログに書かれた単語を利用したトレンド分析、被リンク数による記事・サイトのランキング、ブログ間のリンク構造を元にしたコミュニティ抽出といった分析が行なわれているという。
また、日本ではブログが話題になる以前から、いわゆる「Web日記」と呼ばれる形式のサイトが多く存在している。奥村氏は、これらのサイトはブログと内容的にも形式的にもほとんど区別の必要はないとして、blogWatcherではMovable Typeなどのブログツールを利用しているサイトだけでなく、Web日記のようなサイトも網羅的に収集しているとした。
ブログツールを利用しているサイトであれば、RSSなどを利用することで容易に内容が収集できるが、それ以外のサイトではこの方法は利用できない。そこでblogWatcherでは、RSSではなくHTMLファイルを収集し、そのページが(Web日記などを含む広義の)ブログであるかどうかを判定する方法を採用している。
あるWebページがブログであるかの判定方法としては、記事の書かれた日付を表わす日付表現を必ず含むことを条件として、「2005/06/08」「2005年6月8日」など同じ形式の日付表現が出現するごとにグルーピングして、それらを1つの記事として扱っている。ただしこの方法では、掲示板やメーリングリストのアーカイブ、イベントの案内といった日付表現を多く含むページが該当するため、これらを除外する仕組みも設けているという。
blogWatcherではこうして収集したブログについて、キーワード検索サービスのほか、検索キーワードの注目度を「バースト度」として表示する機能を備えている。バースト度の算出法としては、キーワードがブログに書かれた時刻の情報をもとにキーワードが出現する時間の間隔を測定し、以前より出現間隔が短くなった場合を「バースト度が高い」状態であるとしている。これをもとに、あるキーワードがブログではいつ頃話題となったのかといったグラフも見ることができる。
また、各キーワードについては、ブログの記事中でどのように扱われているかを解析し、好意的な記事を「ポジティブ」、否定的な記事を「ネガティブ」、どちらでもない記事を「ニュートラル」として判定する機能も備えている。blogWatcherでは、検索したキーワードについて、ポジティブ/ネガティブの評価がどれだけあったのかをグラフ化して見る機能を提供している。この評価には、文章を単語ごとに分解する形態素解析に加えて、それらの単語間がどのような関係になっているのかを調べる係り受け解析も使用しているという。
■ gooの開発・運用サイドから見る検索サービスの仕組みと課題
|
NTTレゾナントの竹野浩氏
|
NTTレゾナントの竹野浩氏は、検索サービス「goo」の開発・運用に携わっているという立場から、Web検索システムの仕組みや課題などについて解説。現在gooラボで実験公開を行なっているマルチメディア検索サービス「MultiMedia Meister」を構築した際に得られたノウハウなどを紹介した。
検索システムでは、まずWebページを収集する「クローラー」の作業が必要となる。クローラーについては、収集対象となるWebサーバーに高い負荷をかけることのないように配慮しつつ、増え続けるWebページを効率よく収集していくことが課題だとして、クローラーを多重化する方法を紹介。ページの収集を複数のクローラーで行なうことでより多くのページが収集できるようになるが、複数のクローラーが同時に同じサイトにアクセスして負荷をかけないようにしなければならず、1台のサーバーで複数のドメインが運用されている仮想ホストの場合への対処法などが重要になってくるとした。
収集したページは文章を単語レベルに分解し、単語をキーとした検索インデックスを作成する。この際に、単語がページのどこで出現したかを示す指標や、単語間の関連性などをインデックスに含めることで、検索時間の短縮や検索精度の向上が図れるが、インデックス化に時間がかかるとそれだけ検索結果に新しいページが反映されるのが遅くなる。この問題への対処法としては、クローラーが収集したページをリアルタイムでインデックス化する方式を採用し、通常の検索処理を継続したままデータの追加・更新を可能にするサービスの実現を目指したという。
試験公開中のMultiMedia Meisterでは、世界中から収集した画像、映像、音声ファイルの検索サービスを提供している。キーワード検索のほかに、指定した画像に類似する画像を検索する機能や、検索結果を3次元空間に配置して見ることのできる機能などを提供している。
システムは350台のLinuxサーバーによるクラスタ構成で、リアルタイムインデックス化による分散全文検索技術を用いている。また、画像や動画の検索サービスであるため、アダルトコンテンツのフィルタリングも重要な技術となっているという。データの収集を開始して半年で約5億のデータを収集したが、竹野氏は今後について10億データの収集を目標にするとともに、効率化によりさらに少ないサーバー台数での運用を目指したいと語った。
■ URL
Interop Tokyo 2005
http://www.interop.jp/
blogWatcher
http://blogwatcher.pi.titech.ac.jp/
goo
http://www.goo.ne.jp/
gooラボ マルチメディア検索実験
http://mmm.nttrd.com/
■ 関連記事
・ [第16回IPAX2005] RSSフィード作成機能などが追加された「blogWatcher」の新バージョン
・ NTTとNTTレゾナント、類似画像の検索サービス「MultiMedia Meister」
(三柳英樹)
2005/06/09 12:34
|