東京・有明の東京ビッグサイトで開催している展示会「IPAX Spring 2004」では、独立行政法人情報処理推進機構(IPA)が未踏ソフトウェア創造事業として支援するソフトや技術が多数展示されている。ここでは、その中からブログサイトを収集し、ホットトピックスなどを判定して提供する「blogWatcher」を紹介する。
■ HTML解析によって、RSSベースではない“ブログ収集”が可能に
blogWatcherは、平成15年度未踏ソフトウェア創造事業「blogページの自動袖手と監視に基づくテキストマイニング」によって、東京工業大学精密工学研究所の奥村研究室で開発されたものだ。現在試作版を運用中で、夏頃までにはベータ版をWebサイト上で公開したいとしている。
具体的には、ブログから収集した情報(コンテンツ)をマイニングし、特定の時期に頻繁に出てくる語句を“ホットキーワード”として紹介する機能などを搭載している。また、特定のキーワードに対する良い、悪いなどの“評判”を検索できる点も特徴だ。
blogWatcherでは、時系列に沿って書かれたコンテンツを“ブログ”と判定し、entry(記事)単位で検索することができる。その際、日付情報も取得することで、日時を指定した検索も可能だ。特徴的なのは、RSSベースの収集ではなく、HTML解析をして“ブログかどうか”を判定しているため、一般的なブログ作成ツールを利用して作成したブログでなくとも、ブログと認識して検索対象とする点だ。したがって、過去記事に対しても検索できる。
|
|
blogWatcherの画面イメージ。夏頃には公開予定だ
|
キーワード「レストラン」に対する評判検索の結果。「美味しい」や「良い」といった結果が拾われているのがわかる
|
■ 今ブログの中で最もホットなキーワードなどを検索できる
会場でデモされていた試作システムでは、約10万のブログ、130万のentryが収集されており、「キーワードと日付で検索」「キーワードと頻度の推移を検索」「Hot Keywordを検索」「キーワードの評判情報を検索」の4種類の検索が用意されていた。
キーワードの頻度推移検索を利用すると、例えばキーワードに「Winny」で検索した場合、ブログの中で「Winny」という文字列が出現した頻度を、時系列のグラフで表示することができる。Hot Keyword検索では、プルダウンで年月を指定することにより、その月に流行した(出現頻度の多かった)キーワードを知ることができる。
また、キーワード評判情報検索では、ブログの中からキーワードに対して評価をしていると分析された文字列の“良い、悪い”を識別し、表示できる。例えば、キーワードに「INTERNET Watch」と入力したとすると、「INTERNET Watchは面白い」「INTERNET Watchは最近退屈だ」「INTERNET Watchの記事数が増えてきた」といった、「INTERNET Watch」に対する評価を抜き出し、プラスマイナスの評価を自動的にするといったものだ。
今後の予定としては、夏頃までにblogWatcherのベータ版をWebサイトにて公開するほか、ビジネス提携も視野に入れて研究を進めていきたいとしている。
|
|
システム構成図
|
非ブログの判定基準。掲示板やchatサイトは検索対象から外される
|
|
|
プログラムがブログと判定した精度結果。人間の目視による確認の結果、94.3%が実際にブログだったという
|
ブログと認定されたブログサイトのうち、ブログツールやホスティングを使っていたのは18%に過ぎなかったという。ただし、調査対象に偏りもあると認めている
|
■ URL
blogWatcher
http://www.lr.pi.titech.ac.jp/blogwatcher/
(大津 心)
2004/05/14 19:23
|