ブログの特長であるトラックバックにちなみ、ブログ関連サービスに携わる方を次々に紹介していただき、ブログの世界をつないでいくインタビュー連載です。第14回は、ブログ検索「blogWatcher」を手がけた東京工業大学 精密工学研究所 奥村研究室の南野朋之氏です。
■ ブログの文章から話題のキーワードや評判を抽出

|
blogWatcher
|
――本日はよろしくお願いします。はじめに、blogWatcher開発のきっかけを教えてください。
南野:きっかけは、平成15年度の未踏ソフトウェア創造事業ですね。その当時はブログが出始めた頃で、ブログがちょっと面白そうだという話になってきていたので、同じように前々から興味を持っていた自然言語処理の技術を使って、ブログや日記を大量に集めて検索できるサービスを作ろう、と考えたのが最初ですね。blogWatcherが完成したのが2004年の3月頃で、一般公開したのがその年の8月です。
□関連記事:【IPAX Spring 2004】ブログサイトをクロールし、話題のキーワードなどを検索するサービス
http://bb.watch.impress.co.jp/cda/event/5252.html
未踏ソフトウェア創造事業の期間が終わった頃に、blogWatcherの最初のバージョンを公開したのですが、その頃、(現Six Apartの)宮川さんや(現はてなの)伊藤さんなど、いわゆる“Blog Hacker”な方々に遊びに来てもらったことがありました。その時に、blogWatcherでは日記もブログのように日付けを自動認識して扱っているという話をしたところ、「それってRSSを自動生成できる“なんでもRSS”みたいなサービスができるんじゃないか」という意見をいただいたので、そのアイディアを元に作ってみたのが、「なんでもRSS」ですね。
――blogWatcherのユーザー数は。
南野:ずいぶん昔のデータですが、1日に8,000から10,000PVといったところでしょうか。なんでもRSSは1日50,000PVくらいですが、こちらはほとんどがRSSリーダーなどによるロボットのアクセスです。
――blogWatcherの特徴は。
南野:1つは、ブログだけではなくWeb日記みたいなものも検索できるということですね。もう1つは、もともと奥村研究室が人間が書いた自然言語の解析やマイニングを得意にしているので、バースト検索や評判情報検索といった機能のように、普通の人が考えていることから面白い情報が取れないか、というところに力を入れています。
また、blogWatcherでは、いまどんなキーワードがブログで書かれているかという「メタブログ」という機能があります。普通の検索キーワードランキングだと、ユーザーが「知りたい!」と思っている情報のランキングは出てくるんですが、メタブログでは、「新緑の季節」のように、誰も検索しないけれど実はブログに登場しているキーワードが見つかるので、ユーザーが漠然と書いていることの中から注目キーワードが見つけられますね。
|
|
画面右側に表示されるのが、キーワードの注目度を示す「バースト度」、キーワードの評判を「ポジティブ」「ネガティブ」で判断する「評判情報検索」
|
ブログで書かれているキーワードの中から注目のキーワードを探し出す「メタブログ」
|
――技術面での特徴は。
南野:自然言語処理の技術は、これまでは新聞記事のようなきちんとした文章を対象にしていましたが、Web上のテキストは表現も崩れますし、「ノートPCを買った。使ってみたらすごくよかった」というように主語が落ちることもあります。こういう時は「使ってみたらすごくよかった」という部分が、「ノートPC」について行くように補完してあげなければいけない。日本語の特徴にきちんと対応するのは難しいですね。
評判検索の場合だと、たとえばHDDの容量が「大きい」のはポジティブな意味ですが、サイズが「大きい」のはネガティブになるように、同じ「大きい」でも対象によって意味がガラっと異なります。そのため、「対象」「属性」「評価表現」という3つの情報をWeb上から取得して、周辺の文章と似ている文脈で使われた言葉であれば、ネガティブとポジティブが一致するだろうという考えから辞書を自動で作っています。これなら新語が登場したり、言葉の持つ意味が変化しても捉えられる可能性があります。やっていることは地道な作業なんですけどね。
評判検索で伏せ字や略語も拾って欲しいという要望もありますね。伏せ字はなかなか難しいですが、略語は例えば「マクドナルド」が「マック」になるような略称のルールがあるので、結構いけるのではという見通しがあります。ただし、例えば「東京大学」は「東大」ですが、「東京工業大学」は「東大」があるから「東工大」になる、というように、必ずしも略称のルール通りにはいかないので、そういった点をいかに解決するかが課題ですね。
■ 評判検索はホットリンクと事業化を予定
――blogWatcherの反響は。
南野:評判情報検索などをやっていることで、企業が自社製品の評判をチェックしてリスクマネジメントしたいとかいう要望がありますね。実際にホットリンクという会社と事業化するという話もありますし、評判分析の需要は高いです。
なんでもRSSについては、今のところそういった事業化の話はありません。ただ、面白いと言ってくれる人もたくさんいますし、利用状況やログから見ても、RSSに対応して欲しいけれど実際には対応していないサイトがいっぱいあるようです。一旦RSSリーダーの便利さに慣れてしまった人が、他のサイトもRSSで読みたい、という需要は結構あるんだなと実感しています。
――blogWatcherで検索対象となるブログの判別方法は。
南野:Webをクロールして集めたサイトからブログかどうかを判別するモジュールを用意していて、ブログと判定したページからさらにリンクを集めている感じですね。ブログではないものはできるだけ除外していますが、例えば1日1回しか更新されないような掲示板の場合、更新の仕方もブログに似ているので、うまく除外できていないこともありますね。
――あくまでブログ検索という位置付けのため、ブログ以外のサイトは除外しているのでしょうか。
南野:そうですね。blogWatcherは日記的なものだけを検索できるサービスにしようと考えているので、そういった制限を無くして、日付けによる時系列情報であらゆるサイトを検索できるサービスというのも、良いか悪いかは別として作ることは可能ですね。逆に「なんでもRSS」では、blogWatcherのフィルタで除外されるようなブログではないサイトであってもRSSにできる、といった棲み分けになっています。
――blogWatcherの仕組みを利用した検索エンジンの可能性もあるということですか。
南野:できないことはないのですが、問題はスケーラビリティですね。1研究室だけで運営するには限界が見えていて、今も1ラックだけのサーバーで動かしていますが、データベースはそろそろ限界が近づいています。そもそも、そういったサーバー技術に関しては素人同然からスタートしているので、もう少しそのあたりもちゃんとやりたいというところからホットリンクさんとの話が進んでいます。
――ホットリンクとの提携での具体的な内容は。
南野:blogWatcherは今後も続けていきます。ホットリンクさんとは評判検索の部分がメインですね。いろいろアイディアはあるんですが、例えばブログ以外にも、2ちゃんねるやカカクコムのようなサイトからも評判情報が取得できたら面白そうだ、という考えはありますね。
――検索サービスの事業化は。
南野:検索そのものの事業化は考えていないですが、評判検索をさらに進めて、盛り上がりの検出や予測までいければ非常に面白いと思います。現状では評判の部分を並べているだけですが、たとえばノートPCなら「液晶は良いけど値段が高い」というように評価が分かれていることもありますよね。そういった情報をうまく要約して提示できるような技術が重要になってくると考えているので、いろいろな人の情報を集めるとその商品の善し悪しがわかるような、「意見集約エンジン」みたいなサービスは面白いかもしれません。
■ なんでもRSSは過去の遺産を今の技術に近づける

|
RSS非対応サイトからRSSを生成できる「なんでもRSS」
|
――RSS変換サイトとしてはMyRSS.jpがありますが、なんでもRSSの機能面での特徴は。
南野:(MyRSS.jpがテキストとリンク先URLを元にしているのに対して)、なんでもRSSは日付けとタイトルを見つけてRSSを作るというところが特徴でしょうか。日付けやタイトルがうまく見つからないと難しいですが、それさえできればたいていのページはRSS化できると思います。
日付けに関しては、例えば「2005」や「05」を「2005年」と認識するなど、さまざまな表記パターンに対応しています。大変なのは、ページの先頭に「2005年7月」と書いてあって、日記本文には「1日」「2日」しか書いていないような場合ですが、こういうケースも「2005年7月1日」とうまく補完するようにいます。ほかにも文中に登場するような日付けは認識せずに見出し的な日付けをうまく見つけたり、「17年」が「平成17年」なのか「2017年」なのかを判断したりと、いろいろなパターンを作って日付け表記に対応しています。
――RSSが普及したときのなんでもRSSの存在意義は。
南野:ブログがこれだけブームになっても、Web日記という過去の情報は残っているので、そういった過去の遺産もうまく扱えるという点でしょう。RSSに対応したページが大量に出てくれば、それはすばらしいことですが、なんでもRSSは過去の遺産を今の技術に近づけられるサービスではないかと思います。
■ スケールやスピードだけではないユーザーの利便性を追求
――blogWatcherは現在ベータ版ですが、正式版に向けた機能拡充は。
南野:今のblogWatcherはここで一段落と思っています。今後はブログのマイニングといった研究的な部分を進めていって、その成果が次のバージョンで出せればいいという感じですね。blogWatcherの2.0では未踏ソフトウェア創造事業の時からやろうと思っていたことがやっと実現できたので、この次の展開は新機能のような部分になると思います。
――新機能はどんなものになるでしょうか。
南野:今のところは「こんなことできたらいいね」と言っている段階で、特に明確なものはないのですね。ただ、評判検索に関しては、評判以外にも「こうして欲しい」という要望のような情報も重要ですし、「六本木ヒルズに行きました」という人が多ければ六本木ヒルズが注目を集めているといったように、行動そのものが実は評判に結びついているケースもありますので、そういった情報をうまく集めていきたいですね。
また、今はブログ全体でどういったことが盛り上がっているのかという機能を提供していますが、実際にはブログの中にもいろいろなコミュニティがあって、そのコミュニティの中で盛り上がっているようなニッチな話題も自動的に見つけられたら、Webはもっと面白くなるかなと思いますね。
――ソーシャルブックマークのようなイメージでしょうか。
南野:ソーシャルブックマークは、実はすごく興味があるんです。具体的に見えているわけではないんですが、ある人がブックマークした情報が広がっていくという点ではブログと共通しているところもあると思いますし、それを可視化してみたり、タグで情報を管理してみたりというところが非常に面白いと思います。自分達でサービスを立ち上げるかはわかりませんが、APIを公開しているサービスを利用するというのは面白いですし、やってみたいですね。
――ブログ検索のような業界の流れに対する感想は。
南野:大学でやっているという点は大きいですね。最近では、pingを打ってから数分でインデックス化されるというリアルタイム性がブログ検索の特徴として謳われていますが、大学では規模や人数などの問題もあって、そういったリアルタイム性ではなかなか勝負できない。だったら大学でしかできないような時間がかかる研究的なものや、メタデータだけではない文章そのものを解析するようなことを売りにしなければいけないと思います。スケールやスピードで劣っていたとしても、ただ検索するだけではない、ユーザーに便利なことに注力していきたいですね。
――本日はありがとうございました。
■ URL
blogWatcher
http://blogwatcher.pi.titech.ac.jp/
■ 関連記事
・ [第16回IPAX2005] RSSフィード作成機能などが追加された「blogWatcher」の新バージョン
・ blogWatcher、RSS非対応ページのRSSフィード作成機能など新機能を追加
・ キーワードの評判や注目度などを検索できるブログ検索「blogWatcher」
(甲斐祐樹)
2005/07/29 10:58
|