Broadband Watch logo

スキャナ代わりにデジカメでOCR! 「やさしくデジカメOCR」


 メディアドライブの「やさしくデジカメOCR」は、デジタルカメラで撮った写真からOCR処理でテキストを抽出するソフトだ。通常のOCRソフトはスキャナを用いるのが常だが、本製品はスキャナのかわりにデジカメを利用できるのが特徴だ。


スキャナがなくてもOCRが手軽に使える

メディアドライブの「やさしくデジカメOCR」。同社のOCRソフト「e.Typist」のエンジンをデジカメ用に最適化したものを採用している。パッケージ版の価格は5,229円で、ダウンロード版も用意されている
 メモの代わりに、本や書類をデジタルカメラで撮影した経験のある人は多いだろう。本製品はそんなデジカメ画像をOCRで処理し、テキストを抽出してしまおうというソフトである。手持ちのデジカメを使ってOCRが利用できるので、フラットベッドスキャナなどハードウェアへの追加投資もいらないというのが大きなメリットだ。解像度の条件を満たしていればカメラ付きケータイでも構わないので、出先でメモ代わりに撮影した写真をOCR処理し、テキストデータに簡単に変換できる。持ち運びに向かないフラットベッドスキャナと異なり、電車やバスの時刻表など、屋外の展示物や看板などからの入力も容易だ。

 しかし、ピントがほぼ確実に合った状態で真正面から取り込みができるスキャナと違い、デジカメで撮影する場合、クリアしなければいけない問題は多い。光量不足やピンボケ、手ブレ、解像度の不足はもちろんのこと、被写体を真正面から撮影できずに歪みが発生するケースも多々ある。筆者もかつてデジカメで撮影した写真を一般的なOCRソフトで処理してみたことがあるが、まったく認識されなかった経験がある。

 本製品はこれらデジカメならではの問題点をクリアするために、標準的なウィザード機能だけでなく、数々の画像補正機能を装備している。実際の手順を見ながらこれらの特徴を説明していこう。


まずは画像を取り込んで修正。自動処理も可能

 では、基本的な使い方を見ていこう。まずはデジカメで撮った画像を本製品に取り込む作業だ。USBマスストレージクラス対応のデジカメからケーブル経由で直接取り込むこともできるし、あらかじめPCにコピーしておいたデジカメ画像を本製品に取り込んでも構わない。取り込み時には、とりあえず「読み込み」だけを行なうか、もしくは後述する「レイアウト解析」「文字認識」「保存」まですべて行なうのかを選択する。

 画像を読み込んだら、以降の認識処理がしやすくなるようい、傾きや歪みの修正、色合いや手ぶれ補正、ノイズ削除といった作業を行なう。これらは自動でも手動でも行なうことができるが、実際は、自動処理をかけたあとに手動で調整するといった流れになるだろう。画像修正機能の項目名は、Photoshopなどのような一般的な画像ソフトとは少々違った体系だが、基本は自動処理だけに大きく迷うことはないはずだ。


今回用意したデジカメ画像。デジカメの対応機種としては、200万画素以上で接写可能な機種(400万画素以上推奨)とされている。ここ2~3年のデジカメ、および最新式のケータイならまず問題ない条件だ。ちなみにこの画像は、どの程度正確に認識できるかを試すため、わざと影を落として撮影したもの。元画像の解像度は1,600×1,200ピクセル 「やさしくデジカメOCR」に画像を読み込んだところ。左列にサムネイル、右列にプレビューが表示される。レイアウト解析を行なったあとなので、テキストエリアが囲まれて表示されている

OCR処理の結果。左側にオリジナル画像、右側に変換結果が表示されている。これは無修正の状態だが、誤字もなく良好な結果が得られた。もし間違いがあった場合は、この画面で見比べながら修正できる 試しに元画像を1,600×1,200から320×240まで縮小してから読み込み、同様にOCR処理した結果。さすがにここまで縮小して処理すると間違いが多発する

 この画像修正機能の中で、本製品ならではと言える機能が「長方形補整」だ。これは、画像が傾斜している場合、水平・垂直にまっすぐに切り出してくれるという機能だ。使い方は簡単で、画面右に表示されるプレビュー画像を見ながら、画面左の画像のワク線をドラッグし、長方形に近づけていくだけ。被写体を真正面から撮影できなかった場合、この機能を用いることで、真正面から撮ったように変換してOCR処理にのぞむことができる。

 また、よく似た機能として「樽型歪補整」もあるので、画像の状態に応じて使い分けることができる。おそらく、これらの機能だけ欲しいユーザーも多いのではないだろうか。


サンプルとして用意した時刻表の写真。元画像の解像度は1,600×1,200ピクセル 手動補正を行なうための画面。ウィザード形式での自動補正もできるが、実際にはこれらの画面を開いて手動で設定することも多い

手ぶれ・ピンぼけを補正するための画面。スキャナ取込を前提としたOCRソフトにはない機能だ 本製品の目玉である「長方形補整」機能。左のオリジナル画像のワク線をドラッグして調整するだけで、真正面から撮影したかのような状態(右)に変換できる

OCRの認識率は高い。WordやExcelへの直接書き出しも可能

 画像の修正が終わったら、次はレイアウト解析だ。デジカメ画像のレイアウトを解析し、どの部分をOCR処理するかを決定する。ここではテキストのタテ書きヨコ書きの指定のほか、領域の種別(文章/画像/表など)や、ルビの処理方法なども指定できる。例えば、時刻表のような画像は、ここで領域種別指定を「表領域」にしておく。

 今回、撮影状態の悪い画像をどこまで解析できるか試すため、撮影時にわざと影を落としたり、全体を赤く着色した画像を用意していたのだが、ここでの解析にはほとんど影響がなかった。元の1,600×1,200サイズを320×240サイズまで縮小するとさすがに認識率は低下したが、640×480サイズくらいまではほとんど結果に影響しなかった。


時刻表のような表形式の画像は「領域種別指定」で表領域を指定すると良い 表領域を指定して変換した結果。文字がつぶれがちな細かいルビまできちんと変換されている

 レイアウト解析が終わったらいよいよOCRによる認識を行なう。OCRによって変換されたテキストデータが、オリジナル画像と並んで表示されるので、認識間違いがある場合はオリジナル画像と見比べながら修正する。ちなみに、ここで文字を“学習”させながら作業を行なえば、以降の認識精度を高めることもできる。

 最終的に、テキストデータをテキスト形式もしくはWordやExcel形式で書き出せば、作業は完了だ。繰り返しになるが、ここまでの一連の作業は個別にマニュアルで行なうこともできるし、「読み込み」から「保存」までの工程をウィザードで自動処理することもできる。ある程度内容が似通った画像を連続して取り込む場合は、自動処理を用いると便利だろう。ちなみに、1度に読み込める画像は最大50枚までとなっている。

 なお、これはOCR全般に言えることだが、ロゴなどの装飾されたテキストや、印刷がつぶれた文字の認識率は高くない。高度な修正機能を備えている本製品でもその傾向は変わらないので、ある程度の修正は覚悟しておく必要がある。もっとも、本製品の認識精度はかなり高いので、適切なオプションを指定しておけば、それほど修正の手間はかからないだろうと感じた。


変換結果をExcelなどへ直接出力することも可能。なお、オプションでルビを削除する指定も可能だ メイン画面上部にはウィザード形式のボタンが並んでおり、操作の流れがわかりやすい

手動での設定項目数は多く迷いがち。画像の種類ごとにプリセットが欲しい

環境設定画面。細かいカスタマイズが可能だが、その反面わかりにくさも伴う
 本製品は、家族みんなで使って楽しむ類のソフトとは言い難く、かといってビジネスユースとして法人単位で購入する類のソフトでもない。現実的には「業務効率を上げたいビジネスマンが自腹で購入する」類のソフトではないかと思う。例えば、OCRの便利さを業務に利用したいと思っているが、職場にはスキャナがないため、自前のデジカメと本製品を組み合わせてOCR環境を構築するといったパターンだ。

 ホームユースでもなければ、ビジネスアプリケーションでもないという微妙なポジションは、本製品の操作体系にも見え隠れしている。例えば、ウィザードを用いた初心者向きのインターフェイスを備えていながら、認識率を向上させるためには「領域種別指定」や「段組指定」の手動設定が事実上必須である点だ。

 本製品の修正機能やレイアウト解析のオプションは、画像の種類に応じてきめ細かく設定できる反面、あまりにも項目数が多く、一見しただけではどのオプションにチェックを入れるべきなのかわかりにくい。また、利用頻度の高い設定項目がオプションとしてかなり深い階層に隠されているなど、メニューの配置にちぐはぐな点も見られる(実はツールバ-にボタンとして配置されていたりするのだが、ラベルもなく直感的にわかりにくい)。毎日のようにソフトを使えばすぐに慣れるかもしれないが、購入者層を考えても、それだけ高い頻度で使うユーザーはおそらく稀だろう。

 せめてこれらの設定項目を「一般的なビジネス文書」「画像交じりの雑誌記事」「時刻表」といったプリセットされた条件の中から選べるようになっていれば、手動で設定する項目が減って使いやすくなるだろう。また、現状では手動でオプションを設定した場合、ソフトを再起動しても設定内容が維持されたまま残ってしまう。そのため、前の設定が残ったまま解析を行なってしまい、おかしな変換結果になるということが起こりうる。前述のプリセットボタンとともに、すべての設定を一発で初期状態に戻せるボタンをぜひ用意してほしい。


OCRが手軽に体験できる

 カメラ付きケータイが珍しい存在ではなくなり、デジカメもますます普及しつつある現在、これをスキャナの代わりに使うことでOCRの敷居を下げるというアプローチは歓迎できる。本製品のようなソフトが認知されることで、OCRそのものの普及が進むことも期待できるだろう。

 操作性の面ではまだ一歩こなれていない部分はあるものの、OCR自体の変換精度は悪くなく、手軽にOCRを体験できるという点では他の追従を許さない。レイアウト解析-認識処理のさらなる自動化とインターフェイス面での進化に期待したい。


関連情報

URL
  製品情報
  http://pac.mediadrive.jp/docr/
  メディアドライブ
  http://mediadrive.jp/


(後藤重治)
2005/09/28 11:10
Broadband Watch ホームページ
Copyright (c) 2005 Impress Watch Corporation, an Impress Group company. All rights reserved.