2011/09/22

tesseract を試してみた

 
Google オープンソースの OCR tesseract を試してみた。
 
Windows へのインストールは tesseract-ocr-setup-3.00.exe を実行でOK.
コマンドラインからの実行がメインとなります。
 
[入力] in.bmp
[出力] out.txt
 
とする場合、以下のようにコマンドから叩けばOK。
 
tesseract.exe in.bmp out.txt -l jpn
 
tesseract_test
 
抽出結果は、
 
te st
あまぞん
 
となった。BMP でやった場合 test の間に空白は無く完璧な状態だった。
けっこう使えるかも。
 
C/C++ からも使えるって事でビルドしようとしたのですが、
 
A. インクルードディレクトリ間違ってる
B. leptonlib.lib が必要
C. leptonlib.lib を作る為に zlib, libpng, libjpeg, lintiff が必要
 
となって、C の段階でめんどくさくなったので lib ファイル化は一旦中断。
 
利用するにしても CreateProcess/system などプロセスとして実行すれば
良いと考えたり。
 
C++ のサンプルソースから、利用する側のインターフェイスはある程度調べた
ので、どこかに leptonlib.lib  が転がっていれば良いのだが。
 
 
OCR の画像認識を自作したいと考えてる物好きな方は 2011年5月 に発売された
ばかりの  C言語による画像処理プログラミング入門 がお勧めです。


0 件のコメント:

コメントを投稿