過去の投稿記事 new!
・【画像】漫画でわかる外国人参政権
・東京電力のHPで停電状態が確認できたり(サービス再開!)
・戦国時代 ~ 江戸時代の徳川家康が熱かった
・vaio のバッテリは寿命が短いような気がする
・話題の Western Digital 製 WD20EARS を購入した
・C01LC をビックカメラで買ってきた
・2025年には空中都市が現実化?!
・【動画】わかりやすい「宇宙ひも理論」
・今世紀には「富士山噴火」「東海連動地震」「首都圏直下型地震」か?
・滅びた町、南浜町が Googleストリートビューで見れる

【 amazon 送料無料キャンペーン 】

バックリンクはご自由にどうぞ!     http://mfsocket.blogspot.com/feeds/posts/default?alt=rss リンク集 / ログイン

2011/09/22
tesseract を試してみた

 
Google オープンソースの OCR tesseract を試してみた。
 
Windows へのインストールは tesseract-ocr-setup-3.00.exe を実行でOK.
コマンドラインからの実行がメインとなります。
 
[入力] in.bmp
[出力] out.txt
 
とする場合、以下のようにコマンドから叩けばOK。
 
tesseract.exe in.bmp out.txt -l jpn
 
tesseract_test
 
抽出結果は、
 
te st
あまぞん
 
となった。BMP でやった場合 test の間に空白は無く完璧な状態だった。
けっこう使えるかも。
 
C/C++ からも使えるって事でビルドしようとしたのですが、
 
A. インクルードディレクトリ間違ってる
B. leptonlib.lib が必要
C. leptonlib.lib を作る為に zlib, libpng, libjpeg, lintiff が必要
 
となって、C の段階でめんどくさくなったので lib ファイル化は一旦中断。
 
利用するにしても CreateProcess/system などプロセスとして実行すれば
良いと考えたり。
 
C++ のサンプルソースから、利用する側のインターフェイスはある程度調べた
ので、どこかに leptonlib.lib  が転がっていれば良いのだが。
 
 
OCR の画像認識を自作したいと考えてる物好きな方は 2011年5月 に発売された
ばかりの  C言語による画像処理プログラミング入門 がお勧めです。


0 コメント:

  • コメントには <b>, <strong>, <em>, <i>, <a> など一部の HTML タグを使用できます。