SOFTELメモ

</> 技術者募集

tesseractで日本語OCR

問題

tesseractで日本語OCR、できる?

tesseract

答え

まだちょっと厳しいんじゃないかなぁ。。。 という結果でした。

以下の画像を読み取らせた結果が、

softel

株式会ネ土 ソ フ テ丿 レ

でした。

チューニングの余地があるのか、読み取り結果をさらに調整するのがよいのか、読み取りやすいように加工した画像を渡すべきなのか、何かしらの方法で改善しないと、このまま使うのは無理な感じです。


導入手順例

CentOSで使ってみたときの手順メモします。

GoogleCodeからソースを持ってきて、解凍して、コンパイルします。

# wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
# tar zxf tesseract-ocr-3.02.02.tar.gz
# cd tesseract-ocr
# ./configure
# make
# make install

configureで、「leptonica がないよ(configure: error: leptonica not found)」と言われたら、leptonicaをインストールしてから、makeする。

# wget http://leptonica.googlecode.com/files/leptonica-1.69.tar.bz2
# tar jxf leptonica-1.69.tar.bz2
# cd leptonica-1.69
# ./configure
# make
# make install

日本語、英語…など各種言語に対応するには、言語データを追加する。

デフォルトで /usr/local/share/tessdata/ に言語データをおけばよいようなので、tesseract-ocr-3.02.eng.tar.gz や tesseract-ocr-3.02.jpn.tar.gz などを取得、解凍して、jpn.traineddata などのファイルを /usr/local/share/tessdata/ に置く。


動作確認例

1、どこかのスクリーンショットかペイントソフトなどで文字入りの画像を作る。

2、tiffにする

convert sample.png sample.tiff

3、設定があれば tess.conf に書いて

4、tesseractする

tesseract sample.tiff out -l jpn -psm 7 tess.conf

-lオプションは言語、-psmオプションは1行か、1単語かなどの読み取り方の指定。

5、結果を確認する

cat out.txt

関連するメモ

コメント(2)

take 2013年6月27日 12:15

某大規模掲示板を意識したかのような読み取り結果ですね~

yoshimura 2013年6月27日 12:28

決してふざけているわけではないんですけど!あのような結果になってしまいました。
名刺管理などに使えないかなと思ったのですが、まだ無理そうですね。