tesseractとhocr

tesseract-ocrでhocrを作るのに手間取ったのでメモ

Ubuntu14.04

tesseractは標準で
$sudo apt-get install tesseract-ocr

TESSDATA_PREFIXを適当に設定し,engのトレーニングデータは入れておく
/use/local/share/tessdata

$TESSDATA_PREFIX/configs/hocr

tessedit_create_hocr 1
tessedit_pageseg_mode 1

と記述.

で,いけるはず.

これで各単語の位置を読み出せる.

*pythonバインディングでは tesseract.TessBaseAPISetRectangleに対応できてないっぽいので

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です