tesseractとhocr

tesseract-ocrでhocrを作るのに手間取ったのでメモ

Ubuntu14.04

tesseractは標準で
$sudo apt-get install tesseract-ocr

TESSDATA_PREFIXを適当に設定し，engのトレーニングデータは入れておく
/use/local/share/tessdata

$TESSDATA_PREFIX/configs/hocr

tessedit_create_hocr 1
tessedit_pageseg_mode 1

と記述．

で，いけるはず．

これで各単語の位置を読み出せる．

＊pythonバインディングでは tesseract.TessBaseAPISetRectangleに対応できてないっぽいので

DTSのブログ