tesseract-ocrでhocrを作るのに手間取ったのでメモ
Ubuntu14.04
tesseractは標準で
$sudo apt-get install tesseract-ocr
TESSDATA_PREFIXを適当に設定し,engのトレーニングデータは入れておく
/use/local/share/tessdata
$TESSDATA_PREFIX/configs/hocr
tessedit_create_hocr 1
tessedit_pageseg_mode 1
と記述.
で,いけるはず.
これで各単語の位置を読み出せる.
*pythonバインディングでは tesseract.TessBaseAPISetRectangleに対応できてないっぽいので