Windows での,Tesseract OCR 5 のインストールと日本語文書読み取りの手順をスクリーンショット等で説明する.Tesseract OCR は,文字認識ソフトウエアである.
種々の利用法は,別ページにまとめている.
手順については https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05
先人に感謝
安定版が欲しいときは,下の「older versions」からダウンロード
対応言語を追加できる.
次の画像は、Wikipedia「日本国憲法前文」から取得
まず,コマンドプロンプトで,カレントディレクトリを,画像のファイルのあるディレクトリに移動する.
「-l jpn」のところ: 日本語の横書き文書なら「-l jpn」、 日本語の縦書き文書なら「-l jpn_vert」、
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
notepad outbase.txt
次の画像は、Wikipedia「日本国憲法前文」から取得
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
notepad outbase.txt