金子邦彦研究室人工知能Windows で動く人工知能関係 Pythonアプリケーション,オープンソースソフトウエア)Tesseract OCR 5.3.3 のインストールと動作確認(多言語の文字認識)(Windows 上)

Tesseract OCR 5.3.3 のインストールと動作確認(多言語の文字認識)(Windows 上)

要約】 Tesseract OCR 5.3.3はWindows上での多言語文字認識ソフトウェアである.公式ページからインストール手順を確認し,必要な言語データをダウンロードして適切なディレクトリにインストールする.Windowsでの日本語文書読み取りには,画像を用意しコマンドプロンプトで指定コマンドを入力し,文字認識を行う.高解像度画像を使うことで、認識の精度が向上する傾向にあるようだ.以上がTesseract OCR 5.3.3のインストールと使い方の手順である.

関連する外部ページ

公式ページ: https://github.com/tesseract-ocr/tessdoc

サイト内の関連ページ

Tesseract OCR 5 のダウンロードとインストール

  1. Tessearact OCR の公式ドキュメントのページを開く

    https://github.com/tesseract-ocr/tessdoc

  2. Windows のところの「Tesseract at UB Mannheim」をクリック

    [image]
  3. 最新版を選ぶ

    古い版を使いたいときは,下の「older versions」からダウンロード

    [image]
  4. .exe ファイルのダウンロードが始まる

    [image]
  5. ダウンロードした .exe ファイルを実行
  6. 最初の画面では「OK」をクリック

    [image]
  7. ようこそ画面では「Next」をクリック

    [image]
  8. ライセンス条項の確認
    ライセンス条項に同意する場合のみ続行すること.

    [image]
  9. ユーザの選択 (Choose Users).既定(デフォルト)のままでよい.「Next」をクリック

    [image]
  10. コンポーネントの選択 (Choose Components).

    対応言語を追加できる.

  11. インストールディレクトリ(フォルダ)は、既定(デフォルト)のままでよい.「Next」をクリック

    [image]
  12. スタートメニューフォルダは、既定(デフォルト)のままでよい.「Install」をクリック

    [image]
  13. インストール終了の確認.「Next」をクリック

    [image]
  14. インストール終了の確認.「Finish」をクリック

    [image]

画像からの日本語読み取り

  1. 日本語の文章が書かれた画像を用意する

    次の画像は、Wikipedia「日本国憲法前文」から取得

    Wikipedia「日本国憲法前文」のURL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

    [image]
  2. Windowsコマンドプロンプトを開く
  3. 画像から文字を認識してみる

    まず,コマンドプロンプトで,カレントディレクトリを,画像のファイルのあるディレクトリに移動する.

    「-l jpn」のところ: 日本語の横書き文書なら「-l jpn」、 日本語の書き文書なら「-l jpn_vert」、

    "C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
    

    [image]
  4. outbase.txtというファイルができるので,メモ帳で確認
    notepad outbase.txt
    

    [image]

    [image]
  5. 今度は解像度が高い(画素数が多い)画像を使ってみる.

    次の画像は、Wikipedia「日本国憲法前文」から取得

    その URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

    [image]
  6. 画像から文字を認識してみる
    "C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
    

    [image]
  7. outbase.txtというファイルができるので,メモ帳で確認
    解像度が精密なので,精度が向上している.
    notepad outbase.txt
    

    [image]

    [image]