トップページ -> データベース関連技術 -> ナンバープレート認識 -> Ubuntu で Tesseract 3.0.4 の学習(訓練)
[サイトマップへ], [サイト内検索へ]

Ubuntu で Tesseract 3.0.4 の学習(訓練)

Tesseract 3.0.4 の学習(訓練)には Linux を使うのが便利.Ubuntuでの Tesseract 3.0.4 の学習(訓練)の手順を説明する.

この Web ページでは、次の方針で学習(訓練)する

次のWebページの手順をたどる https://qiita.com/atuyosi/items/c0933b5edf605c4a7c19


前準備

Tesseract OCR のインストール

Ubuntu での Tesseract OCR のインストール手順: 別のページで説明している.

Tesseract OCR のテスト実行

最初に、画像ファイルを用意し、テスト実行してみる

tesseract 48.png outbase -l jpn
cat outbase.txt 

[image]

Tesseract OCR の訓練(学習)(Ubuntu 上)

  1. フォントファイルの確認
    ls /usr/local/share/langdata
    

    次のように表示されれば OK.

    [image]

    表示されないときは,次のページの手順で,フォントファイルを準備する.

    別のページで説明.

  2. Ubuntuにインストールされているフォントの確認
    text2image --list_available_fonts --fonts_dir /usr/share/fonts 
    

    [image]
  3. フォントの設定

    /usr/local/bin/language-specific.sh を編集し、 JPN_FONTS のところから、Ubuntu にインストールされていないフォントを消す。 そして、Ubuntu のフォントを指定する。

    エディタを管理者の権限で実行して編集する。

    Ubuntu 20.04 では次のように設定する。

    JPN_FONTS=( \
     "Noto Sans CJK JP" \
     "Noto Sans CJK JP Bold" \
     "Noto Sans CJK JP Heavy" \
     "Noto Sans CJK JP Light" \
     "Noto Sans CJK JP Medium" \
     "Noto Sans CJK JP Semi-Light" \
     "Noto Sans CJK JP Thin" \
     "Noto Sans Gothic" \
     )
    
  4. tesstrain.sh を実行してみる

    終了までしばらく待つ.(かなりの時間がかかる. 10時間以上)

    ※ フォントのインストールと設定ファイルに問題がないかの確認のため

    tesstrain.sh --overwrite --lang jpn --langdata_dir /usr/local/share/langdata --tessdata_dir /usr/local/share/tessdata
    
  5. 終了の確認

    エラーメッセージが出ていないこと。

    [image]
  6. インストール済みの jpn.traineddata を上書き
    sudo cp /tmp/tesstrain/tessdata/jpn.traineddata /usr/share/tesseract-ocr/tessdata/jpn.traineddata 
    
  7. テスト実行

    ※ 生成された jpn.traineddata に問題が無いかの確認のため

    tesseract 48.png outbase -l jpn
    cat outbase.txt 
    
  8. 縦書きしないことにしたいので、/usr/local/share/langdata/jpn/jpn.config から、次の行を消す
    tessedit_load_sublangs jpn_vert
    

    [image]
  9. フォントのインストール

    Ubuntu での実行手順例を次に示す.

    sudo apt -yV install -y fonts-takao-gothic
    sudo apt -yV install -y fonts-takao-mincho
    sudo apt -yV install -y fonts-takao-pgothic
    sudo apt -yV install -y fonts-takao
    sudo apt -yV install -y fonts-hanazono
    sudo apt -yV install -y fonts-horai-umefont
    sudo apt -yV install -y fonts-mona
    sudo apt -yV install -y fonts-monapo
    sudo apt -yV install -y fonts-sawaribi-gothic
    sudo apt -yV install -y fonts-umeplus
    sudo apt -yV install -y fonts-ipaexfont
    sudo apt -yV install -y fonts-ipaexfont-gothic
    sudo apt -yV install -y fonts-noto-cjk
    sudo apt -yV install -y fonts-noto 
    sudo apt -yV install -y fonts-noto-hinted 
    sudo apt -yV install -y fonts-noto-mono
    sudo apt -yV install -y fonts-noto-unhinted 
    sudo apt -yV install -y ttf-mscorefonts-installer
    
  10. Ubuntuにインストールされているフォントの確認
    text2image --list_available_fonts --fonts_dir /usr/share/fonts 
    

    [image]

    実行結果の例

    [image]
  11. /usr/local/bin/language-specific.sh の編集

    Ubuntuにインストールされていないフォントは、この設定ファイルの中から消したい

    JPN_FONTS のところで、 次を削除することにする(両方とも削除)

        "TakaoExGothic" \
        "TakaoExMincho" \
    
        "VL Gothic" \
        "VL PGothic" \
    

    編集の結果、次のようになる

    [image]

    縦書きを行わないことにしたいので、VERTICAL_FONTS のところで、 次の2行を削除することにする

        "TakaoExGothic" \ # for jpn
        "TakaoExMincho" \ # for jpn
    

    編集の結果、次のようになる

    [image]
  12. 確認のため,tesstrain.sh を実行してみる

    ※ フォントのインストールと設定ファイルに問題がないかの確認のため

    tesstrain.sh --overwrite --lang jpn --langdata_dir /usr/local/share/langdata --tessdata_dir /usr/local/share/tessdata
    

    [image]
  13. 上の実行の結果、エラーメッセージが出ていないことを確認

    [image]
  14. インストール済みの jpn.traineddata を上書き
    sudo cp /tmp/tesstrain/tessdata/jpn.traineddata /usr/share/tesseract-ocr/tessdata/jpn.traineddata 
    

    [image]
  15. テスト実行

    ※ 生成された jpn.traineddata に問題が無いかの確認のため

    tesseract 48.png outbase -l jpn
    cat outbase.txt 
    

    [image]
  16. フォントを追加したいので、/usr/local/share/langdata/font_properties を編集
    IPAexMincho 0 0 0 1 0
    IPAexGothic 0 0 0 0 0
    Noto Sans Gothic 0 0 0 0 0
    Ume_Gothic 0 0 1 0 0
    Ume_P_Gothic 0 0 0 0 0
    

    [image]
  17. フォントを追加したいので、/usr/share/tesseract-ocr/language-specific.sh を編集

    次を追加

    IPAexMincho 
    IPAexGothic 
    Noto Sans Gothic
    Ume Gothic
    Ume P Gothic
    UmePlus Gothic
    UmePlus P Gothic
    

    [image]
  18. tesstrain.sh を実行
    tesstrain.sh --overwrite --lang jpn --langdata_dir /usr/local/share/langdata 
    

    [image]
  19. 上の実行の結果、エラーメッセージが出ていないことを確認

    [image]
  20. インストール済みの jpn.traineddata を上書き
    sudo cp /tmp/tesstrain/tessdata/jpn.traineddata /usr/share/tesseract-ocr/tessdata/jpn.traineddata 
    

    [image]
  21. テスト実行

    ※ 生成された jpn.traineddata に問題が無いかの確認のため

    tesseract 48.png outbase -l jpn
    cat outbase.txt 
    

    [image]

本サイトは金子邦彦研究室のWebページです.サイトマップは,サイトマップのページをご覧下さい. 本サイト内の検索は,サイト内検索のページをご利用下さい.

問い合わせ先: 金子邦彦(かねこ くにひこ) [image]

"Noto Serif CJK JP" \ "Noto Serif CJK JP Bold" \ "Noto Serif CJK JP Heavy" \ "Noto Serif CJK JP Light" \ "Noto Serif CJK JP Medium" \ "Noto Serif CJK JP Semi-Bold" \ "Noto Serif CJK JP Ultra-Light" \