トップページデータベース研究日本語処理,言語処理Juman++ を使ってみる(Google Colab あるいは Ubuntu 上)

Juman++ を使ってみる(Google Colab あるいは Ubuntu 上)

形態素解析は、文章を形態素に分割し、それぞれの品詞等を判定すること.

Juman++ は,次のURLで公開されている形態素解析のソフトウエア.利用条件等は利用者自身で確認すること.

URL: https://github.com/ku-nlp/jumanpp

Google Colab へのリンク

このページの内容は,Google Colab でも実行できる.

そのために,次の URL で,Google Colab のノートブックを準備している.

次のリンクをクリックすると,Google Colab のノートブックが開く. そして,Google アカウントでログインすると,Google Colab のノートブック内のコードを実行することができる.Google Colab のノートブックは書き換えて使うこともできる.このとき,書き換え後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/1crvKLXzky5IX4xAmZiLJdvsyPu6VReqK?usp=sharing

前準備

pip と setuptools と venv の更新,Python 開発環境(JupyterLab, spyder, nteract)のインストールなど(Ubuntu 上)

端末で,次のコマンドを実行.

sudo apt -y install python3-dev python3-pip python3-setuptools python3-venv
sudo pip3 uninstall ptyprocess sniffio terminado tornado jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter spyder
sudo apt -y install jupyter jupyter-qtconsole spyder3
sudo apt -y install python3-ptyprocess python3-sniffio python3-terminado python3-tornado
sudo pip3 install -U jupyterlab nteract_on_jupyter

Juman++ を動かしてみる(Ubuntu 上)

Juman++ の準備

  1. アセットの確認

    https://github.com/ku-nlp/jumanpp/releases

  2. eigen3, protobuf のインストール
    sudo apt -y install libeigen3-dev libprotobuf-dev protobuf-c-compiler
    
  3. Python の pyknp のインストール

    pyknp の URL: https://pyknp.readthedocs.io/en/latest/

    利用条件などは利用者で確認すること。

    sudo apt -y install libeigen3-dev libprotobuf-dev protobuf-c-compiler
    
  4. Juman++ のソースコード(事前学習済みモデルを含む)のダウンロードとインストール

    次のコマンドは,2.0.0-rc3 を試したいときの手順

    バージョンはアセットで確認できる

    sudo apt -y install libeigen3-dev libprotobuf-dev protobuf-c-compiler
    sudo pip3 install -U pyknp
    cd /tmp
    wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz
    tar -xvJof jumanpp-2.0.0-rc3.tar.xz
    cd jumanpp-2.0.0-rc3
    mkdir build
    cd build
    rm CMakeCache.txt
    cmake .. -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=/usr/local
    make
    sudo make install
    

使ってみる

  1. echo を用いて動作確認
    echo 'こんにちは,今日は晴れです' | jumanpp
    

    [image]
  2. Python で動かしてみる

    https://pyknp.readthedocs.io/en/latest/ で公開されているソースコードを使用.

    from pyknp import Juman
    jumanpp = Juman()   # default is JUMAN++: Juman(jumanpp=True). if you use JUMAN, use Juman(jumanpp=False)
    result = jumanpp.analysis("下鴨神社の参道は暗かった。")
    for mrph in result.mrph_list(): # 各形態素にアクセス
        print("見出し:%s, 読み:%s, 原形:%s, 品詞:%s, 品詞細分類:%s, 活用型:%s, 活用形:%s, 意味情報:%s, 代表表記:%s" \
                % (mrph.midasi, mrph.yomi, mrph.genkei, mrph.hinsi, mrph.bunrui, mrph.katuyou1, mrph.katuyou2, mrph.imis, mrph.repname))
    

    [image]