金子邦彦研究室インストールオープンデータ,データファイル処理ipadic 辞書(CSV ファイル)から SQLite 3 データベースを生成(Ubuntu 上)

ipadic 辞書(CSV ファイル)から SQLite 3 データベースを生成(Ubuntu 上)

このページでは,

を行う。

前準備

SQLite 3 のインストール

SQLite 3は,リレーショナルデータベース管理システム

あらかじめ決めておく事項

このページでは,SQLite 3 データベースの生成を行う. 生成するSQLite 3 データベースのデータベース名を決めておくこと.

生成するSQLite3 データベース名: /tmp/ipadic.db

データベース名は,自由に決めてよいが,半角文字(つまり英字と英記号)を使い,スペースを含まないこと,

使用する CSV ファイルの確認(Ubuntu 上)

端末で,次のコマンドを実行する.

ls /usr/share/mecab/dic/ipadic/*.csv

SQLite 3 データベースの生成

テーブル定義

ipadic(表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音)

  1. csvkit, mecab, nkf のインストール
    sudo apt -y install csvkit mecab-ipadic-utf8 nkf
    
  2. 各列の属性名
    rm -f /tmp/header
    echo "表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音" > /tmp/header
    
  3. CSV ファイルの生成
    cd /usr/share/mecab/dic/ipadic
    rm -f /tmp/ipadic.csv
    cat /tmp/header *.csv | nkf -w > /tmp/ipadic.csv
    

    [image]
  4. CSV ファイルから SQLite 3 データベースの生成
    rm -f /tmp/ipadic.db
    csvsql --db sqlite:////tmp/ipadic.db --insert /tmp/ipadic.csv
    echo "vacuum;" | sqlite3 /tmp/ipadic.db
    echo "select * from ipadic limit 20;" | sqlite3 /tmp/ipadic.db
    

    [image]