本記事ではPythonで日本語テキストを解析するライブラリをご紹介していきます。
ご紹介するライブラリは、JanomeとMeCabの2つです。
Janome
まずはJanomeを利用して日本語を解析する方法をご紹介します。
ライブラリをインポート
- pip install janome
まずは上記のプログラムをコマンドプロンプトなどで実行して、ライブラリをインポートしてください。
ライブラリのインポートが出来なかった場合は、下記の記事をご覧ください。
【Python】ライブラリをインポートできない時の対処法をまとめてご紹介! - TomoGのごちゃまぜ倉庫
ソースコード
gist065b4f7c823d66b82e9243e290160c4b
MeCab
次はMeCabを利用する方法をご紹介していきます。
ライブラリをインポート
- pip install mecab-python3
- pip install unidic-lite
こちらも上記のプログラムをコマンドプロンプトなどで実行してインストールしてください。
1行目はライブラリ本体、2行目は辞書をインストールしています。
ソースコード
gistce556f508180a909e879e6ffb530a5f3
JanomeとMeCabの違い
簡単にまとめると下記のような違いとなります。
・Janome:お手軽に利用できる。精度は比較すると低い
・MeCab:本格的で高精度。様々な辞書が使える分複雑
上記のようになります。
簡単かつお試し程度で使うならJanome、本格的に利用するならMeCabを利用したほうがいいかもしれません。
筆者はMeCabを勉強していこうと思っていますので、本サイトに掲載する場合はMeCabになると思われます。
参考記事
本記事の内容は以上となります。
いわゆる自然言語処理となり、面倒な作業を自動化したいときに利用する技術と言えます。
ぜひ自然言語処理を始めたい時は、本記事を参考にしてみてください。
本記事は以上です。お疲れさまでした。