【Python】日本語テキストを解析するライブラリをご紹介!【Janome・MeCab】

本ページには、プロモーションが含まれています。

本記事ではPythonで日本語テキストを解析するライブラリをご紹介していきます。

ご紹介するライブラリは、JanomeとMeCabの2つです。

Janome

まずはJanomeを利用して日本語を解析する方法をご紹介します。

ライブラリをインポート

  1. pip install janome

まずは上記のプログラムをコマンドプロンプトなどで実行して、ライブラリをインポートしてください。

ライブラリのインポートが出来なかった場合は、下記の記事をご覧ください。

ソースコード

gist065b4f7c823d66b82e9243e290160c4b

MeCab

次はMeCabを利用する方法をご紹介していきます。

ライブラリをインポート

  1. pip install mecab-python3
  2. pip install unidic-lite

こちらも上記のプログラムをコマンドプロンプトなどで実行してインストールしてください。

1行目はライブラリ本体、2行目は辞書をインストールしています。

ソースコード

gistce556f508180a909e879e6ffb530a5f3

JanomeとMeCabの違い

簡単にまとめると下記のような違いとなります。

・Janome:お手軽に利用できる。精度は比較すると低い

・MeCab:本格的で高精度。様々な辞書が使える分複雑

上記のようになります。

簡単かつお試し程度で使うならJanome、本格的に利用するならMeCabを利用したほうがいいかもしれません。

筆者はMeCabを勉強していこうと思っていますので、本サイトに掲載する場合はMeCabになると思われます。

参考記事

note.nkmk.me

note.com


本記事の内容は以上となります。

いわゆる自然言語処理となり、面倒な作業を自動化したいときに利用する技術と言えます。

ぜひ自然言語処理を始めたい時は、本記事を参考にしてみてください。

本記事は以上です。お疲れさまでした。