形態素解析って何?
形態素解析(けいたいそかいせき)とは、形態素に品詞付けを行う作業です。
機械学習の現場では、自然言語処理を実行するときの第二のステップとして、分かち書きの次に形態素解析を行います。
(ただし、場合によっては、分かち書きと品詞付けを合わせて形態素解析と呼ぶ場合もあります)
自然言語処理というのは、人間の言語である「自然言語」をコンピュータで分析するための処理のことです。
漢字にするといかめしいですが、今ここで読んでいる「この文字」や「あの文字」も、"Thank you!"も全て、自然言語です。
👉参考記事:『自然言語処理(NLP)とは何か? 自然言語とプログラミング言語の違いを知ろう!』
自然言語は、コンピュータの言語である機械語や、その翻訳用言語であるプログラミング言語とは、言葉のルールや構成が大きく違います。
そのため、そのまま自然言語データをを分析しようとしても、コンピュータがうまく処理してくれません。
そこで登場するのが、機械学習の一分野である「自然言語処理」です。
自然言語処理の実行は5つのステップに分かれ、「形態素解析」は、その第二ステップに位置付けられます。
👉参考記事:『自然言語処理の5つの実行ステップとは?「曖昧さ」への対応策としての機械学習』
形態素への品詞付けって?
形態素とは?
まず、形態素とは、「それだけで意味をもつ、これ以上分割できない最小の語の単位」のことで、自然言語の文を「分かち書き(小さい語のまとまりに分けて書くこと)」することで得られます。
例えば、「わたし」「あなた」「星空」「キレイ」「の」「に」といった語は、これ以上分割すると意味をなさなくなるので、形態素と言えます。
試しに、「わたし」を「わた」と「し」に分割すると、意味が通りません(もちろん「綿」と「市」と読めなくもないですが、もともとの意味から変わってしまいます)。
あえて例えるなら、化学でいうところの原子、数学で言うところの素因数、といったところでしょうか。
私たちが普段使っている言語は、この形態素がたくさん集まってできたものです。
品詞付けとは?
最小単位の語である形態素の「品詞」を見分けることを「品詞付け」と言います。
品詞とは、「単語を文法的な機能や形態などによって分類したもの(Wikipedia)」のことで、概ね下記のように分類されます。
単独で文節を形成できるか | 活用するか否か | 品詞(大) | 品詞(小) | 例 |
できる(自立語) | 活用する | 動詞 | - | 走る、歩く |
形容詞 | - | 美しい、明るい | ||
形容動詞 | - | 静かだ、親切だ | ||
活用しない | 名詞 | 代名詞 | あれ、それ | |
数詞 | 三つ、第8 | |||
連対詞 | - | 君の名、大した男 | ||
副詞 | - | すっかり、ゆっくり | ||
接続詞 | - | しかし、だから | ||
感動詞 | - | ああ、おや | ||
できない(付属語) | 活用する | 助動詞 | - | られる、らしい |
活用しない | 助詞 | - | を、に、の |
わかりやすく言えば、品詞付けとは、「ある語が文の中でどんな役割をもっているか?」を明らかにすることです。
形態素解析という言葉の「解析」というのは、品詞付けを行うことで「言葉の役割を丸裸にしちゃおう!」という意味で使われています。
形態素解析の具体的なやり方
では、具体的な例をみてみましょう。
自然言語処理のタスクとして、下記の文が与えられたとします。
「眩しい光と発見に感動を覚えた」
眩しい / 光 / と / 発見 / に / 感動 / を / 覚え / た
- 眩しい:形容詞(※)
- 光:名詞
- と:助詞
- 発見:名詞
- に:助詞
- 感動:名詞
- を:助詞
- 覚え:動詞
- た:助動詞
(※)「眩しい」の「い」は、意味や文法上の機能をなさないけれども、一つの形態素として成立するとする見方もあります。
このように、形態素解析は、分かち書きによって得られた形態素に品詞付けを行うことで、各語の文中における役割を明らかにする作業です。