AIを学ぶ

自然言語処理のステップ①:「分かち書き」とは?

投稿日:2020年8月30日 更新日:

分かち書きとは?

分かち書き(わかちがき)とは、読んで字のごとく、一つの文を小さい語のまとまりに「分けて」「書く」ことです。機械学習の現場では、自然言語処理を実行するときの最初のステップとして、分かち書きを行います。

自然言語処理というのは、人間の言語である「自然言語」をコンピュータで分析するための処理のことです。漢字にするといかめしいですが、今ここで読んでいる「この文字」や「あの文字」も、"Thank you!"も全て、自然言語です。

👉参考記事:『自然言語処理(NLP)とは何か? 自然言語とプログラミング言語の違いを知ろう!

自然言語は、コンピュータの言語である機械語や、その翻訳用言語であるプログラミング言語とは、言葉のルールや構成が大きく違います。

そのため、そのまま自然言語データをを分析しようとしても、コンピュータがうまく処理してくれません。

そこで登場するのが、機械学習の一分野である「自然言語処理」です。自然言語処理の実行は5つのステップに分かれ、「分かち書き」は、その第一ステップに位置付けられます。

👉参考記事:『自然言語処理の5つの実行ステップとは?「曖昧さ」への対応策としての機械学習』

 

分かち書きの具体的なやり方

分かち書き=形態素への分解!

分かち書きによって分割された複数の小さい語のまとまりのことを形態素(けいたいそ)と呼びます。形態素とは、「それだけで意味をもつ、これ以上分割できない最小の語の単位」のことです。

例えば、「わたし」「あなた」「星空」「キレイ」「の」「に」といった語は、これ以上分割すると意味をなさなくなるので、形態素と言えます。試しに、「わたし」を「わた」と「し」に分割すると、意味が通りません(もちろん「綿」と「市」と読めなくもないですが、もともとの意味から変わってしまいます)。

分かち書きの作業では、語がもつ情報の質を考えていくために、与えられた一つの文を、こうした形態素へと分解するのです。

分かち書きをやってみよう!

出典:かわいいフリー素材集「いらすとや」

では、具体的な例をみてみましょう。

自然言語処理のタスクとして、下記の文が与えられたとします。

  • 「眩しい光と発見に感動を覚えた」

この自然言語文を処理するために、機械学習ではまず、次のように分かち書きを行います。

  • 眩しい(※) / 光 / と / 発見 / に / 感動 / を / 覚え / た

(※)「眩しい」の「い」は、意味や文法上の機能をなさないけれども、一つの形態素として成立するとする見方もあります。

先ほどみたように、「眩しい」は「眩」と「しい」には分けられませんし、「発見」を「発」と「見」に分けたら形態素としては不合格でしょう。

逆に、「覚えた」のように、「覚える」という基本動詞の語幹「覚え」と、過去を表す助動詞である「た」という異なる2つの形態素が結合して一語に見える場合もあります。

これを、「覚えた」で一つの形態素と判断してしまったら、分かち書きの作業としては失敗です。

このように、分かち書きは、文を構成する語を、まるで科学における元素分解や、数学における素因数分解のように、細かいけれど意味のある単位の語(形態素)に分割するというステップです。

おすすめ記事

1

目次1 はじめに2 過学習の定義3 モデルをつくる:「訓練データ」「未知データ」とは?4 モデルを検証してみる:「汎化性能」とは?5 過学習(過剰適合)とは何か?6 なぜ過学習が起こるのか?原因はなに ...

2

AILearn 編集部 目次1 サマリ:要はこういう話2 はじめに3 サウジアラビアで人工知能・ロボット初の市民権を獲得4 CNBCのインタビューでは、人類滅亡を匂わせる発言5 「人類滅亡」から3ヶ月 ...

3

AILearn 編集部 目次1 本文2 今回のご相談3 今回のテーマ4 「男を見る目」とは何か?4.1 ◆男を見る目がない女性の特徴4.2 ◆男を見る目を養う方法5 「男を見る目」=「イイ男を判別する ...

4

目次1 自然言語処理とは?2 自然言語処理とは何か?2.1 自然言語処理の定義と役割2.2 自然言語とプログラミング言語の違い2.3 自然言語の曖昧さ2.4 自然言語の曖昧さへの対応3 自然言語処理を ...

-AIを学ぶ

Copyright© 人工知能/AIならAILearn(あいらーん) , 2024 All Rights Reserved Powered by AFFINGER5.