情報工学科の大学生が学ぶこと

今学んでいることが何に結びつくのかを理解し、効率的に実践的な知識を身につける術を提供します。

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由

  • もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため
  • 区切り文字としてスペース以外に、カンマ、ピリオド、ハイフン、コロンなども存在し、それらが必ずしも区切り文字として用いられるわけではないため

日本語に特徴的な理由

  • 日本語においては、区切り文字としての空白がない
  • 品詞を元に語を同定しようにも、名詞や動詞などの他に、接頭辞や接尾辞など、それ単体では意味をなさずに、一つの事数えても仕方のない品詞が多くあるため
  • 具体例としては、「こんにちは」は「こんにち」(名詞)と「は」(助詞)に分けられるが、「こんにちは」を一語としたいなど