情報工学科の大学生が学ぶこと

今学んでいることが何に結びつくのかを理解し、効率的に実践的な知識を身につける術を提供します。

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法

  • 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法

語を同定する方法

  • 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法

分類機を使う方法

  • 分割を行うパターンを、前後の文字などから学習させた分類機を用いる方法