情報工学科の大学生が学ぶこと

今学んでいることが何に結びつくのかを理解し、効率的に実践的な知識を身につける術を提供します。

品詞タグづけ(part-of-speech tagging)とは

目的(出力)

  • 文章内の後に品詞(POS)タグを付与すること

解決すべき課題

  • 品詞同定の曖昧性の解消が課題
  • 最頻出の品詞を割り当てるだけでは、90%程度の精度になってしまうため、周辺文脈の情報を加味し精度を高める必要がある

POS taggingのbaseline

  • 辞書を参照して最上位に記載されている品詞を割り当てる(語に対する最頻出品詞を割り当てる)

Brillのtransformation-based POS tagging

  • まず最頻出のタグを割り当てる
  • 次に、正解データに照らし合わせて間違ってタグづけされた箇所を、前後の単語に基づくルールにしたがって修正する

Transformation-based error-driven learning and natural language processing

線形分類器を使ったPOS tagging

  • 行と列に同じ品詞リストを割り当て、その交差点に正解のタグと出力されたタグの組み合わせが出現した比率を記す
  • この行列を参照し、どの品詞が誤って出力されやすいかを認識する

参考