情報工学科の大学生が学ぶこと

今学んでいることが何に結びつくのかを理解し、効率的に実践的な知識を身につける術を提供します。

【自然言語処理】疎なデータ(sparse data)が引き起こす問題

スパースデータによる問題

文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。

解決策

  • ゼロ頻度の語に対して微小な値を擬似的な頻度として与えるスムージング(smoothing)を行う
  • Laplace smoothing, Good-Turning smoothingなどにより、ゼロ頻度の値を見積もる