情報工学科の大学生が学ぶこと

今学んでいることが何に結びつくのかを理解し、効率的に実践的な知識を身につける術を提供します。

【練習問題】サクッと交差検定を理解

https://image.slidesharecdn.com/random-150204215702-conversion-gate01/95/-54-638.jpg?cb=1433424879

交差検定(Cross-Validation, クロスバリデーション、交差確認、交差検証)後の分類表に対して、各評価指標を算出する練習問題です。

問題

クラスCの2値分類問題を考える 以下の分類表から

  • 分類正解率(classification accuracy, 正解率)
  • 精度(precision)
  • 再現率(recall) を求めなさい

分類表(contingency table)

Cに属する Cに属さない
Cであると予測 20 10
Cでないと予測 15 30

解答

指標 計算式
分類正解率 0.67 (20+30) / (20+10+15+30)
精度 0.67 20 / (20+10)
再現率 0.57 20 / (20+15)
F値 0.62 20.670.56 / (0.67+0.57)

計算式の解説

分類表

Cに属する Cに属さない
Cであると予測 a b
Cでないと予測 c d

上の分類表に対して

  • 分類正解率 = (a+d) / (a+b+c+d)
  • 精度 = a / (a + b)
  • 再現率 = a / (a + c)
  • F値 = 2 * 精度 * 再現率 / (精度 + 再現率)

以下の(a:TP, b:FP, c:FN, d:TNに対応) スレットスコア - Wikipedia

true positive, false positive, true negative, false negative について

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)