評価者間一致度(κ と α)

一言定義: 複数の評価者が同じものを評価したとき、偶然より上にどれだけ一致しているかを示す指標。

なぜ重要か

人手アノテーション(AI 回答が「正解」「不正解」のどちらか等)では、評価者が変われば結果も変わる。一致率だけだと偶然による一致を過大評価してしまうので、偶然一致を補正した指標が必要。これが揃っていないとそもそも「正確性スコア」の信頼性が崩れる。

Cohen's κ(カッパ)

  • 適用: 2 評価者・名義尺度(カテゴリ判定)
  • 計算式: κ = (P_o − P_e) ÷ (1 − P_e)
    • P_o: 観察された一致率
    • P_e: 偶然期待される一致率
  • 慣習解釈(Landis & Koch 1977): 0.21-0.40 fair / 0.41-0.60 moderate / 0.61-0.80 substantial / 0.81+ almost perfect

Krippendorff's α(アルファ)

  • 適用: 3 人以上の評価者、欠測あり、名義/順序/間隔/比率すべての尺度に対応する汎用版
  • 目安: α ≥ 0.80 で「結論を信頼してよい」、0.667 ≥ で「予備的議論用」(Krippendorff 2004)
  • ai-search のように尺度が混在する評価では Cohen's κ より α を使う方が安全。

具体例

AI検索評価12指標 の ③正確性スコアで、3 人の評価者が 100 問の「key_facts を含むか」を独立に判定。

  • 観察一致率 0.90 / 偶然期待 0.50 → κ = 0.80(substantial)
  • これなら採点ロジックは安定していると言える

ai-search プロジェクト内での運用

  • DoD カテゴリ E-1(Reliability)で κ ≥ 0.70 または α ≥ 0.667 を最低基準として要求。
  • factual / brand mention / freshness 判定のアノテーションは 2-3 人の評価者で並行採点し κ または α を毎週報告。

参考・引用元

  • 論文: 「The measurement of observer agreement for categorical data」— Landis & Koch, Biometrics 1977
  • 書名: 「Content Analysis: An Introduction to Its Methodology」— Klaus Krippendorff(Sage, 2004)
  • ドキュメント: 「DoD フレームワーク v1.0」— GMO ai-search docs/dod-framework-v1-2026-05-28.md

2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。Cohen's d と併せて読むと統計設計の全体像が見える。

関連ノート