Ceiling Effect / Floor Effect(天井効果・床効果)

一言定義: テスト項目が 全員正解(天井) または 全員不正解(床) に張り付き、被験者間の差が測れなくなる現象。

なぜ重要か

たとえば「日本の首都は?」を AI 検索 6 つに尋ねたら全部 100% 正解。差がつかない。これでは「正確性スコアでどのエンジンが優れているか」を判別できない。逆に「2026年Q3のXX社売上高は?」を全エンジンが回答失敗 → これも差がつかない。

ceiling/floor 項目はテストとしての情報量がゼロ。除外するかフラグを立てる必要がある。

検出の目安

正答率 (p) を見て:

  • p ≈ 1.0 → 天井効果(簡単すぎ)
  • p ≈ 0.0 → 床効果(難しすぎ)
  • p = 0.4 〜 0.6 が情報量最大の項目

IRT (Item Response Theory) では item discrimination(識別力 a パラメータ)も同時に見て、差がつかない項目をさらに弾く。

AI 検索評価での出番

③正確性スコア の信頼性を担保する条件:

  • query-set-v1.json 600 問の難易度分布を Phase B-2 で実測
  • p ≈ 1 または p ≈ 0 の項目は フラグして集計から除外 または 再設計
  • DoD カテゴリ C-3(Difficulty distribution / IRT)が PASS 判定の前提

具体例

仮想シナリオ(factual-static 77 問の難易度実測):

  • p = 1.0: 12 問(簡単すぎ)→ 天井効果のため除外候補
  • p = 0.0: 3 問(難しすぎ)→ 床効果のため除外候補
  • p = 0.4-0.6: 28 問 → 情報量最大、メイン指標として使用

77 問のうち 15 問が天井・床に張り付くと、有効な比較対象は 62 問になる。サンプルサイズ計算をやり直す必要が出てくる。

関連概念

  • Cohen's d: 効果量。ceiling/floor だと d を計算する以前に分散がゼロに近づく
  • Nomological network: 妥当性の上位概念。難易度設計はその下の信頼性問題

参考・引用元

  • 書名: 「Statistical Power Analysis for the Behavioral Sciences (2nd ed.)」— Jacob Cohen(Lawrence Erlbaum, 1988)
  • 書名: 「Item Response Theory: Principles and Applications」— Hambleton, Swaminathan, Rogers(Springer, 1991)
  • ドキュメント: 「DoD フレームワーク v1.0」C-3 観点 — GMO ai-search docs/dod-framework-v1-2026-05-28.md

2026-05-30 作成。AI検索評価12指標シリーズの方法論補足。③ 正確性の前提条件として頻出する概念。

関連ノート