回答長 (Answer Length)

一言定義: AI 回答テキストの平均文字数(日本語)。

なぜ重要か

  • ビジネス側: 長すぎる回答はユーザーが読まない(クリック離脱)。短すぎる回答は情報密度が低い。エンジンごとの「説明スタンス」を測る指標。
  • 学術側: 単独では trait(能力)の指標にはならないが、③ 正確性とのトレードオフ(長く答えるほど誤情報が混じりやすい)や ⑧ レイテンシとの相関で読む。HELM (Liang et al. 2023) も length を補助指標として扱う。

計算式

回答長 = Σ(回答文字数) ÷ (回答数)

文字数はトークン数ではなく 日本語の文字数(コードポイント数) で測る。半角英数も全角と同じ 1 文字でカウント(クライアント向け説明のしやすさ優先)。

具体例

仮想シナリオ:

  • ChatGPT Search: 平均 850 文字(中庸)
  • Gemini Pro: 平均 1,400 文字(長文派)
  • AI Overview: 平均 320 文字(圧縮派)
  • Copilot: 平均 1,200 文字

AI Overview が 320 文字ということは、ユーザーが SERP 上で読み切れる短さ。引用も少なくなる傾向(① 引用率と弱い正相関)。

関連学術文献

  • Liang, P. et al. (2023). Holistic Evaluation of Language Models (HELM). TMLR.(length は補助指標として記載)
  • Aggarwal, P. et al. (2024). GEO: Generative Engine Optimization. KDD 2024.(length は GEO 効果量と弱相関と報告)

ai-search プロジェクト内での運用

  • 対象クエリ: 全 600 問
  • 集計: エンジン × intent カテゴリで分布も併記(factual は短い・comparison は長い、など intent 依存)
  • 構成概念: C4 Agent Task Completion Fidelity の前提条件(出力形式の規定に従えるか)。単独構成概念にはしない

参考・引用元

  • ドキュメント: 「リサーチ戦略・分析指標12項目」— GMO ai-search docs/research-strategy.md
  • 論文: 「GEO: Generative Engine Optimization」— Pranjal Aggarwal et al., KDD 2024
  • 論文: 「Holistic Evaluation of Language Models (HELM)」— Liang et al. 2023, TMLR

2026-05-30 作成。AI検索評価12指標シリーズ ④。

関連ノート