マルチホップ実タスクベンチ

マルチホップとは、ひとつの事実を引くだけでは解けず、複数の事実や制約を横断して初めて答えにたどり着くタスクのこと。エージェントの実力差を測るベンチマークとして使われる。

代表的なベンチマーク

  • FRAMES — 複数文書をまたいだ検索と推論をまとめて測る、事実性・検索・推論の評価セット(Google)。
  • BrowseComp — Web を実際に閲覧して、見つけにくい情報を特定させる難タスク(OpenAI)。

なぜ「意味あるデータ」になるのか

単発の Q&A は高精度モデルでは差が出にくく飽和する。一方、条件 A・B・C をすべて満たす制度や商品を根拠リンク付きで特定させるような多段タスクは、2026 年のモデルでも差が出る。

測れるのは、完遂率・手数・どこで間違えたか・使った情報源の質。これを日本語の業種文脈で作れば、学術的な権威性とエージェント実力の可視化を同時に得られる。

参考・引用元

  • 論文: 「FRAMES: Factuality, Retrieval, And reasoning MEasurement Set」— Google, 2024
  • サイト: 「BrowseComp」— OpenAI, 2025
  • 会話: AI 検索クエリセット再設計の社内戦略会話(2026-05-22)

2026-05-22 作成。学術権威を担う観測トラックの候補として整理した。

関連ノート