MRCRとは

MRCR(Multi-hop Retrieval with Context Reasoning)は、LLMが大規模なコンテキストウィンドウ内で複数の情報断片(needle)を同時に検索・推論する能力を測定するベンチマークです。

評価方法

100万トークンの文書の中に複数の「針」(特定の事実や数値)を埋め込み、モデルがそれらを正確に検索できるかを測定します。v2の8-needle variantでは、8つの情報断片を同時に見つけ出す必要があります。

主要スコア(2026年3月時点)

Claude Opus 4.6はMRCR v2(8-needle, 1M variant)で78.3%を記録しています。これは同条件でのSonnet 4.5(18.5%)を大きく上回り、フロンティアモデル中で最高水準です。