GPQA Diamond(Graduate-Level Google-Proof Q&A Diamond)は、大学院レベルの専門知識を要する質問群でAIモデルの推論能力を評価するベンチマークです。

「Google-Proof」の名前が示すとおり、検索エンジンで調べただけでは正答できない、深い理解と推論が必要な問題で構成されています。物理学、化学、生物学の3分野から出題され、各分野の専門家(PhD取得者)でも正答率が65%程度という難易度です。

「Diamond」は最も難しいサブセットを指し、フロンティアモデルの知識理解の上限を測るために使用されます。2026年3月時点では、Gemini 3.1 Proが94.3%、GPT-5.4が92.8%、Claude Opus 4.6が91.3%を達成しています。