SWE-Bench(Software Engineering Benchmark)は、プリンストン大学の研究チームが開発した、AIモデルのソフトウェアエンジニアリング能力を評価するベンチマークです。

従来のコーディングベンチマーク(HumanEvalなど)が短い関数の生成を評価するのに対し、SWE-Benchは実際のGitHubリポジトリから収集されたIssue(バグレポートや機能リクエスト)を題材にしています。モデルはリポジトリ全体を理解し、適切なファイルを特定し、正しいパッチを生成する必要があります。

主要なバリエーションとして、SWE-Bench Verified(人間が検証済みの高品質サブセット)とSWE-Bench Pro(より難易度の高いタスク群)があります。2026年3月時点では、Claude Opus 4.6が80.8%、Gemini 3.1 Proが80.6%をSWE-Bench Verifiedで達成しています。