SWE-Bench

SWE-Bench（Software Engineering Benchmark）は、プリンストン大学の研究チームが開発した、AIモデルのソフトウェアエンジニアリング能力を評価するベンチマークです。

従来のコーディングベンチマーク（HumanEvalなど）が短い関数の生成を評価するのに対し、SWE-Benchは実際のGitHubリポジトリから収集されたIssue（バグレポートや機能リクエスト）を題材にしています。モデルはリポジトリ全体を理解し、適切なファイルを特定し、正しいパッチを生成する必要があります。

主要なバリエーションとして、SWE-Bench Verified（人間が検証済みの高品質サブセット）とSWE-Bench Pro（より難易度の高いタスク群）があります。2026年3月時点では、Claude Opus 4.6が80.8%、Gemini 3.1 Proが80.6%をSWE-Bench Verifiedで達成しています。

関連する専門ポータル