# SWE-bench

2件の記事

GitHub Copilotに「OpenAI由来じゃない自社モデル」が静かに入った — Claude Haiku 4.5を16ポイント上回るMAI-Code-1-Flash

Microsoftが6月2日に発表したコーディング特化モデル「MAI-Code-1-Flash」を解説。SWE-Bench Pro 51.2%とトークン60%削減を実現したCopilot内製モデルの実力と意味を整理する。

MicrosoftMAI-Code-1GitHub CopilotAIコーディングAIモデルSWE-bench速報

10行のpythonスクリプトでAIエージェントベンチマーク満点 — UC Berkeleyが暴いた「評価の嘘」

UC Berkeleyの研究チームがSWE-bench・WebArena・GAIAなど主要8AIエージェントベンチマークすべてで「タスクを解かずに満点」を達成。評価の脆弱性と業界への警鐘を整理する。

AIベンチマークAIエージェントSWE-benchスタンフォードAIリサーチ速報