2026-04-1610行のpythonスクリプトでAIエージェントベンチマーク満点 — UC Berkeleyが暴いた「評価の嘘」UC Berkeleyの研究チームがSWE-bench・WebArena・GAIAなど主要8AIエージェントベンチマークすべてで「タスクを解かずに満点」を達成。評価の脆弱性と業界への警鐘を整理する。AIベンチマークAIエージェントSWE-benchスタンフォードAIリサーチ速報