10行のpythonスクリプトでAIエージェントベンチマーク満点 — UC Berkeleyが暴いた「評価の嘘」
UC Berkeleyの研究チームがSWE-bench・WebArena・GAIAなど主要8AIエージェントベンチマークすべてで「タスクを解かずに満点」を達成。評価の脆弱性と業界への警鐘を整理する。
AIベンチマークAIエージェントSWE-benchスタンフォードAIリサーチ速報
2件の記事
UC Berkeleyの研究チームがSWE-bench・WebArena・GAIAなど主要8AIエージェントベンチマークすべてで「タスクを解かずに満点」を達成。評価の脆弱性と業界への警鐘を整理する。
スタンフォードHAIが2026年4月13日に公開した最新AI Indexレポートを読み解く。米中性能差ほぼ消滅、推論コスト280倍減、Q1投資2858億ドルなど、業界の輪郭を変える数字を整理する。