# スタンフォード

2件の記事

10行のpythonスクリプトでAIエージェントベンチマーク満点 — UC Berkeleyが暴いた「評価の嘘」

UC Berkeleyの研究チームがSWE-bench・WebArena・GAIAなど主要8AIエージェントベンチマークすべてで「タスクを解かずに満点」を達成。評価の脆弱性と業界への警鐘を整理する。

AIベンチマークAIエージェントSWE-benchスタンフォードAIリサーチ速報

スタンフォードが400ページの「AIの今」を出した — 2026年版AI Indexで見えた7つの変化

スタンフォードHAIが2026年4月13日に公開した最新AI Indexレポートを読み解く。米中性能差ほぼ消滅、推論コスト280倍減、Q1投資2858億ドルなど、業界の輪郭を変える数字を整理する。

AIトレンドAIリサーチまとめ速報AIベンチマークスタンフォードAI Index中国AI