Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した
Gemini 3.5 Flashはエージェント性能首位で4倍速。API価格Opusの1/10。使い分けを解説
11件の記事
Gemini 3.5 Flashはエージェント性能首位で4倍速。API価格Opusの1/10。使い分けを解説
Cursor自社モデルComposer 2.5がリリース。SWE-Bench Multilingual 79.8%でOpus 4.7に匹敵しながらコスト1/10。ベンチマーク、料金、Composer 2との違いを解説。
GPT-5.5とClaude Opus 4.7を料金・ベンチマーク・コンテキスト長・エージェント性能で比較し、用途別の使い分けを整理する。
GPT-5.5が4月23日に正式リリース。Terminal-Bench 82.7%でClaude超え、API料金は$5/$30に倍増。ベンチマーク・料金・ハルシネーション問題を整理する。
Alibaba Qwen 3.6-Max-Previewが6つのコーディングベンチマークで世界1位を獲得。初のクローズドモデルとなった背景、ベンチマーク分析、API料金、制約を解説する。
Gemini 3 Deep Thinkの2026年4月アップデートを解説。ARC-AGI-2で84.6%、HLE 48.4%、物理・化学オリンピック金メダル級、そしてAPI解放の意味をまとめる。
Claude Sonnet 5がSWE-bench Verified 92.4%を記録し、Opus 4.6を12ポイント上回った。据え置き価格・2Mコンテキスト・強化されたadaptive thinkingを実機目線で整理する。
Alibabaが自社開発を認めた15BのオープンソースAI動画モデルHappyHorse-1.0。Seedance 2.0を60点差で突き放した実力と、Apache 2.0で公開された意味を整理する。
AMDがLLM推論最適化エンジン「PACE」を公開。5th Gen EPYCでvLLMの1.6〜4.45倍の速度を達成。GPU不足時代のCPU推論という選択肢を整理する。
Cursor Composer 2はMoonshot AIのKimi K2.5を土台に独自RLで鍛えた自社コーディングモデル。SWE-benchや価格をOpus 4.6/GPT-5.4と比較し、その実力と論争を解説する。
Google Gemini 3.1 Proを使い込んだレビュー。ARC-AGI-2で77.1%の推論性能、1Mトークン対応、API価格$2/$12のコスパ、Claude・GPTとの使い分け、強みと弱みを正直に解説