# ベンチマーク

12件の記事

2026-06-16

Claude Fable 5・GPT-5.5・Gemini 3.1 Pro比較【2026年6月版】— 3大フロンティアAI、「最強」は用途で入れ替わる

Claude Fable 5・GPT-5.5・Gemini 3.1 Proを料金・ベンチマーク・実用性で徹底比較。2026年6月時点のフロンティアAIモデル選びの最適解を整理する。

Claude FableGPT-5GeminiAnthropicOpenAIGoogleLLMベンチマーク比較AIモデル

2026-05-20

Flashなのにフラッグシップより速くて強い — Gemini 3.5 Flashが「安いモデル」の常識を壊した

Gemini 3.5 Flashはエージェント性能首位で4倍速。API価格Opusの1/10。使い分けを解説

GeminiGoogleGoogle I/OAIモデルAIエージェントベンチマーク速報

2026-05-20

Cursor Composer 2.5 — Opus 4.7と同じスコアを、10分の1の値段で出すモデルが来た

Cursor自社モデルComposer 2.5がリリース。SWE-Bench Multilingual 79.8%でOpus 4.7に匹敵しながらコスト1/10。ベンチマーク、料金、Composer 2との違いを解説。

AIコーディングCursorAIモデルコーディングベンチマーク

2026-04-27

GPT-5.5とClaude Opus 4.7、どちらが「使える」か — 同じ週に出た2つのフロンティアモデルを並べてみた

GPT-5.5とClaude Opus 4.7を料金・ベンチマーク・コンテキスト長・エージェント性能で比較し、用途別の使い分けを整理する。

OpenAIAnthropicGPT-5Claude Opus 4.7ClaudeChatGPTLLMベンチマーク比較AIコーディング

2026-04-25

GPT-5.5が出た — ベンチマーク圧勝、料金は倍、ハルシネーション率86%という矛盾

GPT-5.5が4月23日に正式リリース。Terminal-Bench 82.7%でClaude超え、API料金は$5/$30に倍増。ベンチマーク・料金・ハルシネーション問題を整理する。

OpenAIChatGPTGPT-5LLMベンチマークCodex

2026-04-25

オープンソースの旗手が「非公開」で最強を取りにきた — Qwen 3.6-Max-Previewの矛盾と実力

Alibaba Qwen 3.6-Max-Previewが6つのコーディングベンチマークで世界1位を獲得。初のクローズドモデルとなった背景、ベンチマーク分析、API料金、制約を解説する。

QwenAlibabaAIコーディングベンチマークLLM

2026-04-14

ARC-AGI-2で84.6% — Gemini 3 Deep Thinkが「ひとつの科学研究員」になろうとしている

Gemini 3 Deep Thinkの2026年4月アップデートを解説。ARC-AGI-2で84.6%、HLE 48.4%、物理・化学オリンピック金メダル級、そしてAPI解放の意味をまとめる。

GeminiGoogle推論モデルAIモデルベンチマーク

2026-04-14

Claude Sonnet 5 — SWE-bench 92%、Opus 4.6を「Sonnet価格」で超えたAnthropicの一手

Claude Sonnet 5がSWE-bench Verified 92.4%を記録し、Opus 4.6を12ポイント上回った。据え置き価格・2Mコンテキスト・強化されたadaptive thinkingを実機目線で整理する。

LLMAnthropicClaudeAIコーディング速報ベンチマーク

2026-04-12

HappyHorse-1.0 — 正体不明のまま首位になった動画AIが、Alibabaだった

Alibabaが自社開発を認めた15BのオープンソースAI動画モデルHappyHorse-1.0。Seedance 2.0を60点差で突き放した実力と、Apache 2.0で公開された意味を整理する。

AI動画AlibabaHappyHorseオープンソースベンチマーク速報

2026-04-12

AMD PACE — GPU不足時代、EPYCで380トークン/秒が出るという静かな一撃

AMDがLLM推論最適化エンジン「PACE」を公開。5th Gen EPYCでvLLMの1.6〜4.45倍の速度を達成。GPU不足時代のCPU推論という選択肢を整理する。

AMDLLMオープンソースベンチマーク速報解説

2026-04-11

Cursor Composer 2の正体 — 中国発Kimi K2.5ベース、価格90%減、そして残された問い

Cursor Composer 2はMoonshot AIのKimi K2.5を土台に独自RLで鍛えた自社コーディングモデル。SWE-benchや価格をOpus 4.6/GPT-5.4と比較し、その実力と論争を解説する。

AIコーディングCursorAIモデルコーディングベンチマーク

2026-04-08

Gemini 3.1 Proを本気で使い込んでわかった「推論番長」の実力と限界

Google Gemini 3.1 Proを使い込んだレビュー。ARC-AGI-2で77.1%の推論性能、1Mトークン対応、API価格$2/$12のコスパ、Claude・GPTとの使い分け、強みと弱みを正直に解説

LLMGoogleGeminiAIモデルベンチマーク