35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験
Qwen 3.7 Maxが知能指数1位。Opus比1/10の料金で35時間自律コーディング。性能と制約を整理
43件の記事
Qwen 3.7 Maxが知能指数1位。Opus比1/10の料金で35時間自律コーディング。性能と制約を整理
SubQは世界初の完全サブクアドラティックLLM。1,200万トークンのコンテキストでClaude Opusを上回るベンチマーク結果を出した新アーキテクチャの仕組みと実力を解説。
GeminiとClaudeを料金・マルチモーダル・コーディング・文章力の4軸で比較。用途別の選び方を解説
ChatGPTデフォルトがGPT-5.5 Instantに。嘘半減・応答3割短縮・メモリソースの変更点を整理。
ClaudeとChatGPTを料金・性能・エージェント機能・日本語品質で比較。2026年5月時点の最新モデルで使い分けを解説。
Pioneer(Fastino)はプロンプト1つでLLMのファインチューニングからデプロイまでを自動化するAIエージェント。Adaptive Inferenceやサポートモデル、注意点を解説。
GPT-5.5とClaude Opus 4.7を料金・ベンチマーク・コンテキスト長・エージェント性能で比較し、用途別の使い分けを整理する。
Hugging Face公式のOSSエージェント「ml-intern」を解説。arXiv論文の自動巡回からLLMのファインチューニング、評価まで自律実行する仕組みと実際の改善実績を紹介。
Tencentが295B MoEモデル「Hy3 Preview」をオープンソース公開。SWE-bench 74.4%の実力、入力0.18ドルの価格、既存サービスへの統合状況を解説する。
GPT-5.5が4月23日に正式リリース。Terminal-Bench 82.7%でClaude超え、API料金は$5/$30に倍増。ベンチマーク・料金・ハルシネーション問題を整理する。
Alibaba Qwen 3.6-Max-Previewが6つのコーディングベンチマークで世界1位を獲得。初のクローズドモデルとなった背景、ベンチマーク分析、API料金、制約を解説する。
DeepSeek V4 ProとFlashが正式ローンチ。1.6TパラメータMoEでGPT-5.4・Claude Opus 4.6級の性能を、入力$0.14〜$1.74で提供。ベンチマーク・料金・実用性を整理する。
Caltech発PrismMLの1ビットLLM「Bonsai」は80億パラメータを1.15GBに収め、iPhone上で毎秒44トークン生成する。量子化とは異なるネイティブ1ビット学習の仕組みと性能を解説。
Andrej Karpathy発のAutoResearchを解説。AIエージェントがコード修正→学習→評価を一晩中ループし、GPU1枚で100回以上の実験を自動実行する仕組み。
米Arcee AIが400BのOSS推論モデルTrinity-Large-ThinkingをApache 2.0で公開。Claude Opus 4.6比96%安、長期エージェント特化の中身と評価を整理する。
Anthropicが今週リリース予定のClaude Opus 4.7の全貌。1Mコンテキスト維持、MCPトークン30%削減、SWE-bench改善、同時発表のAIデザインツールがFigma/Wixを震わせた理由を解説
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
Metaが4月8日に発表したオープンソースのLlama 5を解説。600Bパラメータ・5Mコンテキスト・System 2思考の意味と、Muse Sparkとの関係を整理する。
Mozillaが4月9日に公開したOSSのAIセキュリティスキャナー0DIN。179のプローブでLLMのジェイルブレイクやプロンプトインジェクションを検査できる。GARAKとの違いと導入手順を解説する。
OpenAIが2026年4月10日に公開したGPT-6を解説。2Mコンテキスト、System-1/2の二層推論、ネイティブ動画生成、価格据え置きの戦略、GPT-5.4やClaude Opus 4.6との差をまとめる。
Claude Sonnet 5がSWE-bench Verified 92.4%を記録し、Opus 4.6を12ポイント上回った。据え置き価格・2Mコンテキスト・強化されたadaptive thinkingを実機目線で整理する。
OpenAIの次期モデル(コードネームSpud)は2026年3月24日にプリトレーニング完了。GPT-5.5とGPT-6のどちらで出るのか、リリース予測、Brockman発言の読み解き方まで、現時点で確実な情報と推測を分けて整理する。
OpenAIがChatGPTのフォールバックモデルGPT-5.3 Instant Miniを公開。モデルピッカーに出てこない「無料・Plus枠の控え選手」が何を改善したか、無料ユーザーに効く理由を整理する。
Jack Dorsey率いるBlockのエンジニアが公開したOSSプロジェクトmesh-llmを解説。家のPCやMacのGPUをピアツーピアで束ね、単独では動かせない大規模モデルを分散実行する仕組みと使い所。
AMDがLLM推論最適化エンジン「PACE」を公開。5th Gen EPYCでvLLMの1.6〜4.45倍の速度を達成。GPU不足時代のCPU推論という選択肢を整理する。
Claude Sonnet 4.6が1Mトークンコンテキストを標準料金でGA化。Opus 4.6との使い分け、料金、adaptive thinkingの実力、実務での向き不向きを整理する。
LMArena(旧Chatbot Arena)は300以上のAIモデルをブラインドテストで人間が評価するプラットフォーム。Eloレーティングの仕組み、商業化の背景、ベンチマークとしての限界を解説する。
MiniMax M2.7は自身の訓練の30-50%を自律実行する「自己進化」型AI。10Bアクティブパラメータで業界トップ性能、価格は1/50。技術と意味を解説
NVIDIAのNemotron 3 Superは120B総/12BアクティブのMoE開放モデル。specialist activationの仕組み、エージェント用途での実力、Qwen 3.5やGemma 4との位置関係を整理する。
ヤン・ルカンが設立したAMI Labsは、LLMに代わる「ワールドモデル」を構築するパリ発のAIスタートアップ。$1.03Bの資金調達、JEPAアーキテクチャ、AI業界への影響を解説。
Z.ai(智譜AI)のGLM-5.1はSWE-Bench ProでGPT-5.4やClaude Opus 4.6を上回った744Bオープンモデル。8時間連続自律コーディングの仕組み、料金、ベンチマークの裏側を解説する。
Google Gemini 3.1 Flash Liteを解説。入力$0.25/100万トークンの超低価格、2.5倍速のレスポンス、Thinking Levels機能の使い方、翻訳・モデレーション・エージェントルーターの活用法を紹介
OpenAI GPT-5.4 miniとnanoを解説。入力$0.20/100万トークンの超低価格モデルが変えるサブエージェント時代のコスト構造、ベンチマーク、フルモデルとの使い分けを紹介
Meta Llama 4のScout・Maverick・Behemothの使い分けを解説。10Mトークンコンテキスト、API料金、ローカル実行方法がわかる
MetaのクローズドモデルMuse Sparkを実際に触ってレビュー。GPT-5.4・Claude Opus 4.6とのベンチマーク比較、無料で使える理由を解説する
Claude Mythos Previewの能力・Project Glasswingの全容を解説。数千件のゼロデイ脆弱性を発見したAnthropicの最強モデルが非公開とされた理由と意味
Claude Opus 4.6を2ヶ月使った実務レビュー。100万トークンコンテキスト、適応型思考、エージェントチームの実力と、料金・日本語品質の課題を正直に評価
DeepSeekのFast/Expertモード導入の意味を分析。V4リリース直前に「完全無料」から階層化へ舵を切った背景と、ビジネスモデル転換の行方を考察
DeepSeek V4のスペック・価格・地政学的意味を解説。1兆パラメータMoE、Huaweiチップ上での動作、$0.30/Mトークンの価格破壊が示すAI産業の多極化
Google Gemini 3.1 Proを使い込んだレビュー。ARC-AGI-2で77.1%の推論性能、1Mトークン対応、API価格$2/$12のコスパ、Claude・GPTとの使い分け、強みと弱みを正直に解説
OpenAI GPT-5.4の全貌を解説。Standard/Thinking/Proの3バリアント、105万トークン対応、ネイティブコンピュータ操作、ベンチマーク比較、Claude・Geminiとの使い分けを紹介
Mistral Small 4とVoxtral TTSを解説。ローカル実行可能な高品質音声合成モデルの性能、Le Chatの新機能、開発者向けの活用法がわかる
Perplexityの新機能Model Councilは3つのAIモデルを同時に走らせ回答を統合する。仕組み・料金・Deep Research強化の全容と、検索精度への影響を解説。