「AIがAIを訓練する」時代が来た — Adaption AutoScientistが変えるモデル学習の常識
Adaptionが公開したAutoScientistは、データとトレーニングレシピを自動で共同最適化するツール。勝率48%→64%の改善実績と仕組みを解説。
49件の記事
Adaptionが公開したAutoScientistは、データとトレーニングレシピを自動で共同最適化するツール。勝率48%→64%の改善実績と仕組みを解説。
OpenAIの推論モデルが1946年のエルデシュ予想を自律的に反証。代数的整数論を使った証明の中身、フィールズ賞数学者の評価、AI数学の今後を解説。
Qwen 3.7 Maxが知能指数1位。Opus比1/10の料金で35時間自律コーディング。性能と制約を整理
Gemini 3.5 Flashはエージェント性能首位で4倍速。API価格Opusの1/10。使い分けを解説
Cursor自社モデルComposer 2.5がリリース。SWE-Bench Multilingual 79.8%でOpus 4.7に匹敵しながらコスト1/10。ベンチマーク、料金、Composer 2との違いを解説。
BaiduのERNIE 5.1は訓練コストを同規模モデルの6%に抑えつつ、Arena Search世界4位・AIME26で99.6点を達成。Once-For-All弾性学習の仕組みと中国AI競争の現在地を解説。
SubQは世界初の完全サブクアドラティックLLM。1,200万トークンのコンテキストでClaude Opusを上回るベンチマーク結果を出した新アーキテクチャの仕組みと実力を解説。
Google I/O 2026(5月19-20日)のAI関連発表を先読み。Gemini 4の可能性、エージェントコーディング、Android 17のAI統合など注目ポイントを整理する。
ChatGPTデフォルトがGPT-5.5 Instantに。嘘半減・応答3割短縮・メモリソースの変更点を整理。
DeepSeek V4はPro/Flashの2構成。GPT-5.5比97%安でコーディング互角。料金と使い分けを解説。
MiniMax M2.7は100回以上の自律改善ループで自身のスキャフォールドを最適化するオープンソースLLM。SWE-Pro 56%、入力$0.30/M。自己進化の仕組みと実際の使い道を整理した。
xAIがGrok 4.3をリリース。入力$1.25/100万トークンでClaude Opus 4.7の約12分の1。1Mコンテキスト、動画入力、音声クローニングの3機能を同時追加。料金・性能・活用法を整理した。
Mistral AIが128B旗艦モデル「Medium 3.5」とクラウド非同期コーディング「Vibe Remote Agents」を発表。SWE-Bench 77.6%、256kコンテキスト、オープンウェイト。性能・料金・使い方を解説。
Pioneer(Fastino)はプロンプト1つでLLMのファインチューニングからデプロイまでを自動化するAIエージェント。Adaptive Inferenceやサポートモデル、注意点を解説。
Tencentが295B MoEモデル「Hy3 Preview」をオープンソース公開。SWE-bench 74.4%の実力、入力0.18ドルの価格、既存サービスへの統合状況を解説する。
Alibaba発のQwen3.6-27Bは27Bパラメータの密モデルでClaude Opus 4.5級のコーディング性能を実現。RTX 4090で動くフロンティア級モデルの実力と限界を解説。
Rhoda AIは数億本の動画から物理法則を学ぶロボット知能基盤モデルを開発。$450M調達・$1.7B評価の技術と、Figure AIとの違いを解説する。
Anthropicのデータリークで判明した「Capybara」ティアの全体像。Opus上位の第4階層、Mythosモデルとの関係、料金体系の変化を解説する。
ByteDanceが開発したエージェント特化モデルSeed 1.8を解説。GUI操作・検索・コード生成を統合し、BrowseCompでGemini超え。Doubaoの基盤としての位置づけと料金を整理する。
2026年4月、Claude Codeの品質低下がAMD責任者の実データ分析で裏付けられた。effort level変更の経緯、Anthropicの公式見解、ユーザーが取れる対策を時系列で整理する。
OpenAIが2026年4月16日に発表した生命科学特化モデルGPT-Rosalindを解説。BixBenchで0.751、Codex連携で50以上の科学ツールを操作する仕組みと、Trusted Access制の意味を整理する。
xAIが4月17日にリリースしたGrok 4.3 betaの全貌。PDF・PowerPoint・スプレッドシート生成、動画入力に対応。SuperGrok Heavy月額$300の価値を検証する。
Tencentが次世代LLM Hunyuan 3.0を4月にリリース予定。300億パラメータ、WeChat AIエージェント統合、元OpenAI研究者が主導する開発体制を整理する。
World LabsのMarble 1.1は写真やテキストから探索可能な3D空間を生成するAI。自動拡張機能・料金・用途・競合との違いを整理した。
Qwen3.6-35B-A3BとGemma 4-31Bを主要ベンチマーク・VRAM消費・ライセンスで比較。用途別の選び方を整理した。
Alibaba Qwen 3.5-Omniはテキスト・画像・音声・動画を統合処理するマルチモーダルAI。カメラ入力からのコード生成やAPI料金を解説。
米Arcee AIが400BのOSS推論モデルTrinity-Large-ThinkingをApache 2.0で公開。Claude Opus 4.6比96%安、長期エージェント特化の中身と評価を整理する。
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
NVIDIAが量子コンピュータ向け初のオープンソースAIモデル群Isingを公開。誤り訂正とキャリブレーションをAIで高速化する中身、採用機関、量子株の反応を整理する。
Gemini 3 Deep Thinkの2026年4月アップデートを解説。ARC-AGI-2で84.6%、HLE 48.4%、物理・化学オリンピック金メダル級、そしてAPI解放の意味をまとめる。
OpenAIの次期モデル(コードネームSpud)は2026年3月24日にプリトレーニング完了。GPT-5.5とGPT-6のどちらで出るのか、リリース予測、Brockman発言の読み解き方まで、現時点で確実な情報と推測を分けて整理する。
GoogleがGemma 4ベースのGemini Nano 4をAndroid AICore Developer Previewで公開。4倍速・電力60%減・140言語対応のオンデバイスAIで何が実現できるか、開発者向け要点をまとめる。
Datalabが公開したオープンソースOCRモデルChandra OCR 2を紹介。olmOCRベンチマーク85.9%、4Bパラメータ、手書き・表・数式・90言語対応。Gemini 2.5 Flashを上回った理由と実用シーンを整理する。
OpenAIがChatGPTのフォールバックモデルGPT-5.3 Instant Miniを公開。モデルピッカーに出てこない「無料・Plus枠の控え選手」が何を改善したか、無料ユーザーに効く理由を整理する。
Jackrongが公開したQwen3.5-27B Claude-4.6-Opus-Reasoning-Distilledが、Hugging Face Trending1位に。Apache-2.0ライセンスでClaude風の<think>推論をローカル再現。v1/v2の違いとMLX/GGUF展開を整理する。
MiniMax M2.7は自身の訓練の30-50%を自律実行する「自己進化」型AI。10Bアクティブパラメータで業界トップ性能、価格は1/50。技術と意味を解説
Microsoft Phi-4-reasoningの推論性能・ベンチマーク・ローカル実行方法を解説。14Bパラメータでo3-miniに迫る数学・科学推論の実力とは
Cursor Composer 2はMoonshot AIのKimi K2.5を土台に独自RLで鍛えた自社コーディングモデル。SWE-benchや価格をOpus 4.6/GPT-5.4と比較し、その実力と論争を解説する。
Alibaba最新のQwen 3.6 Plusは1Mコンテキスト、Claude Opus比18分の1の価格、OpenRouterで無料利用可。ベンチマーク、速度、データ収集の実態を検証する。
ヤン・ルカンが設立したAMI Labsは、LLMに代わる「ワールドモデル」を構築するパリ発のAIスタートアップ。$1.03Bの資金調達、JEPAアーキテクチャ、AI業界への影響を解説。
Google Gemini 3.1 Ultraの全貌を解説。200万トークンのコンテキスト、ライブ動画分析、ネイティブマルチモーダル対応の実力。Proとの違い、料金、活用シーンと注意点を紹介
Google Gemini 3.1 Flash Liteを解説。入力$0.25/100万トークンの超低価格、2.5倍速のレスポンス、Thinking Levels機能の使い方、翻訳・モデレーション・エージェントルーターの活用法を紹介
OpenAI GPT-5.4 miniとnanoを解説。入力$0.20/100万トークンの超低価格モデルが変えるサブエージェント時代のコスト構造、ベンチマーク、フルモデルとの使い分けを紹介
xAIのGrok 4.20を解説。4エージェント合議で業界最高の非ハルシネーション率78%を達成した仕組み、SuperGrok Heavyの16エージェント構成、料金、週次改善アーキテクチャの実態を紹介
Moonshot AIのKimi K2.5を徹底解説。1兆パラメータMoE、最大100エージェント並列実行のAgent Swarm、料金、使い方、メリット・デメリットがわかる
MetaのクローズドモデルMuse Sparkを実際に触ってレビュー。GPT-5.4・Claude Opus 4.6とのベンチマーク比較、無料で使える理由を解説する
Alibaba Qwen 3.5の全7モデルを徹底解説。9Bが30B超えの衝撃的なパラメータ効率、Ollamaでのローカル実行手順、GPT-5.2との性能比較がわかる。
CognitionのSWE-1.6モデルを解説。ベンチマーク性能よりも「モデルUX」の改善に注力した設計思想と、ループ削減・並列ツール呼び出しなどの具体的改善点
Google Gemini 3.1 Proを使い込んだレビュー。ARC-AGI-2で77.1%の推論性能、1Mトークン対応、API価格$2/$12のコスパ、Claude・GPTとの使い分け、強みと弱みを正直に解説