# マルチモーダル

12件の記事

2026-06-03

見て、考えて、コードを書いて、自分で検証する — Qwen 3.7-Plusが持つ5つのエージェント能力

Alibaba Qwen 3.7-Plusは画像・動画を理解するマルチモーダルAI。5つのエージェント能力、Maxとの違い、API料金を解説する。

QwenAlibabaAIモデルマルチモーダルAIエージェント中国AI

2026-05-16

30Bパラメータなのに3Bしか動かさない — NVIDIAのオープンマルチモーダルモデルの設計が面白い

NVIDIA Nemotron 3 Nano Omniを解説。30B-A3Bの効率的なMoEアーキテクチャで画像・音声・動画を統合処理するオープンソースモデルの特徴と実用性。

NVIDIAオープンソースマルチモーダルAIエージェントエッジAI

2026-04-17

カメラに映した手書きスケッチからReactアプリを作る — Qwen 3.5-Omniの衝撃と、クローズド化の波紋

Alibaba Qwen 3.5-Omniはテキスト・画像・音声・動画を統合処理するマルチモーダルAI。カメラ入力からのコード生成やAPI料金を解説。

QwenAlibabaAIモデルマルチモーダル中国AI

2026-04-15

Claude Codeに「画像も動画も音楽も生成させる」CLIが出た — MiniMaxのMMX-CLIが地味に効く理由

中国MiniMaxが2026年4月12日に公開したOSSのCLI「MMX-CLI」。Claude CodeやCursorに画像・動画・音声・音楽・検索の7モダリティをMCPなしで足せる。インストール手順と用途、MCPとの違いを整理する。

MiniMaxCLIマルチモーダルClaude CodeCursorOpenCodeMCPオープンソースAIツール中国AI

2026-04-14

GPT-6 公開 — 価格据え置きで200万トークン、そしてSoraを飲み込んだ

OpenAIが2026年4月10日に公開したGPT-6を解説。2Mコンテキスト、System-1/2の二層推論、ネイティブ動画生成、価格据え置きの戦略、GPT-5.4やClaude Opus 4.6との差をまとめる。

LLMOpenAIGPT-6速報推論モデルマルチモーダル

2026-04-09

Gemini 3.1 Ultra — 200万トークン、ライブ動画分析。Googleが本気で出した最上位モデルの全貌

Google Gemini 3.1 Ultraの全貌を解説。200万トークンのコンテキスト、ライブ動画分析、ネイティブマルチモーダル対応の実力。Proとの違い、料金、活用シーンと注意点を紹介

GeminiGoogleAIモデルマルチモーダル

2026-04-09

Gemini 3.1 Flash Lite — 100万トークン処理で「1ドル以下」の衝撃

Google Gemini 3.1 Flash Liteを解説。入力$0.25/100万トークンの超低価格、2.5倍速のレスポンス、Thinking Levels機能の使い方、翻訳・モデレーション・エージェントルーターの活用法を紹介

GoogleGeminiAIモデルLLMマルチモーダル

2026-04-09

Grok 4.20 — 「4つの頭脳が議論してから答える」AIは、ハルシネーションを終わらせるか

xAIのGrok 4.20を解説。4エージェント合議で業界最高の非ハルシネーション率78%を達成した仕組み、SuperGrok Heavyの16エージェント構成、料金、週次改善アーキテクチャの実態を紹介

xAIGrokAIモデルAIエージェントマルチモーダル

2026-04-09

Llama 4の3モデル、結局どれを使えばいいのか — Scout・Maverick・Behemoth選び方

Meta Llama 4のScout・Maverick・Behemothの使い分けを解説。10Mトークンコンテキスト、API料金、ローカル実行方法がわかる

LLMLlamaオープンモデルマルチモーダルMeta

2026-04-09

Meta Muse Spark — オープンソースの旗手がクローズドに転じた衝撃と、その実力

MetaのクローズドモデルMuse Sparkを実際に触ってレビュー。GPT-5.4・Claude Opus 4.6とのベンチマーク比較、無料で使える理由を解説する

LLMMetaAIモデルマルチモーダルMuse Sparkレビュー

2026-04-08

DeepSeek V4が示す新しい勢力図 — 1兆パラメータ、Huaweiチップ、$0.30/Mトークンの衝撃

DeepSeek V4のスペック・価格・地政学的意味を解説。1兆パラメータMoE、Huaweiチップ上での動作、$0.30/Mトークンの価格破壊が示すAI産業の多極化

LLMDeepSeekマルチモーダル速報

2026-04-08

Gemma 4 — Googleが「無料で使えるAI」に本気を出してきた理由

GoogleのオープンモデルGemma 4を解説。Apache 2.0ライセンスへの転換、2B〜31Bの4サイズ展開、スマホでオフライン実行できるAI Edge Gallery、ベンチマーク比較と実用的な使いどころを紹介

オープンモデルGoogleGemmaマルチモーダルエッジAI