自社のLLMが脱獄されるか数分で試せる — Mozillaが無料公開した0DIN AI Scannerの中身

Mozilla 0DIN AI Scanner

社内で運用しているチャットボットや、自前でファインチューンしたLLMが「ジェイルブレイクに耐えられるか」「機密データを漏らさないか」。この問いに数字で答えられる担当者は、日本の会社の中にどれくらいいるだろう。

そのハードルを一段下げるツールを、4月9日にMozillaが公開した。名前は0DIN AI Scanner。Apache 2.0ライセンスのフルオープンソースで、DockerでもSaaSでもデプロイできる。

結局これは何をするツールなのか

ひとことで言うと、LLMのセキュリティ版ペネトレーションテストツールだ。WebアプリでいうOWASP ZAPやBurp Suiteに相当する「攻撃者視点のチェッカー」を、ChatGPT時代のLLM向けに作り直したもの、と理解しておくと近い。

起動してテスト対象のLLM（自社モデルでも、OpenAIやAnthropicのAPIでも、Ollama経由のローカルモデルでも）を登録し、スキャンを走らせると、ツールが用意済みの攻撃プロンプトを何百発も投げ込む。LLMが不適切な応答を返した数、ジェイルブレイクに成功した確率、情報漏洩の兆候 — こうした指標を並べてレポートに仕立ててくれる。

今回の初公開で収録されたプローブは179個。カバーする脆弱性ファミリは35種類に及び、プロンプトインジェクション、ジェイルブレイク、データリーク、学習データ漏洩、マルチターン誘導など、主要な攻撃ベクトルがひと通り揃っている。これに加えてMozillaのバグバウンティプログラム（0Din）の参加者が実戦で見つけた「6つのスペシャリティプローブ」が同梱されている点が、単なる寄せ集めではない実力を担保している。

NVIDIA GARAKとは何が違うのか

ここが一番紛らわしい部分なので先に書いておく。

0DIN Scannerは、Nvidiaが以前から公開していたgarakというOSSのLLM脆弱性スキャナーを土台にしている。garakは非常に良くできたツールだが、使い勝手は「CLIで叩いて結果をテキストで眺める」という研究者向けの作りで、チームやCI/CDに組み込むにはやや粗削りだった。

0DIN Scannerはそのgarakを「generator」として内部で呼び出しつつ、以下をまるごと被せている。

Ruby on RailsベースのWebインターフェース（ブラウザでスキャン作成・実行・結果閲覧）
スキャンのスケジュール実行
複数モデルを横断した比較ビュー
エンタープライズ向けのレポーティング（PDF/HTMLエクスポート）
複数ユーザー向けのRBAC

言い換えると、「OSSの中身はそのままに、管理画面とワークフロー回りを業務ツールに仕立て直した」差分になっている。garakを単体で使ってきた組織にとっては、レポート作成と権限管理の自動化が効いてくるだろう。逆に、「シンプルにスキャンだけできればいい」個人研究者や小規模チームには、素のgarakで十分なケースもあるはずだ。

導入はどのくらい手軽か

GitHubリポジトリで公開されている標準インストール手順は、驚くほど短い。

docker-compose.yml と .env.example をダウンロード
.env ファイルで SECRET_KEY_BASE と POSTGRES_PASSWORD を設定
docker compose up -d
http://localhost にアクセスし、初期アカウント admin@example.com / password でログイン

以上だ。ローカル検証であればPostgreSQLのセットアップもDocker Composeが面倒を見てくれるので、Dockerが動くマシンさえあれば数分で立ち上がる。SaaS版はMozillaがホストするホスト型を別途用意するとしているが、料金体系は記事執筆時点では非公開だった。

もうひとつ嬉しいのは、Mozillaが当面のあいだ「エンタープライズ向けの無償セキュリティアセスメント」を提供していることだ。これはOSSスキャナー本体とは別枠の、いわばコンサル無償提供で、社内LLMをこれから大規模に展開する企業にとっては見逃せない。

実現可能になること

このツールの公開によって、現実的に動きが出そうな領域を3つ挙げておく。

1つめはCI/CDへの組み込み。 0DIN.aiのX投稿でも、セキュリティチームから「CI/CDに組み込みたい」という反響が目立ったと紹介されていた。プルリクエストのタイミングで自動的にLLMエンドポイントをスキャンし、脱獄率が閾値を超えたらマージをブロック — こうしたフローが現実的になれば、「AIを使った新機能をリリースしたら、知らぬ間にジェイルブレイクされていた」という事故を防げる。

2つめはレッドチーム演習の民主化。 これまで、AIレッドチーミングができる人材は大手テック企業に集中していた。179のプローブが「動くコード」として無料公開されたことで、プロンプトの書き方を知らないセキュリティエンジニアでも、自社モデルに対して攻撃シミュレーションを回せるようになる。小さな会社でも、社内LLMの出荷前に最低限のヘルスチェックを入れる文化が広がる可能性は十分ある。

3つめは「ベンダー間の比較材料」になること。 0DIN Scannerには複数モデルを横断比較するビューがある。つまり「うちのユースケースだとGPT-5.4とClaude Sonnet 4.6とQwen 3.6 Plus、どれが安全？」という議論を、恣意的な印象論ではなくスキャン結果という客観データで進められるようになる。エンタープライズの調達担当にとっては、これまで「フィーリングで選んでいた」LLM調達を合理化できる大きな変化だ。

ただし、この3つのシナリオはいずれも「GPUや環境構築に慣れた担当者がいる」のが前提になる。Docker以前にGitHubを触ったことがない社内の人に丸投げすると、現場が止まる。現実的には、情シス or SREの誰かがまずPoCを回す流れになるはずだ。

微妙な点、懸念点

手放しで褒めるツールでは、正直ない。

第一に、カバー範囲は広いが「日本語」のプローブはほぼ期待できない。GARAK側のプローブも英語中心で、日本語特有の言い回しでジェイルブレイクを突破するような攻撃は、現時点では自前で書き足す必要がある。日本の企業が実運用するチャットボットに対しては、「英語の攻撃パターンに対する耐性」を測っているだけ、という読み方をしたほうが安全だ。

第二に、スキャナー側が投げる攻撃プロンプトには、モデルプロバイダの利用規約に抵触する可能性があるものも含まれる。特にSaaS経由のLLM APIに対して本スキャンを走らせる場合、アカウントが一時停止される懸念は頭に置いておくべきだ。Mozillaもドキュメントで「本番環境ではなくステージング環境での利用を推奨」と明記している。

第三に、スキャン結果のノイズだ。garak系のテストは偽陽性が出やすいことで知られていて、「攻撃成功」と判定されたレポートを人がひとつずつレビューする必要が残る。自動化の入り口には立っているが、まだ「AIセキュリティが人の目を完全に不要にする」段階ではない。

位置付けをもう一度

0DIN Scannerを既存のAIセキュリティ系ツールに並べると、以下のような棲み分けになる。

OpenAI Aardvark, Anthropic Project Glasswing — ベンダー自身が提供する、攻撃者側の最新知見を使って自社モデルを守るクローズド基盤
Hex Security系のAIペンテストSaaS — 外注型のマネージドレッドチーミング
garak単体 — 個人研究者・小規模チームが手軽に使えるCLIツール
0DIN Scanner — OSS x GUI x CI/CD統合。「社内運用するLLMのセキュリティを定常的に測りたい企業」向け

この4つ目のニッチが抜けていた、というのが筆者の率直な印象だ。AIサイバーセキュリティというテーマ自体は2026年に入ってから急速に盛り上がっていて、OpenAIのAardvarkやAnthropicのGlasswingが先行していたが、それらは「提供する側の話」。「使う側」の企業が安価にLLMを監査できるOSSが出てきた意味は大きい。

日本語の解説記事がまだほとんどない今のタイミングで、情シス・SREのチームがPoCを回しておくと、半年後には「社内のLLMが毎晩自動でスキャンされる」日常にたどり着いている — そんな未来が現実的に射程に入ったツールだと感じている。

自社のLLMが脱獄されるか数分で試せる — Mozillaが無料公開した0DIN AI Scannerの中身

結局これは何をするツールなのか

NVIDIA GARAKとは何が違うのか

導入はどのくらい手軽か

実現可能になること

微妙な点、懸念点

位置付けをもう一度

関連記事

DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か

80億パラメータが1GBに入る。量子化ではない、最初から1ビットで作ったLLMの話

Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日