Devin、自分で書いたPRを自分でQAし始めた — ブラウザ操作と録画で確認する4月アップデート
「AIにコードを書かせる」までは、もう特別な話ではなくなった。CursorもClaude CodeもCopilotも、ほぼ似たような画面で似たようなことをしている。
では次は何か。Cognitionが2026年4月に投入したDevinのアップデートは、その答えをかなりはっきり示した。AIに書かせたPRを、AI自身にテストさせる。 しかもブラウザで実際に画面を触り、その様子を録画して返してくる。
公式リリースノートに淡々と並んだ変更点の中で、この挙動がいちばん生々しい。以下、4月のアップデートで何が変わったのかを整理する。
「PRを出す」から「PRをQAする」へ
これまでのDevinは、ざっくり言えば「勝手にブランチを切ってコードを書いてPRを出してくれる」エージェントだった。そこから先のレビューとテストは人間の仕事。Cognitionのブログや公式ドキュメント上でも、PR作成後の挙動については控えめな表現が目立っていた。
4月のアップデートで、Devinは自作PRに対して自分でQAを回す能力を手に入れた。挙動はこうだ。
- Devinが指定されたタスクでPRを作成する
- 「このPRをQAしますか?」とDevinから確認が来る
- 承認すると、Devinが自身のLinux環境上でアプリを起動し、computer use(画面操作) でクリック・入力・スクロールを実行する
- 操作の一部始終を編集済みの録画として返してくる
- 人間はその録画を見て最終判断する
対象は「Linux上で動くデスクトップアプリならなんでも」。ブラウザ起動のWebアプリが中心になるが、GUIを持つCLIツールやデスクトップアプリも理論上は対象になる。
何が嬉しいのかは、E2Eテストを普段書いている人ならすぐ分かると思う。Playwrightなりテストコードを整備する手間が、「AIがとりあえず触って確認してくる」で置き換わる。カバレッジも網羅性も保証はされないが、「雑な変更をしたら雑に壊れるのを検知する」層の作業が、コードを書かなくても回り始める。
もう一つ気持ちがいいのは、コード変更とQAが同じエージェントの中で閉じていることだ。テストの書き漏れを検出するというよりも、「実装したDevin本人にいったん自分の手で動かしてから上げてこい」と言える感覚がある。
v3 API が GA、Enterprise secretsも追加
見た目の派手さはないが、実装者にとって本丸はこちらだ。v3 APIがβを抜け、Devinのすべての機能にアクセスできる正式APIになった。
これまでDevinをCIや社内ツールに組み込もうとすると、v2からv3に移行するコストや、βゆえの仕様変更リスクが計算に入った。v3 GAで、Devinを「APIを叩けば働く、別のマイクロサービス」として扱いやすくなる。Slack・Linear・GitHub連携も同じタイミングで安定性と速度が向上している。
Enterprise向けには、2026年4月3日から Enterprise-scoped secrets が入った。これまでのsecret管理は組織単位だったのが、Enterprise階層で一元管理できるようになる。子組織すべてに自動で共有されるので、大企業でDevinをCIに組み込む際の管理コストが下がる。Enterpriseプランを触る人以外にはピンと来ない地味な機能だが、「組織を跨いで鍵を配るのが面倒」でDevin導入を止めていた案件は、ここで動き出す可能性がある。
起動3倍、UIは「セッション中心」に再設計
Devinは以前から「セッションを立ち上げるまでが遅い」という不満がつきまとっていた。4月アップデートで起動速度が約3倍に改善された、とCognitionは主張している。
UIも「セッションを中心にしたオーケストレーター」に寄せて再設計された。Devinを起動する場所(どこから来たか)、Devinが現在何をしているか、レビューに戻ってきたときの文脈、この3つが1画面で見えるようになっている。
この方向性は、偶然ではなく必然だ。4月の**Cursor 3のAgents Window**や、同じくClaude Codeデスクトップ版の並列セッション対応と並べて見ると、AIコーディングツール全体の潮流が「単一のチャット窓」から「複数エージェントを管理する司令塔」へはっきり動いている。Devin自身もMarch以降、親Devinから子Devinを動かすManaged Devins機能を先行投入しており、今回のUI刷新はその延長線上にある。
Devinはもともとその方向の先駆けではあったが、UIの粗さでCursor 3に先行された感があった。4月の刷新で、ようやく同じ土俵に立ち直したという印象だ。
無料だったものがまとめて有料化
あまり話題になっていないが、意外と重要な変化がある。Ask Devin、DeepWiki、Devin Review — これまで無料で提供されていた3つのプロダクトが、4月アップデートに前後して有料化された。同時に旧 Core / Team プランが廃止され、新しい Free / Pro / Max / Teams / Enterprise のラインナップに置き換わっている。
- Ask Devin: Devinにリポジトリ全体の質問を投げるチャット。無料時代は「GitHub Copilot Chat代わり」に使えていた
- DeepWiki: リポジトリを自動解読してドキュメント化するサービス
- Devin Review: Devin(または人間)が書いたPRをAIがレビューするツール
この3つは、Cognitionが「Devin本体を売るための撒き餌」として無料で配ってきたものだ。DeepWikiに至っては、GitHubの任意のリポジトリを解析した結果をURLで共有できる使い方が広まっており、個人開発者の間では定番になっていた。
それが有料に切り替わったのは、シンプルに「顧客が集まってサーバー代が無視できない規模になった」のと、「Devin本体のARRを積みにいく姿勢に転じた」の2つが効いていそうだ。Cognitionは2025年末に大型調達を経ており、そろそろ投資家に見せるユニットエコノミクスが求められるフェーズに入っている。
正直なところ
ここは素直にすごいと思った点が2つある。
1つは、やはりcomputer useでのQA録画。手動テストの手数が1段階減る可能性は、想像以上に大きい。特にちょっとしたUIの変更を連続で入れているフェーズで、「Playwrightを書くほどじゃないけど人間が毎回触るのも面倒」という作業がきれいに消える使い方が見えてくる。
もう1つは、v3 API GA。これまでDevinは「Slackでメンションして使う」のが主導線だったが、APIベースで社内のCIやSlack bot、内製ツールと綺麗に繋げられるようになる。/devin implement FOO のようなChatOpsを組むのも、ベータ時代よりかなり楽になるはずだ。
一方で、微妙な点もはっきりある。
- ACUあたりの消費がE2Eテスト込みで読みにくくなる懸念がある。computer useは画面操作の一つひとつが時間を食うため、PR作成+QAで1セッションあたりの消費量が従来よりだいぶ増えると見ておいたほうがよさそうだ。$20のProプランで試す場合、PRを数本回せばクレジットが見る見るうちに減る可能性がある
- QA録画の内容は玉石混交だ。単純フォームなら合格判定もかなり信用できるが、込み入ったフロー(認証、決済、モーダルの重ね掛け)では「動いているように見えるだけ」の録画を返してくることがある。人間のレビューをゼロにはできない
- 有料化されたAsk Devin/DeepWikiを日常的に使っていた人にとっては、単純に体験が劣化した。無料枠内で済ませたい個人開発者は他の代替(Cursor や Claude Code のリポジトリ質問機能)に逃げる動機ができた
総じて、4月のDevinは「セルフQA込みでPRを仕上げるエージェント」という定義に一歩近づいた。これはCursor 3やClaude Code Desktopとは方向性が微妙に異なる差別化で、Devinの居場所がはっきりしてきた更新だと感じる。API経由でチームのワークフローに組み込む前提で見ると、個人向けツールとは別ジャンルのプロダクトに育ちつつある。
詳細と料金は公式サイト を参照。
関連記事
Claude Codeのデスクトップ版が「IDE」になりかけている — 4月14日のリニューアルで変わったこと
Claude Codeデスクトップ版が4月14日に全面刷新。並列セッション管理、統合ターミナル、ファイルエディタ、高速diffビューアの中身をCursor 3との違いと合わせて整理する。
AIエージェントを「壊れてもいい部屋」で走らせる — OpenAI Agents SDKのサンドボックスが解決すること
OpenAI Agents SDKにサンドボックスとハーネスが追加。7社のプロバイダー対応、100以上のLLMで使えるエージェント実行環境の仕組みと使い所を整理する。
Devinと同じことを無料でやるOSSが6万スターを超えた — OpenHandsの実力と限界
OpenHandsはDevinのOSS代替として急成長中のAIコーディングエージェント。セルフホスト・無料クラウドの使い方と弱点を整理。