Devin 2.2、自分のコードを自分でテストするAIエンジニアへ
Devinがまた進化した。2026年2月にリリースされたDevin 2.2は、Cognition AI自身が「ローンチ以来最も重要なアップデート」と位置づけるバージョンだ。目玉は、Devinが自分の書いたコードを仮想デスクトップ上で実際に動かしてテストできるようになったこと。これは正直、大きい。
デスクトップテスト — CLIの外に出たDevin
これまでのDevinは、コードを書いてPRを出すところまでが守備範囲だった。テストといっても単体テストやCIを回す程度で、「実際にアプリを起動して、画面を触って確認する」という人間が当たり前にやる工程は手が届かなかった。
Devin 2.2では、Linux仮想デスクトップへのフルアクセスが追加された。デスクトップアプリケーションを起動し、マウスクリックやキーボード入力で操作し、動作確認まで自律的に行える。しかもテストの様子はスクリーン録画として残るので、開発者は録画を見て「ちゃんと動いてるな」と確認できる。
ここはすごいと思う。コーディングエージェントの弱点は、「コードは書けるけど、動くかどうかは人間が確認してね」という部分だった。GUIアプリの動作確認を自動でやれるエージェントは、現時点ではかなり少ない。Anthropicのcomputer useに近いアプローチだが、それをコーディングワークフローの一部として統合しているのがDevinらしい。
自己検証とAutofix
もうひとつの注目機能が「Devin Review Autofix」だ。Devinが計画→コーディング→セルフレビュー→問題検出→修正というサイクルを、PRを出す前に自分で完結させる。Cognitionによると、人間がレビューする前に30%多くの問題を検出できるようになったという。
以前のDevinは、書いたコードをそのままPRとして提出し、レビューで指摘されてから直す流れだった。それが事前に自分で見直すようになった。人間のジュニアエンジニアが「提出前にもう一回見直して」と言われて成長するのと似た構造で、地味だが実用上の効果は大きいはずだ。
起動速度3倍 — 地味だが効く改善
セッションの起動時間が約45秒から約15秒に短縮された。3倍速。数字だけ見ると小さな改善に思えるかもしれないが、1日に何度もDevinを立ち上げる使い方をしている開発者にとっては体感がかなり変わる。クラウドエージェントの最大の弱点のひとつは「起動待ち」で、Cursor等のローカルIDEと比べると不利だった部分が多少改善された。
UIの全面刷新
インターフェースも全面的に作り直されている。計画からコーディング、コードレビューまで開発ライフサイクル全体を1つのUIで扱える設計になった。以前は工程ごとに画面が分かれていた部分が統合され、セッション間の行き来もスムーズになっている。
料金 — 無料枠が追加
Devin 2.2のリリースに合わせて、新規ユーザーには10ドル分の無料クレジットが付与されるようになった。現在の料金体系はFree(無料)、Pro(月額20ドル)、Max(月額200ドル)、Teams(月額80ドル)、Enterprise(カスタム)の5プラン。以前の記事で取り上げた500ドルのTeamsプランから大幅に再編されている。ACU(Agentic Computing Unit)による従量課金制は変わらず、1ACUは約15分の稼働時間に相当する。
気になるポイント
デスクトップテストは魅力的だが、対応するのはLinux上で動くアプリケーションに限られる。macOSやWindows向けのネイティブアプリを開発しているチームにとっては、直接的な恩恵は薄い。また、GUIテストの精度がどの程度かは、実際に使い込んでみないとわからない部分もある。スクリーン録画で確認できるとはいえ、毎回録画を見返すのは手間になる可能性もある。
自己検証についても、「30%多くの問題を検出」という数字は魅力的だが、残りの70%は引き続き人間がレビューする必要がある。完全自律にはまだ距離がある。
これが意味すること
Devin 2.2で起きているのは、コーディングエージェントが「コードを書く」から「コードを書いて、テストして、直す」へと守備範囲を広げる動きだ。開発者の作業フローでいえば、実装→テスト→修正のループをエージェント側で回せるようになりつつある。
この方向性が進めば、開発者の役割は「コードを書く人」から「エージェントの出力を検証し、方向性を決める人」へとさらにシフトしていく。Devin 2.2はその過渡期における一歩として、かなり具体的な進歩を見せたアップデートだと思う。
関連記事
Devin、自分で書いたPRを自分でQAし始めた — ブラウザ操作と録画で確認する4月アップデート
Devinの2026年4月アップデートを解説。computer useで自作PRをE2Eテスト・録画提出、v3 APIのGA、3倍高速起動、有料化されたAsk Devinの中身を整理する。
1つのDevinが10のDevinを動かす — 並列エージェント「Managed Devins」の仕組みと代償
Devinの新機能Managed Devinsを解説。親Devinがタスクを分割し最大10の子Devinに委任する並列実行の仕組み、Cursor 3やClaude Codeとの違い、料金への影響を整理する。
Windsurf 2.0、Devinを飲み込んだ — 「ローカル+クラウド」でCursorと真逆の道を行く
Windsurf 2.0はAgent Command CenterとDevin統合で「ローカル+クラウドハイブリッド」のIDE戦略を打ち出した。Cursor 3.1との設計思想の違いと実用面を整理する。