寝ている間にPRが届くクラウドコーディングエージェント — Twill.aiが提示する「完全委任」の作法
「寝ている間に PR を出してくれる開発者を雇いたい」という妄想は、エンジニアなら一度は持ったことがあるはずだ。
その願望をそのまま製品名にしたようなスタートアップが、4 月 13 日に Y Combinator の S25 バッチから出てきた。Twill.ai という名前で、Launch HN にも同日、本人たちが投稿している。「クラウドエージェントにタスクを投げて、PR を受け取る」 という Devin と同系統の領域だが、設計思想がだいぶ違うので、軽く触っておく価値がある。
Devin と並ぶが、線の引き方が違う
クラウドコーディングエージェントというカテゴリは、もはや珍しくない。Devin 2.0、Cursor のクラウドエージェント、Cognition の SWE-1.6 系、それに最近では OpenAI の Codex Cloud。Twill はそこに後発で参入する形になる。
ただ、Twill が他と違うのはここだ。
- タスクは固定パイプラインを通る — Research → Plan → ユーザー承認 → Implement → AI Code Review → Merge という6段階を必ず通る
- モデルを選べる — Claude Code、OpenCode、Codex の中から選択。自前モデルを売らない
- 人間承認フェーズが必須 — Plan の段階でユーザーが Yes/No を出すまで実装に入らない
- GitHub・Slack・Linear と統合済み — Linear のチケットから直接タスクを投げられる
Devin が「自律的に最後まで走る」エージェントなら、Twill は 「エージェントが暴走する前に一旦止まる」 エージェントだ。Plan の段階で人間に「この方針で進めていいか?」と聞いてくるので、的外れな実装に時間を吸われる事故が減る。
これは過去 1 年でクラウドエージェントを使ってきた人なら、ほとんど共感できるはずだ。Devin に大きめのタスクを任せると、3 時間後に「全然違う場所を直しまくった巨大な PR」が届くことが、まだ普通にある。Twill は 「Plan を見せてから走る」 という素朴な工夫で、この問題のかなりの部分を片付けにきている。
1 タスクが通る 6 ステップ
もう少し詳細を整理しておく。Twill のドキュメントに書かれている標準パイプラインはこうだ。
- Research — エージェントがリポジトリを読み込み、要件と既存実装を理解する。曖昧な部分を質問してくることもある
- Plan — 実装方針を文章化する。どのファイルを触るか、どんな設計か、どのテストを足すか、まで具体的に書く
- You Approve — ここで人間に承認を求める。OK ならそのまま実装、NG なら Plan 修正に戻る
- Implement — サンドボックス内でコードを書き、ビルドし、テストを走らせる
- AI Code Review — 別のエージェント(または同じモデルの別ロール)がコードレビューを行う
- Merge PR — レビューを通った PR が GitHub 上に出る。最終マージは人間が判断
ここで効くのは、Step 3 と Step 5 の二重チェック構造だ。タスク開始時に方針を承認させ、終了時にレビューを挟む。間の Implement と AI Code Review はエージェントが自走するが、両端だけは人間(または別のエージェント)が手綱を握る。これだけで「全任せ vs 全マニュアル」の二択ではなくなる。
「やってみた」では分かりにくい価値
正直、5 分触ってすぐ分かる類のツールではない。
クラウドエージェント全般に言えるのだが、本領を発揮するのは 「自分が手を動かしたくない退屈なタスクを並列で投げる」 場面だ。たとえば、
- 古いライブラリのバージョンアップに伴う型定義の修正(10 ファイルくらい)
- 翻訳ファイルへの新規キー追加と既存箇所の置換
- フィーチャーフラグの切り替えに伴う dead code 削除
- ユニットテストのカバレッジを 80% に上げる
こういう「やる気は出ないが価値はある」タスクを Twill に投げると、寝ている間に Plan が上がってきて、朝起きた瞬間に承認だけしてランチの間に PR が来る。「面白くないタスクを24時間体制で消化する人員」 として使うと、確かに体感が変わる。
逆に、新機能の設計や、複雑なドメインロジックの実装をいきなり投げるのは、まだ向かない。Plan 段階で粗いことが多く、結局 Plan を直してもらうために何往復もする羽目になる。これは Twill の問題というより、現状のすべてのクラウドエージェントの限界だ。
Devin との料金感の違い
Twill は料金表をシンプルにしている。Launch HN で本人たちは「タスクごとの予測しやすい料金」を強調していて、これは Devin の「ACU」と呼ばれる謎の単位ベースの課金に対する明確なアンチテーゼだ。
Devin の料金体系は、月 $20 から始まるが、実際に大規模タスクを投げると ACU 消費がブレて、月末請求が読めない、というのが本音のところだ。これに対して Twill は「タスク単位で計算が立つ」設計を初手から打ち出している。
ただ、注意してほしいのは、モデルコストが裏側にある点だ。Twill は Claude Code や Codex を選択肢として提供しているが、これは Twill が独自モデルを持っていないということでもある。タスクを Claude Sonnet 4.6 に投げた場合、Claude API の料金は別で発生する。Twill 側のオーケストレーション料金 + モデル API 料金、という二重構造になる。「とにかく安く抑えたい」場合は、安いモデルを選んで実行回数を減らす運用が必要だ。
微妙なところと、現時点の評価
良いところばかりではない。引っかかる点も書いておく。
ひとつは、自前モデルがない こと。先述の通り、これは Twill が中立的な立ち位置を取れる強みでもあるが、同時に「Twill 独自の最適化」が効きにくい弱みでもある。Devin は Cognition の SWE モデルを内部で育てており、コードレビューや Plan 生成に自社の知見を反映させている。Twill はそこの差別化が薄い。
ふたつめは、Linear・Slack 統合に寄った設計。これは長所と短所が両方ある。Linear を使っているチームには天国だが、Jira 派のチームは初日から不便を感じる。Twill 側は「フィードバック次第で Jira も検討する」と言っているが、現時点では Linear ファースト。
3 つめは、6 ステップの硬さ。固定パイプラインは事故を減らす一方で、「Plan を飛ばして即実装してほしい」みたいな軽いタスクには重い。簡単な typo 修正で Plan の承認を求められると、軽く面倒くさい。設定で短縮できるようになると嬉しい。
これら全部を考えても、「Devin がイマイチ合わなかった人」「クラウドエージェントを試したいが事故が怖い人」 には、現時点でいちばん試しやすい選択肢だ。Plan の見える化で安心感が大きく違う。YC S25 のローンチ直後で UI もそこそこ洗練されていて、ドキュメントもちゃんとしている。
クラウドコーディング市場の分岐点
少し引いた話を最後に。
2025 年は Devin の年だった。「クラウドエージェント」というカテゴリ自体を作り、業界に「AI に丸投げする」という発想を持ち込んだ。
2026 年前半は、「Devin 後の作法」を提示する競合の年になる気がしている。Twill のように「人間承認フェーズを噛ませる」スタイル、Cursor のように「IDE と地続きのクラウド」スタイル、OpenAI Codex Cloud のように「API ベースで自分で組む」スタイル。それぞれが Devin の弱点をどう埋めるかで競っていく。
その中で Twill の選んだ道——「事故を起こす前に止める」——は、エンジニアの心理的な抵抗を下げるアプローチとして、わりと正解に近い気がする。「クラウドエージェントは怖い」と思っている層に届くプロダクトは、たぶんこの方向だ。
YC バッチからこういう「設計の引き算がうまい」プロダクトが出てくるのは、2026 年の AI コーディング業界の成熟を感じさせる動きでもある。触ってみる価値は十分にある。
関連記事
月額500ドルが20ドルに。Devin 2.0の値下げが意味すること
Devin 2.0の値下げの裏側を分析。月額500ドルから20ドルへの転換、ACU課金制の実態、性能の限界、Cursorとの使い分けを実務視点で解説
Cursor 3.1で "エージェントのタイル並べ" が実用品質になった — 4月13日更新の中身を触って確かめた
Cursor 3.1(2026年4月13日リリース)で追加されたタイルレイアウト、強化版音声入力、クラウドエージェントのブランチ指定を実機で確認。Cursor 3の「Agents Window」が本当に日常使いに耐えるようになったかを検証する。
JetBrains Central — IntelliJの会社が「エージェントの管制塔」を作った理由
JetBrains Centralは複数AIコーディングエージェントを統合管理する新プラットフォーム。Google/Anthropic/OpenAIと組んだ背景、ガバナンス機能、Cursor・Zedとの違いを整理する。