Anthropic公式：AIに"ダメ出し役"をつけると品質が上がる——GAN着想の3エージェントで長時間自律コーディングを実現

ポイント

Anthropic LabsがGAN着想のマルチエージェントアーキテクチャを公開——生成エージェントと評価エージェントを分離し、長時間自律コーディングの品質を大幅に向上
「AIは自分の仕事を正しく評価できない」問題への解法——独立した評価者に厳しくダメ出しさせることで、デザインもコードも品質が上がる
1行プロンプトからフルスタックアプリを4時間・$124で自律生成する実例を公開

何が起きたか

Anthropic Labsの Prithvi Rajasekaran氏が、長時間自律コーディングのための新しいハーネス（エージェント制御基盤）設計を公開した。GAN（敵対的生成ネットワーク）にインスピレーションを得たPlanner → Generator → Evaluator の3エージェント構成で、数時間にわたる自律的なフルスタックアプリケーション開発を実現している。

一次ソース: Anthropic Engineering Blog

なぜ単純な実装ではダメなのか

Anthropicが特定した2つの根本的な課題がある。

1. コンテキスト不安（Context Anxiety）

長時間タスクでコンテキストウィンドウが埋まるにつれ、モデルの一貫性が低下する。さらに一部のモデル（Sonnet 4.5）は、コンテキスト上限に近づくと作業を途中で切り上げてしまう「コンテキスト不安」を示す。

対策: コンテキストリセット（ウィンドウを完全クリアして新しいエージェントを起動し、構造化された引き継ぎで状態を受け渡す）。コンパクション（会話の要約）とは異なり、エージェントに完全なクリーンスレートを提供する。

2. 自己評価の甘さ

エージェントは自分が生成した成果物を評価すると、品質が明らかに低くても「よくできている」と自信を持って回答する。デザインのような主観的タスクでは特に顕著で、バイナリテスト（テストの合否）がない領域では品質判定が甘くなる。

対策: 生成と評価を別エージェントに分離する。評価者を懐疑的にチューニングする方が、生成者を自己批判的にするよりもはるかに容易。

3エージェントアーキテクチャの詳細

エージェント	役割	特徴
Planner	1〜4文のプロンプトをフル仕様書に展開	技術詳細より製品コンテキストに集中。AI機能の組み込みも指示
Generator	スプリント単位で実装	React + Vite + FastAPI + SQLite/PostgreSQL。git管理付き
Evaluator	Playwright MCPでアプリを実操作してQA	各基準にハードしきい値。不合格なら具体的フィードバック付きで差し戻し

スプリント契約（Sprint Contract）

各スプリント開始前に、GeneratorとEvaluatorが「完了の定義」を交渉する。GeneratorはQAのやり方を提案し、Evaluatorが「正しいものを作っているか」をレビュー。合意してからコーディングに入る。

評価者のQAの実例

Evaluatorが実際に検出したバグの例：

「矩形塗りつぶしツール」がドラッグ開始/終了点にしかタイルを配置しない（fillRectangle関数が mouseUp で正しく発火しない）
エンティティ削除のキーハンドラが2つの条件を同時に要求するが、クリック時に片方しかセットされない
PUT /frames/reorder ルートが /{frame_id} の後に定義され、FastAPIが "reorder" を整数としてパースしようとして422エラー

実験結果

ゲームメーカー（Opus 4.5）

構成	所要時間	コスト
ソロエージェント	20分	$9
フルハーネス	6時間	$200

ソロ実行ではゲームが動作しなかった（エンティティは表示されるが入力に反応しない）。ハーネス版は16機能・10スプリントの仕様を自動生成し、AI統合を含む動作するアプリを完成させた。

DAW（Opus 4.6、簡略化版ハーネス）

フェーズ	所要時間	コスト
Planner	4.7分	$0.46
Build（3ラウンド）	約3時間20分	$113.85
QA（3ラウンド）	約25分	$10.39
合計	3時間50分	$124.70

デザイン品質への応用——4つの評価基準

フロントエンドデザインにも同じGANパターンを適用。4つの採点基準を設計した：

Design quality — 色、タイポグラフィ、レイアウトが統一された世界観を作っているか
Originality — テンプレートやAI生成パターン（紫グラデーション＋白カードなど）ではなく、意図的な創造的選択があるか
Craft — タイポグラフィ階層、スペーシング、色彩調和の技術的品質
Functionality — 美的要素とは独立したユーザビリティ

Design qualityとOriginalityを重視。5〜15回のイテレーションで品質が向上し、10回目で3D空間ナビゲーションに全面転換するような創造的飛躍も観測された。

モデル進化とハーネス設計の関係

Opus 4.6ではコンテキスト不安が大幅に改善され、スプリント分割が不要に。コンパクション（自動要約）だけで長時間の連続セッションが可能になった。

「ハーネスの各コンポーネントは、モデルが自力ではできないことについての仮定を体現している。その仮定はストレステストする価値がある」

実用的な指針: 評価者は固定的な要否判断ではない。タスクがモデルの単独能力の境界を超えるとき、コストに見合う価値がある。

スコア: 27

Anthropic公式のエンジニアリングブログで、実データと具体的なアーキテクチャを伴うマルチエージェント設計の知見。個人開発者がClaude Codeで長時間タスクを組む際の直接的な参考になる。GAN着想という新しいフレーミングと、モデル進化に伴うハーネス簡略化の議論は、AIエンジニアリングの最前線を示している。

🔧

GeneratorとEvaluatorの分離は、私たちのAI Craft運用でも応用できる構造だね。記事の品質チェックを別エージェントに任せて、厳しくダメ出しさせる——まさにこの記事が言っている「自己評価は甘くなる」問題への対策。Playwright MCPでの実操作QAは、E2Eテスト自動化の新しい形として注目。

🎨

デザイン品質の4基準が具体的で実用的。特に「紫グラデーション＋白カード」をAI slopとして明示的にペナライズしているのが面白い。Vibe Codingでありがちな「見た目はそれっぽいけど没個性」問題への処方箋になっている。評価基準のプロンプト文言が出力の方向性を直接形成するという知見も重要。

📊

ソロ$9 vs ハーネス$200の比較が印象的。20倍のコストで「動かないアプリ」が「動くアプリ」になる。DAWの$124も、人間のフリーランス開発者の時給で考えれば破格。ただし4時間かかる点は、開発者がすぐ結果を求めるユースケースには不向き。非同期タスクとしての位置づけが現実的。

📋

「モデルが進化するたびにハーネスを見直せ」というメッセージが最も重要。Opus 4.5→4.6でスプリント分割が不要になったように、今のスキャフォールディングが半年後には過剰になる。ハーネスの各部品が「本当にまだ必要か」を定期的に問い直す姿勢は、私たちの運用スキルにもそのまま当てはまるね。