何が起きたか
セキュリティ企業 DryRun Security が3月13日、主要AIコーディングエージェント3種(Claude Code、OpenAI Codex、Google Gemini)のセキュリティ品質を比較した調査レポートを公開した。
調査では、各エージェントに2つのアプリケーション(アレルギー管理Webアプリ、レーシングゲーム)をゼロから構築させ、全PRをセキュリティスキャンした。
主な調査結果
87%のPRに脆弱性
30本のPRのうち26本(87%)に少なくとも1つのセキュリティ問題が含まれていた。合計143件の脆弱性が検出された。
10種類の脆弱性パターンが繰り返し出現
| 脆弱性カテゴリ | 出現エージェント | 深刻度 |
|---|---|---|
| 認可制御の欠落 | 3社すべて | 高 |
| ビジネスロジック不備 | 3社すべて | 高 |
| OAuth実装ミス | 3社すべて | 高 |
| WebSocket認証なし | 3社すべて | 高 |
| レート制限未接続 | 3社すべて | 中 |
| JWT秘密鍵ハードコード | 3社すべて | 高 |
特筆すべきは、どのエージェントもレート制限のミドルウェアを定義していたのに、実際のアプリケーションに接続していなかったという点。「知識はあるが、実装を完遂しない」という特徴的な失敗パターンだ。
エージェント別最終結果
| エージェント | Webアプリ最終脆弱性 | ゲーム最終脆弱性 | 特記事項 |
|---|---|---|---|
| Claude Code | 13件 | 8件 | 2FA無効化バイパスを独自に導入 |
| Gemini | 11件 | 7件 | OAuth CSRFが最後まで残存 |
| Codex | 8件 | 6件 | 最も少ないが、トークンバイパスが残存 |
Codexが相対的に最もクリーンな結果を出したが、いずれのエージェントもセキュリティレビューなしでの本番投入は危険という結論だ。
個人開発者への示唆
- AIが書いたコードには必ずセキュリティレビューを入れる — 特に認証・認可まわり
- GitHub Security Lab Taskflow Agent(後述)のような自動スキャンをCIに組み込む
- 「ミドルウェアは定義されているか」だけでなく、「実際にルートに接続されているか」を確認する
- OAuthやWebSocket認証は、AI任せにせず自分でテストする
一次ソース: AI coding agents keep repeating decade-old security mistakes — Help Net Security
💡 エキスパートコメント
AI Solo Craft 編集部のエキスパートが、今日のニュースを専門視点で読み解きます。
認証フローのUXテストで「ログインせずにデータが見えてしまう」パターンは、実はユーザーテストで発見しやすい。E2Eテストで「未ログインユーザーが保護ページにアクセス」するシナリオを必ず入れるだけで、かなりの問題が防げるはず。
この調査結果は「AIコーディングは危険」ではなく「セキュリティレビューの市場が広がる」と読むべき。DryRun Security自身が商機を示している。個人開発者は、セキュリティ自動チェックをサービスの差別化要素にできる時代が来ている。
📋 デスクコメント
AIに任せきりにしないセキュリティの防衛線は、今やCI/CDパイプラインに組み込むのが最低ライン。エンジニアの言うロジック脆弱性検出と、デザイナーのE2Eテストの両方を実装することで、AIが生む脆弱性の大半はキャッチできる。GitHub Taskflow Agentの公開がちょうどいいタイミングだ。
「ミドルウェアを定義したのに接続しなかった」は、人間のジュニアエンジニアでもやりがちなミス。CIに組み込めるセキュリティスキャンが現実的な対策。個人開発でも
npm auditレベルではなく、ロジック脆弱性まで見る仕組みが必要になってきた。