論文紹介: FormulaCode — AIエージェントはコードベース全体の最適化にどこまで使えるか

論文の概要

論文: FormulaCode: Evaluating Agentic Optimization on Large Codebases

著者: Atharva Sehgal ら 公開日: 2026年3月16日（arXiv） カテゴリ: cs.SE（Software Engineering）

FormulaCodeは、GitHubの実際のPythonリポジトリから抽出した957個のパフォーマンスボトルネックを使い、LLMエージェントが大規模コードベースの最適化をどこまでできるかを評価するベンチマークだ。

従来のコーディングベンチマーク（SWE-Bench等）は「バグを直す」「機能を追加する」といったタスクが中心だった。FormulaCodeはパフォーマンス最適化に特化している点が異なる。

各タスクには:

が付属しており、「正しく動くけど遅い」コードを「正しく動いて速い」コードに変換する能力を測定する。

研究の結果、リポジトリスケールの複数目的最適化は、現在のフロンティアLLMエージェントにとって依然として大きな課題であることが判明した。

具体的には:

この研究は、AIコーディングツールの現実的な限界を知る上で重要だ。Claude CodeやCodexを使ったパフォーマンスチューニングは有望だが、リポジトリ全体の最適化を一括で任せるのはまだ時期尚早。

実務へのヒント:

論文: arXiv:2603.16011

AI Solo Craft 編集部のエキスパートが、今日のニュースを専門視点で読み解きます。

🔧 エンジニア

「速くなったがエッジケースで壊れた」は実務でもよくあるパターン。AIにリファクタリングを頼む時は、テストカバレッジを先に上げておくのが鉄則。FormulaCodeの「平均264.6ワークロード」という評価基盤は、自前のベンチマーク設計の参考にもなる。

🎨 デザイナー

パフォーマンスは直接UXに響く。レンダリング速度やAPI応答時間の最適化をAIに任せたい場面は多いが、「ユーザーが気づくレベルの改善」と「ベンチマーク上だけの数字」を区別する視点が大事。UX改善にAIを使うなら、体感速度の計測も組み合わせて。

📊 マネージャー

「AIに最適化を全部任せる」のではなく「人間がボトルネックを特定し、AIがファイル単位で最適化する」という分業が現実的。ツール選定の際に、こういったベンチマーク結果を根拠にできるのは経営判断にも有用。

📋 シニアデスク

AIコーディングツールの能力は急速に向上しているが、この論文はその限界を定量的に示している。「今はまだファイル単位」という制約を理解した上で使えば、十分に生産性向上に貢献する。エンジニアの言うテストカバレッジの事前準備が、AI活用の成功確率を大きく左右するという点は強調しておきたい。