概要
Googleが「Gemini 3 Deep Think」のメジャーアップデートを発表した。科学・研究・エンジニアリング向けの特化推論モードで、複数のベンチマークで記録的なスコアを達成している。
出典: Google AI Blog — 2026年2月12日
詳細
ベンチマーク結果
| ベンチマーク | スコア | 補足 |
|---|---|---|
| ARC-AGI-2 | 84.6% | 人間平均60%、従来AI 20%以下 |
| Humanity's Last Exam | 48.4% | ツールなし |
| Codeforces | Elo 3,455 | Legendary Grandmaster |
| 国際科学オリンピック | 金メダルレベル | 物理/化学/数学筆記 |
| CMT-Benchmark | 50.5% | 理論物理学 |
特にARC-AGI-2の84.6%は、ARC Prize Foundationが検証済み。人間の平均を大幅に上回る結果となった。
技術的特徴
科学者・研究者との共同開発により、以下の能力が強化された:
- 不完全なデータへの対応 — 実世界の研究データを扱える
- 複雑な問題への推論 — 単純解がない問題に取り組める
- 実践的応用 — 手描きスケッチから3Dプリント可能ファイルへの変換など
提供形態
- Google AI Ultraサブスクライバー: Geminiアプリで利用可能
- 開発者向け: Gemini APIで早期アクセスプログラム開始
ポイント
- GPT-5.2、Claude Opus 4.6を上回るベンチマーク結果
- 科学・エンジニアリング向けに特化した推論モード
- APIアクセスにより開発者も活用可能
ソロビルダーへの示唆
Gemini 3 Deep Thinkは、特に技術的に複雑な問題を扱うソロビルダーに価値がある。アルゴリズム設計、システムアーキテクチャの検討、技術的な意思決定支援などで活用できる。
ただし、これは「汎用アシスタント」ではなく「専門的推論モード」として位置づけられている。日常的なコーディング作業には従来のモデルの方が適している場合もある。
APIの早期アクセスに申し込むことで、自分のプロジェクトでの有用性を検証できる。
NVA評価
| 軸 | スコア | 理由 |
|---|---|---|
| Newsworthiness | 5/5 | 複数ベンチマークで記録更新 |
| Value | 4/5 | 技術的課題の推論に有用 |
| Actionability | 4/5 | APIアクセス開始 |
| Credibility | 5/5 | Google公式発表、第三者検証あり |
| Timeliness | 4/5 | 直近発表 |
| 合計 | 22/25 | Tier A |