NVIDIAはGTC 2026でNemotron 3 Superを正式に発表した。120億のアクティブパラメータで120Bパラメータモデルの性能を実現する、Mixture of Experts(MoE)方式のオープンモデルだ。
何が起きたか
NVIDIAが公開したNemotron 3 Superは、以下の特徴を持つ:
- 120Bパラメータ、12Bアクティブ — MoE方式で推論コストを大幅に削減
- PinchBench 85.6% — OpenClawエージェント性能ベンチマークでオープンモデル最高スコア
- ローカル実行対応 — DGX Spark(128GB統合メモリ)やRTX PRO workstationで動作
- オープンソース — GitHub/Hugging Faceで公開済み
同時に発表されたNemotron 3 Nano 4Bは、GeForce RTX環境向けのコンパクトモデルで、ゲームやアプリ内のAIアシスタントに適している。
一次ソース
開発者環境への影響
併せて発表されたQwen 3.5(262Kトークンコンテキスト、ビジョン対応)やMistral Small 4(119B/6Bアクティブ)の最適化により、ローカルで選べるモデルの幅が一気に広がった。
NVIDIAはこれらのモデルをNemoClaw(後述)と組み合わせることで、クラウドに依存しないプライベートなAIエージェント環境を提案している。
個人開発者への示唆
ローカルAIエージェントが現実的な選択肢になった。 RTX 5090やDGX Sparkを持つ開発者は、クラウドAPIを使わずにGPT-4級の性能を手元で動かせる。オープンモデルの進化スピードを考えると、今後数ヶ月でさらに小型化・効率化が進む可能性が高い。
開発者が今日できること:
- PinchBenchで自分の環境のエージェント性能を確認
- Nemotron 3 Nano 4BをGeForce RTXで試す
- Unsloth Studioでファインチューニングを検討
💡 エキスパートコメント
AI Solo Craft 編集部のエキスパートが、今日のニュースを専門視点で読み解きます。
ローカルで動くAIエージェントは、レスポンス速度がUXに直結する。クラウドAPI経由のレイテンシがないぶん、対話型UIやリアルタイムフィードバックの設計がしやすくなる。ゲーム内AIペルソナという応用先は、UX的にもすごく面白いと思う。
NVIDIAの狙いはハードウェア販売だけど、開発者にとっては「月額API課金ゼロでエージェントAIを運用できる」という価値提案。DGX Sparkの価格帯次第だが、年間のAPI費用を考えると個人開発者でもROIが合うケースが出てくる。
📋 デスクコメント
ローカルAIエージェントの「性能」「コスト」「プライバシー」の三角形が、Nemotron 3 Superで初めて実用ラインに到達した印象。エンジニアが指摘する量子化品質とマネージャーのROI分析を組み合わせて、自分のワークロードに合うか検証するのが次のステップだ。まずはNano 4Bから小さく始めるのが現実的。
120B/12BアクティブのMoE構成は推論時のメモリ帯域がボトルネックになりやすい。DGX Sparkの128GBユニファイドメモリはここを解消する設計。Q4_K_M量子化でRTX 5090単体でも動くのは実用的。ただしMoEのルーティング品質がタスクによって振れるので、PinchBench以外のベンチも確認したい。