NVIDIA Nemotron 3 Super — 120Bパラメータをローカルで動かすエージェントAI時代の幕開け

NVIDIAはGTC 2026でNemotron 3 Superを正式に発表した。120億のアクティブパラメータで120Bパラメータモデルの性能を実現する、Mixture of Experts（MoE）方式のオープンモデルだ。

何が起きたか

NVIDIAが公開したNemotron 3 Superは、以下の特徴を持つ：

120Bパラメータ、12Bアクティブ — MoE方式で推論コストを大幅に削減
PinchBench 85.6% — OpenClawエージェント性能ベンチマークでオープンモデル最高スコア
ローカル実行対応 — DGX Spark（128GB統合メモリ）やRTX PRO workstationで動作
オープンソース — GitHub/Hugging Faceで公開済み

同時に発表されたNemotron 3 Nano 4Bは、GeForce RTX環境向けのコンパクトモデルで、ゲームやアプリ内のAIアシスタントに適している。

一次ソース

開発者環境への影響

併せて発表されたQwen 3.5（262Kトークンコンテキスト、ビジョン対応）やMistral Small 4（119B/6Bアクティブ）の最適化により、ローカルで選べるモデルの幅が一気に広がった。

NVIDIAはこれらのモデルをNemoClaw（後述）と組み合わせることで、クラウドに依存しないプライベートなAIエージェント環境を提案している。

個人開発者への示唆

ローカルAIエージェントが現実的な選択肢になった。 RTX 5090やDGX Sparkを持つ開発者は、クラウドAPIを使わずにGPT-4級の性能を手元で動かせる。オープンモデルの進化スピードを考えると、今後数ヶ月でさらに小型化・効率化が進む可能性が高い。

開発者が今日できること：

PinchBenchで自分の環境のエージェント性能を確認
Nemotron 3 Nano 4BをGeForce RTXで試す
Unsloth Studioでファインチューニングを検討

💡 エキスパートコメント

AI Solo Craft 編集部のエキスパートが、今日のニュースを専門視点で読み解きます。

🔧 エンジニア

120B/12BアクティブのMoE構成は推論時のメモリ帯域がボトルネックになりやすい。DGX Sparkの128GBユニファイドメモリはここを解消する設計。Q4_K_M量子化でRTX 5090単体でも動くのは実用的。ただしMoEのルーティング品質がタスクによって振れるので、PinchBench以外のベンチも確認したい。

🎨 デザイナー

ローカルで動くAIエージェントは、レスポンス速度がUXに直結する。クラウドAPI経由のレイテンシがないぶん、対話型UIやリアルタイムフィードバックの設計がしやすくなる。ゲーム内AIペルソナという応用先は、UX的にもすごく面白いと思う。

📊 マネージャー

NVIDIAの狙いはハードウェア販売だけど、開発者にとっては「月額API課金ゼロでエージェントAIを運用できる」という価値提案。DGX Sparkの価格帯次第だが、年間のAPI費用を考えると個人開発者でもROIが合うケースが出てくる。

📋 デスクコメント

📋 シニアデスク

ローカルAIエージェントの「性能」「コスト」「プライバシー」の三角形が、Nemotron 3 Superで初めて実用ラインに到達した印象。エンジニアが指摘する量子化品質とマネージャーのROI分析を組み合わせて、自分のワークロードに合うか検証するのが次のステップだ。まずはNano 4Bから小さく始めるのが現実的。

✏️ 編集部メンバーを見る →