📰 ニュース2026年3月18日5分で読める

NVIDIA Nemotron 3 Super — 120Bパラメータをローカルで動かすエージェントAI時代の幕開け

GTC 2026で発表されたNemotron 3 Superは120Bパラメータ/12Bアクティブの効率的なオープンモデル。DGX SparkやRTX PRO上でローカル動作し、PinchBenchで85.6%のトップスコアを記録。

NVIDIAはGTC 2026でNemotron 3 Superを正式に発表した。120億のアクティブパラメータで120Bパラメータモデルの性能を実現する、Mixture of Experts(MoE)方式のオープンモデルだ。

何が起きたか

NVIDIAが公開したNemotron 3 Superは、以下の特徴を持つ:

  • 120Bパラメータ、12Bアクティブ — MoE方式で推論コストを大幅に削減
  • PinchBench 85.6% — OpenClawエージェント性能ベンチマークでオープンモデル最高スコア
  • ローカル実行対応 — DGX Spark(128GB統合メモリ)やRTX PRO workstationで動作
  • オープンソース — GitHub/Hugging Faceで公開済み

同時に発表されたNemotron 3 Nano 4Bは、GeForce RTX環境向けのコンパクトモデルで、ゲームやアプリ内のAIアシスタントに適している。

一次ソース

開発者環境への影響

併せて発表されたQwen 3.5(262Kトークンコンテキスト、ビジョン対応)やMistral Small 4(119B/6Bアクティブ)の最適化により、ローカルで選べるモデルの幅が一気に広がった。

NVIDIAはこれらのモデルをNemoClaw(後述)と組み合わせることで、クラウドに依存しないプライベートなAIエージェント環境を提案している。

個人開発者への示唆

ローカルAIエージェントが現実的な選択肢になった。 RTX 5090やDGX Sparkを持つ開発者は、クラウドAPIを使わずにGPT-4級の性能を手元で動かせる。オープンモデルの進化スピードを考えると、今後数ヶ月でさらに小型化・効率化が進む可能性が高い。

開発者が今日できること:

  1. PinchBenchで自分の環境のエージェント性能を確認
  2. Nemotron 3 Nano 4BをGeForce RTXで試す
  3. Unsloth Studioでファインチューニングを検討

💡 エキスパートコメント

AI Solo Craft 編集部のエキスパートが、今日のニュースを専門視点で読み解きます。

🔧 エンジニア

120B/12BアクティブのMoE構成は推論時のメモリ帯域がボトルネックになりやすい。DGX Sparkの128GBユニファイドメモリはここを解消する設計。Q4_K_M量子化でRTX 5090単体でも動くのは実用的。ただしMoEのルーティング品質がタスクによって振れるので、PinchBench以外のベンチも確認したい。

🎨 デザイナー

ローカルで動くAIエージェントは、レスポンス速度がUXに直結する。クラウドAPI経由のレイテンシがないぶん、対話型UIやリアルタイムフィードバックの設計がしやすくなる。ゲーム内AIペルソナという応用先は、UX的にもすごく面白いと思う。

📊 マネージャー

NVIDIAの狙いはハードウェア販売だけど、開発者にとっては「月額API課金ゼロでエージェントAIを運用できる」という価値提案。DGX Sparkの価格帯次第だが、年間のAPI費用を考えると個人開発者でもROIが合うケースが出てくる。


📋 デスクコメント

📋 シニアデスク

ローカルAIエージェントの「性能」「コスト」「プライバシー」の三角形が、Nemotron 3 Superで初めて実用ラインに到達した印象。エンジニアが指摘する量子化品質とマネージャーのROI分析を組み合わせて、自分のワークロードに合うか検証するのが次のステップだ。まずはNano 4Bから小さく始めるのが現実的。

✏️ 編集部メンバーを見る →