NVIDIA「Nemotron 3 Super」を解説 — AIが”自分で考えて動く”時代のための新しい頭脳

NVIDIAが、AIエージェント専用の新しいAIモデル「Nemotron 3 Super」を発表しました。

……と聞いても、「エージェント？」「モデル？」となる方が多いと思います。

この記事では、専門知識がなくてもわかるように、Nemotron 3 Superが何を解決するのか、なぜ重要なのかを、身近な例えを使って解説していきます。

まず「AIエージェント」とは何か

ChatGPTやClaudeに質問すると、答えが返ってきますよね。これは「1回のやり取り」で完結する使い方です。

一方、「AIエージェント」は、もっと複雑な仕事を自分で計画し、何段階もの作業を自律的にこなすAIのことです。

たとえるなら、ChatGPTは「質問に答えてくれる物知りな友人」、AIエージェントは「仕事を丸ごと任せられる優秀なアシスタント」です。

具体例を挙げると、こんなことができます。「この会社の財務レポート100ページを分析して、リスク要因をまとめて、対策案を3つ提案して」と指示すると、AIエージェントが自分で資料を読み、データベースを検索し、分析し、レポートを作成してくれます。人間が各ステップを指示する必要はありません。

AIエージェントが抱える「2つの大問題」

しかし、現在のAIエージェントには深刻な問題が2つあります。Nemotron 3 Superは、まさにこの2つを解決するために作られました。

問題1：「コンテキスト爆発」— 記憶がパンクする

AIエージェントは複数のステップで仕事を進めるため、各ステップの結果を次のステップに引き継ぐ必要があります。ステップが進むたびに、過去の会話履歴、ツールの出力結果、推論の過程などがどんどん蓄積されていきます。

NVIDIAの発表によると、マルチエージェントシステムは通常のチャットの最大15倍ものトークン（テキスト量）を生成します。

これを「コンテキスト爆発」と呼びます。記憶がパンクすると、AIは途中で最初の目標を見失ってしまいます。これを「ゴールドリフト（目標の漂流）」と言います。

たとえるなら、100ページの企画書を書いている途中で、20ページ目あたりから「あれ、何の企画だっけ？」と忘れてしまうようなものです。

問題2：「思考税」— 考えるたびにコストがかかりすぎる

AIエージェントは各ステップで「考える」必要がありますが、大きなAIモデルに毎回考えさせると、コンピューティングコストが膨大になり、処理も遅くなります。

これを「思考税（Thinking Tax）」と呼びます。考えれば考えるほど、お金と時間がかかるという問題です。

たとえるなら、社内の小さな確認事項にもいちいち社長決裁を通すような非効率さです。

Nemotron 3 Superはどう解決するのか

解決策1：100万トークンの「超大容量メモリ」

Nemotron 3 Superは、100万トークンのコンテキストウィンドウ（記憶容量）を持っています。

これは、一般的な本に換算すると約10〜15冊分のテキストを一度に記憶しながら作業できるということです。ソフトウェア開発エージェントなら、コードベース全体を一度にメモリに読み込み、全体を把握しながらバグを修正できます。金融アナリストのエージェントなら、数千ページのレポートを一括で処理できます。

これにより「ゴールドリフト」が防がれ、長時間の複雑な作業でも最初の目標を見失わなくなります。

解決策2：「必要な脳だけ使う」効率的な設計

Nemotron 3 Superは、全体で1200億のパラメータ（AIの「脳の神経細胞」のようなもの）を持っていますが、実際に動いているのは常にそのうちの120億だけです。

これは「Mixture of Experts（MoE）」という仕組みで、たとえるなら「120人の専門家チームがいるけれど、各質問には最適な12人だけが対応する」というイメージです。残りの108人は休んでいるので、電気代（コンピューティングコスト）は12人分しかかかりません。

さらに「マルチトークン予測」という技術で、通常は1語ずつ生成するところを複数語同時に生成できるため、長い推論の出力速度が劇的に向上しています。

結果として、前世代のNemotron Superと比べて処理速度は5倍以上、精度は最大2倍に向上しています。

3つの技術を融合した「ハイブリッド頭脳」

Nemotron 3 Superの最大の特徴は、3つの異なるAI技術を1つのモデルに融合している点です。

**Mamba（マンバ）**は、長いテキストを高速に処理するのが得意な技術です。通常のAIはテキストが長くなるほど処理が重くなりますが、Mambaは長さに対してほぼ一定の速度で処理できます。

**Transformer（トランスフォーマー）**は、ChatGPTやClaudeの基盤でもある技術で、精密な推論や文脈の正確な理解に優れています。

**MoE（Mixture of Experts）**は、先ほど説明した「必要な専門家だけが対応する」仕組みです。

Nemotron 3 Superは、この3つをレイヤーごとに切り替えて使います。高速処理が必要な部分はMambaが担当し、精密な推論が必要な部分はTransformerが対応します。これにより「速さ」と「正確さ」の両立を実現しています。

「考える深さ」を自分で調整できる

もうひとつ画期的なのが、推論の深さをリアルタイムで切り替えられる機能です。

たとえば、ある作業の中で「計画を立てる」ステップは深く考える必要がありますが、「メールを送る」ステップは考えなくてもできます。Nemotron 3 Superでは、この「思考のオン・オフ」を同一モデルの中で切り替えられます。

従来は、難しい作業用の大きなモデルと、簡単な作業用の小さなモデルを2つ用意して使い分ける必要がありました。Nemotron 3 Superなら1つのモデルで両方をカバーできるため、運用コストが大幅に削減されます。

すでに大手企業が続々採用

Nemotron 3 Superは、発表と同時に幅広い企業に採用されています。

AI検索のPerplexityは、ユーザーに直接Nemotron 3 Superを提供しています。ソフトウェア開発エージェントのCodeRabbit、Factory、Greptileは、自社のAIエージェントに統合中です。Palantir、Siemens、Dassault Systèmesといった企業向けソフトウェア大手も、ワークフロー自動化やコード生成に活用しています。

クラウドではGoogle Cloud、Oracle Cloud、AWS、Microsoft Azureで利用可能になる予定です。

完全にオープンソースで公開されており、モデルの重み、訓練データ（10兆トークン以上）、強化学習の環境もすべて無料で利用できます。