NVIDIA は米時間 4 月 28 日、エージェント向けの新しいオープン基盤モデル Nemotron 3 Nano Omni を発表しました。視覚・音声・言語スタックを別々に持たずとも、ひとつのモデルで動画理解・音声処理・テキスト推論を完結できる点が特徴です。

主なポイント

  • 総パラメーター 30B、推論時のアクティブパラメーターは 3B の Hybrid Mamba-Transformer Mixture-of-Experts 構成。トークンごとに 128 個のエキスパートから 6 個を選択する。
  • 視覚・音声・テキストの各モダリティが単一アーキテクチャを共有し、モダリティに応じて異なるエキスパートが活性化される。エージェント推論で最大 9 倍の効率と紹介。
  • 重み・学習データ・学習レシピを公開。Hugging Face、OpenRouter、build.nvidia.com の NIM マイクロサービスとして利用可能で、NVIDIA Cloud Partners 経由でも展開する。
  • Nano に加え Super、Ultra サイズも順次提供予定で、カスタマイズ・蒸留・エージェント構築の各段階で利用できると説明。

出典: NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model