はじめに
NVIDIAが2025年12月1日、世界最大級のAI会議NeurIPSにおいて、デジタルAIと物理AIの両分野で大規模なオープンソース技術の拡充を発表しました。中でも注目されるのは、自動運転向けの世界初となる業界規模の推論VLA(Vision Language Action)モデル「NVIDIA DRIVE Alpamayo-R1」です。本稿では、NVIDIAの公式ブログをもとに、今回発表された技術の詳細と、オープンソースAI開発における意義について解説します。
参考記事
- タイトル: At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI
- 著者: Bryan Catanzaro
- 発行元: NVIDIA Blog
- 発行日: 2025年12月1日
- URL: https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/
要点
- NVIDIAは、自動運転向けの世界初となるオープンな業界規模の推論VLA(Vision Language Action)モデル「NVIDIA DRIVE Alpamayo-R1」を発表した
- 音声AI、AIセーフティ、合成データ生成など、デジタルAI分野でも複数の新しいオープンモデルとデータセットが公開された
- 独立評価機関Artificial Analysisの「Openness Index」において、NVIDIA Nemotronファミリーが最もオープンなAI技術の一つとして評価された
- NeurIPSでは、NVIDIA研究者による70以上の論文、講演、ワークショップが発表され、AI推論、医療研究、自動運転開発など幅広い分野をカバーしている
- NVIDIA Cosmosの活用ガイドとなる「Cosmos Cookbook」が公開され、物理AI開発の全工程をカバーする包括的なリソースが提供されている
詳細解説
世界初の推論VLAモデル「NVIDIA DRIVE Alpamayo-R1」
NVIDIAによれば、NVIDIA DRIVE Alpamayo-R1(AR1)は、自動運転研究向けの世界初となるオープンな推論VLAモデルです。このモデルは、Chain-of-Thought(思考の連鎖)によるAI推論と経路計画を統合しており、複雑な道路状況における自動運転の安全性向上とレベル4自動運転の実現に不可欠な要素となっています。
VLA(Vision Language Action)モデルとは、視覚情報、言語理解、行動決定を統合的に処理できるAIモデルを指します。従来の自動運転モデルでは、歩行者の多い交差点、車線閉鎖の予告、自転車レーンに二重駐車された車両といった微妙な状況への対応が課題とされてきました。AR1は推論機能を組み込むことで、人間のドライバーに近い常識的な判断を可能にしています。
具体的な動作として、NVIDIAの説明では、AR1は状況を分解し、各ステップを推論しながら処理します。すべての可能な軌道を検討し、文脈データを用いて最適なルートを選択します。例えば、自転車レーンの隣の歩行者密集エリアを走行する自動運転車は、経路からのデータを取り込み、特定の行動を取った理由を説明する推論トレース(reasoning traces)を組み込み、その情報を使って将来の軌道を計画することができます。これには、自転車レーンから離れる、あるいは飛び出しの可能性がある歩行者のために停止するといった判断が含まれます。
AR1のオープンな基盤は、NVIDIA Cosmos Reasonをベースとしており、研究者は非商用の用途でモデルをカスタマイズできます。NVIDIAによれば、AR1の事後学習には強化学習が特に効果的であることが確認されており、事前学習モデルと比較して推論能力が大幅に向上したとされています。
NVIDIA DRIVE Alpamayo-R1は、GitHubとHugging Faceで公開される予定です。また、モデルの学習と評価に使用されたデータの一部は「NVIDIA Physical AI Open Datasets」で提供され、評価用のオープンソースフレームワーク「AlpaSim」もリリースされました。
NVIDIA Cosmosのカスタマイズと活用範囲の拡大
NVIDIAは、物理AI開発者向けの包括的なガイド「Cosmos Cookbook」を公開しました。これは、データキュレーション、合成データ生成、モデル評価まで、AI開発のすべてのステップをカバーする資料です。ステップバイステップのレシピ、クイックスタートの推論例、高度な事後学習ワークフローが含まれており、開発者がCosmosベースのモデルを使用・事後学習する方法を学べます。
Cosmosベースのアプリケーションには、実質的に無限の可能性があると考えられます。NVIDIAが示した最新の例には以下が含まれます:
LidarGenは、自動運転シミュレーション用のLidarデータを生成できる世界初のワールドモデルです。LiDAR(Light Detection and Ranging)は、レーザー光を用いて物体までの距離を測定する技術で、自動運転車の周囲環境認識に広く使われています。従来、高品質なLidarデータの生成は困難でしたが、LidarGenはCosmosの技術を活用してこれを可能にしました。
Omniverse NuRec Fixerは、自動運転とロボティクスシミュレーション向けのモデルで、NVIDIA Cosmos Predictを活用し、ニューラル再構成データのアーティファクト(ぼやけや穴)をほぼ瞬時に修正します。ニューラル再構成とは、複数の視点からの画像データを用いて3D空間を再構築する技術ですが、新しい視点やノイズの多いデータからは不完全な結果が生じることがありました。
Cosmos Policyは、大規模な事前学習済みビデオモデルを堅牢なロボットポリシーに変換するフレームワークです。ポリシーとは、ロボットの行動を決定するルールセットを指します。これにより、汎用的な視覚理解能力を持つモデルを、具体的なロボット制御タスクに適用できます。
ProtoMotions3は、NVIDIA NewtonとIsaac Lab上に構築されたオープンソースのGPU加速フレームワークで、Cosmosのワールド基盤モデル(WFM)によって生成されたリアルなシーンで、物理的にシミュレートされたデジタルヒューマンやヒューマノイドロボットを訓練します。
NVIDIAのエコシステムパートナーもCosmos WFMsを活用して最新技術を開発しています。自動運転開発企業のVoxel51はCosmos Cookbookにモデルレシピを提供しており、1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI、X-Humanoidなどの物理AI開発企業も、最新の物理AIアプリケーションにWFMsを使用しています。
デジタルAI開発ツールキットの強化
デジタルAI分野では、NVIDIAは新しいマルチスピーカー音声AIモデル、推論機能を持つ新モデル、AIセーフティ用データセット、そして強化学習と領域特化型モデルカスタマイズのための高品質合成データセット生成用オープンツールをリリースしました。
MultiTalker Parakeetは、ストリーミング音声用の自動音声認識モデルで、重複した会話や早口の会話でも複数の話者を理解できます。従来の音声認識システムでは、複数の人が同時に話す状況や会話が重なる場面での精度に課題がありました。
Sortformerは、音声ストリーム内で複数の話者を正確に区別するプロセス(ダイアライゼーションと呼ばれます)を、リアルタイムで実行できる最先端モデルです。ダイアライゼーション技術は、会議の議事録作成やコールセンターの分析などで重要となります。
Nemotron Content Safety Reasoningは、推論ベースのAIセーフティモデルで、領域横断的にカスタムポリシーを動的に適用します。これは、固定されたルールベースのフィルタリングではなく、文脈を理解した上で安全性を判断できることを意味します。
Nemotron Content Safety Audio Datasetは、合成データセットで、安全でない音声コンテンツを検出するモデルの訓練を支援します。これにより、テキストと音声の両方のモダリティで機能するガードレール(安全機能)の開発が可能になります。
NeMo Gymは、LLM訓練用の強化学習環境の開発を加速・簡素化するオープンソースライブラリです。検証可能な報酬からの強化学習(RLVR)を可能にする、すぐに使える訓練環境のコレクションも含まれています。
NeMo Data Designer Libraryは、Apache 2.0ライセンスの下でオープンソース化され、生成AI開発のための高品質合成データセットの生成、検証、改良を行うエンドツーエンドのツールキットを提供します。領域特化型モデルのカスタマイズと評価が含まれます。
NVIDIAによれば、CrowdStrike、Palantir、ServiceNowなどのエコシステムパートナーが、NVIDIA NemotronとNeMoツールを使用して、安全で専門的なエージェント型AIを構築しています。
オープンソースへのコミットメントの評価
独立組織であるArtificial Analysisが発表した新しい「Openness Index」では、NVIDIA Nemotronファミリーのオープン技術が、モデルライセンスの許容性、データの透明性、技術詳細の入手可能性に基づいて、AIエコシステムの中で最もオープンなものの一つとして評価されました。
この評価は、オープンソースAI技術の「オープンさ」を客観的に測定する試みとして注目されます。単にコードを公開するだけでなく、ライセンスの制約の少なさ、訓練データの透明性、技術的な詳細情報の充実度など、多角的な観点から評価が行われています。NVIDIAの技術がこの評価で高い評価を受けたことは、同社のオープンソースコミュニティへの貢献が第三者機関によって認められたことを意味すると言えます。

NeurIPSでの研究発表
NVIDIAによれば、NeurIPSでは70以上の論文、講演、ワークショップが発表され、AI推論、医療研究、自動運転開発など幅広い分野をカバーしています。言語モデルの進歩に関する注目すべき研究には以下が含まれます:
Audio Flamingo 3は、音声、音、音楽にわたって推論できる大規模音声言語モデルで、最大10分の音声セグメントを理解・推論でき、20以上のベンチマークで最先端の結果を達成しました。
Minitron-SSMは、ハイブリッドモデルを圧縮できるプルーニング手法を導入し、Nemotron-H 8Bを80億パラメータから40億パラメータに圧縮・蒸留することを実証しました。プルーニングとは、モデルの重要でない部分を削除して効率化する技術です。結果として得られたモデルは、同規模のモデルの精度を上回りつつ、推論スループットが2倍高速になりました。
Jet-Nemotronは、新しい効率的な言語モデルアーキテクチャを開発するための費用対効果の高い事後学習パイプラインを提示し、このパイプラインで作成されたハイブリッドアーキテクチャのモデルファミリーを紹介しています。これらのモデルは、主要なフルアテンションベースラインの精度と一致または上回りながら、大幅に高い生成スループットを実現します。
Nemotron-Flashは、実世界のレイテンシ(応答時間)を中心に小規模言語モデル(SLM)を再設計した新しいアーキテクチャで、パラメータ数ではなく実際の速度を最適化することで、最先端の速度と精度を達成しました。従来、モデルの効率性はパラメータ数で評価されることが多かったのですが、実用上は実際の応答速度がより重要であるという認識に基づいています。
ProRL(Prolonged Reinforcement Learning)は、モデル訓練をより長期間にわたって拡張する手法で、この方法論により、推論タスクにおいてベースモデルを一貫して上回る結果が得られることが示されました。
まとめ
NVIDIAは、NeurIPSにおいて自動運転向けの世界初となる推論VLAモデル「Alpamayo-R1」をはじめ、音声AI、AIセーフティ、合成データ生成など幅広い分野でオープンソースAI技術を大幅に拡充しました。独立評価機関からの高評価も得て、同社のオープンソースへのコミットメントが第三者によって認められた形となっています。物理AIとデジタルAIの両分野で提供されるこれらのツールとモデルは、研究者や開発者にとって貴重なリソースとなると考えられます。今後、これらの技術がどのように実用化され、AI開発のエコシステムに貢献していくのか、注目していきたいと思います。
