はじめに
Google DeepMindが2025年11月13日、3D仮想環境で動作する汎用AIエージェント「SIMA 2」を発表しました。初代SIMAは言語指示に従って行動できるエージェントでしたが、SIMA 2ではGeminiモデルを統合することで、推論能力、対話機能、自己改善能力を獲得しています。本稿では、この発表内容をもとに、SIMA 2の技術的進化と実用的な意味について解説します。
参考記事
- タイトル: SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds
- 著者: SIMA Team
- 発行元: Google DeepMind
- 発行日: 2025年11月13日
- URL: https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点
- SIMA 2はGeminiモデルを中核に統合し、単なる指示実行から推論・対話・自己改善が可能なエージェントへと進化した
- 複数の商用ゲーム環境で訓練され、未知のゲーム(ASKA、MineDojo)でも高い汎化性能を示し、人間のプレイヤーに近い成功率を達成している
- Geminiによる自己評価とフィードバックを活用した自己改善サイクルにより、人間のデモンストレーションなしで新しいタスクを学習できる
- Genie 3が生成した新規3D環境でも適応能力を示し、多様な生成環境での訓練可能性を実証した
- ゲーム環境で獲得したナビゲーションやツール使用などのスキルは、将来的な物理ロボットへの応用に向けた基礎となる
詳細解説
SIMA 2の基本アーキテクチャとGemini統合
Google DeepMindによれば、初代SIMAは「左を向く」「はしごを登る」「マップを開く」といった600以上の言語指示に従えるエージェントでした。画面を「見て」仮想キーボードとマウスを操作することで、ゲームの内部メカニズムにアクセスすることなく動作します。
SIMA 2では、Geminiモデルをエージェントの中核に組み込むことで、指示実行を超えた能力を実現しました。Geminiの推論能力により、ユーザーの高レベルな目標を理解し、複雑な推論を行い、目標指向の行動を実行できます。
この統合により、SIMA 2は自身の意図や実行ステップをユーザーに説明できるようになりました。人間のデモンストレーション動画とGemini生成のラベルを組み合わせて訓練されており、単なる命令実行ツールではなく、タスクについて推論できる協力者のような体験を提供します。
推論能力による対話的な協働
SIMA 2の特徴的な進化は、推論に基づく対話能力です。Google DeepMindの発表では、エージェントとのやり取りが「命令を与える」というより「タスクについて推論できる仲間との協働」に感じられると説明されています。
従来のゲームAIやRPAツールでは、事前に定義された動作を実行するのが一般的でした。しかし、SIMA 2は抽象的な概念や論理的な指示を解釈し、環境とユーザーの意図について推論できます。例えば、「焚き火を探して」という指示に対して、環境を観察し、目標に向かう経路を推論し、実行ステップを説明しながら行動します。
この能力は、複雑で長期的なタスクの実行において特に重要です。ユーザーの質問に答えたり、自身の行動と環境について推論したりすることで、より自然な協働体験を実現しています。
汎化性能の大幅な向上
Google DeepMindによれば、SIMA 2は初代SIMAと比較して、より複雑で微妙な指示を理解し、特に訓練されていない状況やゲームで高い成功率を示します。

評価には、Viking生存ゲームのASKAや、Minecraftの研究実装であるMineDojoが使用されました。これらは訓練データに含まれない新規環境ですが、SIMA 2は意味のある行動を取ることができました。訓練環境全体でのタスク完了成功率では、SIMA 2は人間のプレイヤーとのギャップを大幅に縮めています。

特筆すべきは、学習した概念を転移する能力です。あるゲームでの「採掘(mining)」の理解を別のゲームの「収穫(harvesting)」に適用できるという能力は、人間の認知に見られる広範な汎化に近いものと考えられます。
SIMA 2は多言語の指示や絵文字も理解できます。ユーザーが画面上にスケッチを描いたり、異なる言語で指示したりしても、適切に解釈して実行できる柔軟性を持っています。これは、マルチモーダルな入力を統合的に処理できるGeminiの能力によるものと推測されます。
Genie 3環境での究極的な汎化テスト
Google DeepMindは、SIMA 2の汎化能力の限界を試すため、別の研究プロジェクトGenie 3と組み合わせました。Genie 3は、1枚の画像やテキストプロンプトから新しいリアルタイム3Dシミュレーション世界を生成できる技術です。
SIMA 2をこれらの新規生成世界でプレイさせたところ、適切に状況を把握し、ユーザーの指示を理解し、目標に向けた意味のある行動を取ることができました。これまで見たことのない環境にもかかわらず、前例のないレベルの適応性を示したとされています。
この結果は、多様な生成環境での汎用エージェント訓練に向けた重要なマイルストーンと言えるでしょう。従来のAIエージェントが特定環境に特化していたのに対し、SIMA 2は環境の構造や視覚的特徴を動的に理解して適応する能力を持つ可能性が示されました。

自己改善能力による継続的な学習
SIMA 2の最も興味深い新機能の一つは、自己改善能力です。Google DeepMindによれば、訓練の過程で、SIMA 2エージェントは試行錯誤とGeminiベースのフィードバックによってブートストラップされ、ますます複雑な新しいタスクを実行できるようになります。

この仕組みでは、まずGeminiが初期タスクを提供し、SIMA 2の行動に対する推定報酬を与えます。この情報は自己生成経験のバンクに追加され、次世代のエージェント訓練に使用されます。人間のデモンストレーションから学習した後、SIMA 2は新しいゲームで自己主導のプレイを通じて独占的に学習を進め、人間生成データなしで未知の世界でスキルを開発できます。
実験では、初期のSIMA 2エージェントが失敗したタスクについて、数世代の訓練を経て、人間のフィードバックやゲームプレイデータなしで改善することが確認されました。さらに、Genie 3環境でも自己改善能力を活用でき、多様な生成世界での汎用エージェント訓練に向けた重要なマイルストーンとなっています。
この反復的改善の好循環は、人間の介入を最小限に抑えてエージェントが学習・成長できる未来への道を開くものと考えられます。ただし、この自己改善能力は技術的には魅力的ですが、制御とモニタリングの観点から慎重な扱いが必要な領域でもあります。
ロボティクスへの応用可能性
Google DeepMindは、SIMA 2がロボティクスへの応用に向けた強力な道筋を提供すると説明しています。エージェントが学習したナビゲーション、ツール使用、協調的タスク実行などのスキルは、物理世界での知能の身体化に必要な基本的な構成要素の一部です。
従来、ロボット工学とゲームAIは別個の研究領域として扱われることが多くありました。しかし、SIMA 2のアプローチは、仮想環境での多様なタスク学習が物理ロボットへの転移学習の基盤になり得ることを示唆しています。
特に重要なのは、SIMA 2が画面を「見て」キーボードとマウスで操作するという人間に近いインターフェースで動作する点です。この視覚ベースのアプローチは、カメラ入力を使用する物理ロボットへの転移に適していると考えられます。
ただし、Google DeepMindも認めているように、現在のSIMA 2にはいくつかの限界があります。非常に長期的で複雑なタスクには課題があり、インタラクションの記憶も比較的短く、低遅延の相互作用のために限られたコンテキストウィンドウを使用しています。また、キーボードとマウスインターフェースを介した精密な低レベル動作の実行や、複雑な3Dシーンの堅牢な視覚理解も、分野全体が取り組み続けている課題です。
責任ある開発へのアプローチ
Google DeepMindは、SIMA 2を限定的な研究プレビューとして発表し、少数の学術研究者とゲーム開発者に早期アクセスを提供するアプローチを取っています。これは、特に自己改善能力という技術革新について、責任ある開発を重視する姿勢の表れと言えるでしょう。
発表では、Responsible Development & Innovationチームと協力して開発を進めてきたことが明記されています。このアプローチにより、重要なフィードバックと学際的な視点を収集し、リスクと適切な緩和策についての理解を深めながら、この新しい分野を探索できるとされています。
自己改善能力を持つAIシステムは、予期しない行動パターンを発展させる可能性があるため、段階的な展開と継続的なモニタリングが重要です。Google DeepMindの慎重なアプローチは、技術の進歩と安全性のバランスを取る一つのモデルケースと見ることができるでしょう。
まとめ
SIMA 2は、Geminiの推論能力を統合することで、指示実行型エージェントから対話・推論・自己改善が可能な汎用エージェントへと進化しました。複数のゲーム環境や新規生成環境での高い適応性は、汎用人工知能(AGI)に向けた重要な一歩と言えるでしょう。ゲーム環境で獲得したスキルが物理ロボットへの応用基盤となる可能性も示されており、今後の展開が注目されます。

