[開発者向け]Google DeepMind「SIMA 2」発表:Gemini統合で推論・学習が可能な3D環境AIエージェント

目次

はじめに

 Google DeepMindが2025年11月13日、3D仮想環境で動作するAIエージェント「SIMA 2」を発表しました。昨年発表されたSIMAの後継モデルで、Geminiモデルを統合することで、単なる指示実行から推論・対話・自己改善が可能なインタラクティブなゲームコンパニオンへと進化しています。本稿では、この発表内容をもとに、SIMA 2の技術的特徴と実用上の可能性について解説します。

参考記事

要点

  • SIMA 2はGeminiモデルを統合することで、単なる指示実行から推論・対話・自己改善が可能なAIエージェントへと進化した
  • 複雑で抽象的な指示を理解し、未学習のゲーム環境でも高い成功率を記録する汎化性能を獲得している
  • 自己改善機能により、人間のデモンストレーションなしで試行錯誤とGeminiベースのフィードバックから学習を継続できる
  • Genie 3が生成する新規3D環境でも適応能力を発揮し、ロボティクス分野への応用可能性を示している
  • 研究段階であり、長期的タスク、メモリの制限、精密な操作などの課題が残されている

詳細解説

SIMA 2の概要とGemini統合による進化

 Google DeepMindによれば、SIMA(Scalable Instructable Multiworld Agent)は、昨年発表された多様な仮想環境で基本的な指示に従えるジェネラリストAIでした。初代SIMAは「左を向く」「はしごを登る」「地図を開く」といった600以上の言語指示スキルを学習し、商用ビデオゲーム環境で動作していました。

 SIMA 2では、Geminiモデルをエージェントのコアに組み込むことで、指示実行から一歩進んだ能力を獲得しています。単に指示に応答するだけでなく、指示について思考し、推論できるようになりました。

 この進化により、SIMA 2はユーザーの高レベルな目標を理解し、複雑な推論を実行し、ゲーム内でゴール指向の行動を巧みに実行できます。また、自身が何をしようとしているか、目標達成のためにどのようなステップを踏んでいるかをユーザーに説明することも可能です。

 Geminiの統合は、具現化AIに世界クラスの推論エンジンを提供することを意味します。これにより、複雑でインタラクティブな3D環境を知覚し、理解し、行動できるようになったと考えられます。

推論能力の向上

 Google DeepMindによれば、SIMA 2は人間のデモンストレーション動画と言語ラベル、さらにGeminiが生成したラベルの混合データを使用して訓練されています。この訓練方法により、エージェントとのインタラクションは、コマンドを与えるというより、タスクについて推論できるコンパニオンと協力する感覚に近くなっています。

 具体的には、SIMA 2は抽象的な概念や論理的なコマンドを解釈できます。例えば、単に「木を切る」という直接的な指示だけでなく、環境とユーザーの意図について推論しながら、より複雑な指示を実行できます。

 また、ユーザーの質問に答えることができ、自身の行動や環境について推論することも可能です。これは、従来の指示実行型AIとは大きく異なる特徴と言えます。

 さらに、SIMA 2は多言語や絵文字まで理解できます。これは、Geminiモデルの持つ多言語処理能力が活かされていると考えられます。

汎化性能の飛躍的向上

 Geminiの追加により、汎化性能と信頼性が向上しています。Google DeepMindによれば、SIMA 2は前身よりも複雑で微妙なニュアンスを持つ指示を理解でき、特に訓練されていない状況やゲームでの実行成功率が大幅に向上しています。

 例えば、新しいバイキングサバイバルゲーム「ASKA」や、人気のオープンワールドサンドボックスゲーム「Minecraft」の研究実装版「MineDojo」など、未学習のゲームでも高い性能を発揮しています。

 訓練済みゲーム環境での評価タスクにおいて、SIMA 1、SIMA 2、人間のタスク完了成功率を比較したデータでは、SIMA 2は人間のパフォーマンスとのギャップをかなり縮めています。ただし、この比較は新しい、拡張された、より難易度の高い評価セットに基づいているため、SIMA 1の性能も再評価されています。

 未学習ゲーム(ASKAとMineDojo)でのタスク完了成功率を見ると、SIMA 2はSIMA 1を大きく上回る結果を示しています。

 特に注目すべきは、学習した概念を転用する能力です。例えば、あるゲームでの「採掘」の理解を別のゲームでの「収穫」に適用できます。この能力は、人間の認知で見られる広範な汎化を実現するための基礎となるものと考えられます。

 さらに、Google DeepMindによれば、SIMA 2とGenie 3(単一の画像またはテキストプロンプトから新しいリアルタイム3Dシミュレーション世界を生成できる研究プロジェクト)を組み合わせた実験も行われています。新しく生成された世界でSIMA 2をテストしたところ、これまで見たことのない環境にもかかわらず、適切に方向を定め、ユーザーの指示を理解し、目標に向けて意味のある行動を取ることができました。これは前例のないレベルの適応能力を示していると言えます。

自己改善機能による継続的学習

 SIMA 2の最も興味深い新機能の一つが、自己改善能力です。Google DeepMindによれば、訓練の過程で、SIMA 2エージェントは試行錯誤とGeminiベースのフィードバックによって、ますます複雑で新しいタスクを実行できるようになります。

 具体的には、最初に人間のデモンストレーションから学習した後、SIMA 2は新しいゲームで自己主導型プレイを通じてのみ学習に移行できます。追加の人間生成データなしで、これまで見たことのない世界でスキルを開発します。その後の訓練では、SIMA 2自身の経験データを使用して、次のさらに高性能なバージョンのエージェントを訓練できます。

 この自己改善サイクルは、Geminiが初期タスクとSIMA 2の行動に対する推定報酬を提供することから始まります。この情報は自己生成経験のバンクに追加され、エージェントは次世代の訓練に使用します。このプロセスにより、エージェントは人間のデモンストレーションや介入から完全に独立して、以前失敗したタスクを改善できます。

 Google DeepMindによれば、新しく作成されたGenie環境でもSIMA 2の自己改善能力を活用できたとのことです。これは、多様な生成世界全体で汎用エージェントを訓練する上での重要なマイルストーンと考えられます。

 この反復的改善の好循環は、エージェントが最小限の人間介入で学習し成長できる未来への道を開くものです。具現化AIにおけるオープンエンドな学習者になる可能性があります。

ロボティクスへの応用可能性

 Google DeepMindによれば、SIMA 2が多様なゲーム環境で動作できる能力は、汎用知能の重要な実証の場となっています。エージェントはスキルを習得し、複雑な推論を練習し、自己主導型プレイを通じて継続的に学習できます。

 この研究は、行動指向AIにおける新しい道筋の基本的な検証を提供しています。SIMA 2は、多様なマルチワールドデータとGeminiの強力な推論を活用した広範な能力のための訓練が、多くの特化システムの能力を1つの一貫性のあるジェネラリストエージェントに統合できることを確認しています。

 SIMA 2は、ロボティクスへの応用に向けた強力な道筋も提供しています。学習したスキル(ナビゲーション、ツールの使用、協調的なタスク実行など)は、物理世界における将来のAIアシスタントに必要な知能の物理的具現化のための基本的な構成要素の一部と考えられます。

現在の課題と今後の展開

 Google DeepMindは、SIMA 2が汎用的でインタラクティブな具現化知能に向けた重要なステップである一方、基本的には研究事業であり、現在の制限が将来の作業のための重要な領域を浮き彫りにしていると説明しています。

 具体的な課題として、広範な多段階推論と目標検証を必要とする非常に長期的で複雑なタスクへの対応、インタラクションの記憶が比較的短い点(低レイテンシーのインタラクションを実現するために限られたコンテキストウィンドウを使用する必要がある)、キーボードとマウスインターフェースを介した正確で低レベルのアクション実行、複雑な3Dシーンの堅牢な視覚理解などが挙げられています。

 これらは、分野全体が引き続き取り組んでいるオープンな課題と言えます。

責任ある開発へのコミットメント

 Google DeepMindによれば、SIMA 2はインタラクティブで人間中心のエージェントであり、特に自身の推論を説明する方法が楽しいと評価されています。すべての先進的で基礎的な技術と同様に、特に自己改善能力などの技術革新について、当初から責任を持ってSIMA 2を開発することに深くコミットしています。

 SIMA 2の構築にあたり、責任ある開発とイノベーションチームと協力してきました。潜在的な応用を探求し続ける中で、SIMA 2を限定的な研究プレビューとして発表し、少数の学術研究者やゲーム開発者に早期アクセスを提供しています。

 このアプローチにより、この新しい分野を探求し、リスクとその適切な緩和策についての理解を構築し続ける中で、重要なフィードバックと学際的な視点を収集できます。コミュニティと協力して、この技術を責任ある方法で開発していくことを楽しみにしているとのことです。

まとめ

 SIMA 2は、Geminiモデルの統合により、指示実行型AIから推論・対話・自己改善が可能な汎用エージェントへと進化しました。未学習の環境でも高い適応能力を発揮し、人間のデモンストレーションなしで継続的に学習できる点が特徴です。長期的タスクやメモリの制限などの課題は残るものの、ロボティクス分野への応用を見据えた基礎技術として、今後の発展が注目されます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次