［技術紹介］Google「Gemini 3」発表：最高性能AIモデルの実力と新開発プラットフォーム

2025-11-19

はじめに

　Googleが2025年11月18日、最新のAIモデル「Gemini 3」を発表しました。同社史上最も高性能なモデルと位置づけられ、推論能力の大幅な向上とともに、開発者向けの新しいエージェント開発プラットフォーム「Google Antigravity」も同時公開されています。本稿では、Gemini 3の性能、機能、実用可能性について解説します。

参考記事

タイトル: A new era of intelligence with Gemini 3
著者: Sundar Pichai(CEO, Google and Alphabet)、Demis Hassabis(CEO, Google DeepMind)、Koray Kavukcuoglu(CTO, Google DeepMind)
発行元: Google Blog
発行日: 2025年11月18日
URL: https://blog.google/products/gemini/gemini-3/

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

Gemini 3は、LMArena LeaderboardでEloスコア1501を記録し、主要なAIベンチマークでGemini 2.5 Proを大きく上回る性能を示した
より高度な推論を行う「Gemini 3 Deep Think」モードが提供され、Humanity’s Last Examで41.0%、ARC-AGI-2で45.1%を達成している
学習支援、開発、計画実行の3つの主要ユースケースに対応し、100万トークンのコンテキストウィンドウを備える
新しいエージェント開発プラットフォーム「Google Antigravity」が公開され、エディタ、ターミナル、ブラウザへの直接アクセスが可能になった
GeminiアプリやAI Studio、Vertex AIで即日利用可能となり、第三者プラットフォームでも順次対応が進む

詳細解説

Gemini 3の基本性能とベンチマーク結果

　Googleによれば、Gemini 3 Proは主要なAIベンチマークすべてでGemini 2.5 Proを上回る性能を記録しました。具体的には、LMArena Leaderboardで1501 Eloという画期的なスコアを達成し、Humanity’s Last Examでは37.5%(ツール未使用)、GPQA Diamondでは91.9%を記録しています。

　LMArena Leaderboardは、大規模言語モデルの総合的な性能を評価する業界標準のベンチマークです。Eloスコアはチェスのレーティングシステムと同様の仕組みで、モデル同士の対戦結果から相対的な性能を数値化します。1501という数値は、従来のトップモデルと比較しても顕著に高い水準と言えます。

　また、Googleの発表では、数学分野でもMathArena Apexで23.4%という新記録を樹立したとされています。マルチモーダル推論においても、MMMU-Proで81%、Video-MMMUで87.6%を達成し、事実精度を測るSimpleQA Verifiedでは72.1%を記録しました。

　これらのベンチマークスコアは、従来のモデルと比較して一貫した性能向上を示しています。特に、Humanity’s Last ExamやGPQA Diamondは博士課程レベルの推論能力を評価する指標であり、高度な専門知識を要する問題解決能力が向上していることが示唆されます。

Gemini 3 Deep Thinkモード

　Googleは、Gemini 3の標準モードに加えて、「Gemini 3 Deep Think」という強化推論モードを提供します。このモードでは、Gemini 3 Proのベース性能をさらに上回る結果が得られており、Humanity’s Last Examで41.0%(ツール未使用)、GPQA Diamondで93.8%を達成しています。

　特筆すべきは、ARC-AGI-2ベンチマークでの45.1%(コード実行あり、ARC Prize Verified)というスコアです。ARC-AGI-2は、モデルが未知の課題を解決する能力を評価するベンチマークで、一般知能(AGI)への接近度を測る指標の一つとされています。

　Deep Thinkモードは、より複雑な問題に対して時間をかけて推論を行うアプローチを採用していると考えられます。これは、即座の応答速度よりも推論の質を優先する設計であり、研究開発や高度な分析作業での活用が想定されているでしょう。

　ただし、このモードは現在、安全性テスターへの限定公開段階にあり、Google AI Ultraサブスクライバーへの一般提供は数週間後とされています。

3つの主要ユースケース:学習、構築、計画

　Googleの発表では、Gemini 3が「学習(Learn)」「構築(Build)」「計画(Plan)」という3つの主要領域で活用できることが示されています。

　学習支援では、100万トークンのコンテキストウィンドウを活用し、手書きのレシピを異なる言語から翻訳して家族の料理本を作成したり、学術論文や長時間の動画講義からインタラクティブなフラッシュカードや視覚化を生成したりできます。100万トークンというコンテキストウィンドウは、約75万語に相当する情報を一度に処理できる容量です。これにより、長文の学術論文や複数のドキュメントを横断的に分析することが可能になります。

　開発支援では、WebDev Arena leaderboardで1487 Eloを記録し、「vibe coding」と呼ばれるゼロショット生成に優れた性能を発揮します。Terminal-Bench 2.0では54.2%、SWE-bench Verifiedでは76.2%を記録しており、これらは開発エージェントとしての実用性を評価する指標です。

　vibe codingは、詳細な仕様を記述せずとも、大まかなコンセプトから動作するコードやUIを生成する手法を指します。従来の開発では詳細な要件定義が必要でしたが、このアプローチでは開発者がアイデアの段階から即座にプロトタイプを作成できる可能性があります。

　計画・実行支援では、Vending-Bench 2で最高性能を記録し、長期的なプランニング能力が向上しています。このベンチマークは、自動販売機ビジネスを1年間シミュレートして一貫した意思決定ができるかを評価するもので、複数ステップにわたるタスク管理能力を測定します。

　実用面では、地域サービスの予約やメールボックスの整理といった日常的な複雑なワークフローを自律的に実行できるとされています。ただし、これらの機能は現在Google AI Ultraサブスクライバー向けに限定提供されています。

Google Antigravity:新しいエージェント開発プラットフォーム

　Googleは、Gemini 3の公開と同時に、新しいエージェント開発プラットフォーム「Google Antigravity」を発表しました。

　このプラットフォームは、従来のAI統合開発環境(IDE)の概念を拡張し、エージェントがエディタ、ターミナル、ブラウザに直接アクセスできる設計になっています。開発者は、タスク指向の高レベルな指示を与えることで、エージェントが自律的に計画を立て、コードを記述し、検証まで実行します。

　従来の開発支援ツールは、開発者の要求に応じてコードを生成する「支援ツール」としての位置づけでした。一方、Google Antigravityでは、エージェント自身が開発プロセスの主体となり、複数のタスクを並行して実行しながら自己検証も行うという、より自律的なアプローチを採用しています。

　プラットフォームには、Gemini 3 Proに加えて、ブラウザ制御用の「Gemini 2.5 Computer Use」モデルと、画像編集用の「Nano Banana(Gemini 2.5 Image)」モデルが統合されています。これにより、Webアプリケーション開発からブラウザテスト、画像処理までを一貫した環境で実行できる設計となっています。

　発表資料のデモでは、フライトトラッカーアプリの開発において、エージェントが計画立案からコーディング、ブラウザベースの検証まで一連のワークフローを自律的に実行する様子が示されました。

提供形態と利用可能性

　Gemini 3は、複数のプラットフォームで即日利用可能となっています。一般ユーザー向けにはGeminiアプリで提供され、Google AI ProおよびUltraサブスクライバーはSearch内のAI Modeでも利用できます。

　開発者向けには、Google AI StudioのGemini API、新プラットフォームのGoogle Antigravity、Gemini CLIで利用可能です。企業向けには、Vertex AIとGemini Enterpriseで提供されます。

　また、CursorGitHub、JetBrains、Manus、Replitなどの第三者プラットフォームでも順次対応が進んでいるとされています。これらのプラットフォームは、開発者が日常的に使用するコードエディタや統合開発環境であり、既存の開発ワークフローへの統合が進むことで、Gemini 3の実用性が高まる可能性があります。

　なお、Gemini 3 Deep Thinkモードについては、安全性評価とテスターからのフィードバックを経て、数週間後にGoogle AI Ultraサブスクライバー向けに提供予定とされています。

安全性への取り組み

　Googleによれば、Gemini 3は同社のAIモデルとして最も包括的な安全性評価を経たモデルです。プロンプトインジェクション(prompt injection)への耐性が向上し、サイバー攻撃による悪用への保護も強化されています。

　プロンプトインジェクションは、悪意のある指示を通じてAIモデルの動作を意図しない方向に誘導する攻撃手法です。特にエージェント機能を持つモデルでは、この種の攻撃への対策が重要になります。

　評価プロセスでは、Googleの内部テストに加えて、世界的な専門家との協力、英国AISI(AI Safety Institute)への早期アクセス提供、Apollo、Vaultis、Dreadnodeなどの業界専門家による独立評価が実施されたとされています。

まとめ

　Gemini 3は、推論能力の大幅な向上とエージェント機能の強化により、学習支援から開発、日常タスクの自動化まで幅広い用途での活用が期待されるモデルです。特に、新開発プラットフォームGoogle Antigravityは、開発プロセス自体を変革する可能性を感じさせます。今後、実際の利用シーンでどのような成果が得られるか、注目していく必要があります。