はじめに
2025年6月17日、Googleは同社の最新かつ最も高性能なAIモデルファミリー「Gemini 2.5」シリーズの正式版リリースを発表しました。この発表は、AI業界において画期的な意味を持つものです。単なる性能向上にとどまらず、AI応答前の「思考」という革新的なアプローチ、開発者の利便性を大幅に向上させる料金体系の見直し、そして実用性を重視した3つのモデル展開など、AIの実用化に向けた重要な進歩が数多く含まれています。
本稿では、Google公式技術レポートおよび開発者向けブログ記事をもとに、Gemini 2.5の技術的革新から実用的な活用方法まで、開発者や企業が知っておくべき情報を網羅的に解説します。
引用元
- Gemini 2.5技術レポート
- “Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities”
- 発行元:Google DeepMind
- 発行日:2025年6月17日
- URL:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
- 開発者向けブログ
- “Gemini 2.5: Updates to our family of thinking models”
- 発行元:Google Developers Blog
- 発行日:2025年6月17日
- URL:https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/
- 製品発表ブログ
- “We’re expanding our Gemini 2.5 family of models”
- 発行元:The Keyword (Google公式ブログ)
- 発行日:2025年6月17日
- URL:https://blog.google/products/gemini/gemini-2-5-model-family-expands/
要約
- Gemini 2.5 ProとGemini 2.5 Flashが正式版(Stable/GA)としてリリースされた。
- 新たに、最も高速・低コストな「Gemini 2.5 Flash-Lite」がプレビュー版として登場した。
- Gemini 2.5ファミリーは、応答前に推論を行う「思考モデル」であり、開発者はその「思考バジェット」を制御できる。
- Gemini 2.5 Flashの料金体系が更新され、思考の有無による価格差が撤廃された。
詳細解説
Gemini 2.5ファミリーの全体構成
3つのモデルの戦略的位置づけ
Gemini 2.5ファミリーは、パレート効率性(Pareto Frontier)の概念に基づいて設計されており、性能とコストの最適なバランスを提供する3つのモデルで構成されています。
モデル名 | 主な特徴 | 最適な用途 | 利用状況 |
Gemini 2.5 Pro | 最高性能、最多機能 | 複雑なコーディング、高度な推論、自律エージェントタスク | 正式版 |
Gemini 2.5 Flash | 性能と速度・コストのバランス | 日常業務、高速レスポンスが必要なアプリケーション | 正式版 |
Gemini 2.5 Flash-Lite | 最高速・最低コスト | 大量データ処理、分類、要約、翻訳等の高スループットタスク | プレビュー版 |
モデル別詳細仕様
Gemini 2.5 Pro
- コンテキスト長:100万トークン
- 出力長:64,000トークン
- 思考機能:デフォルトでオン(制御可能)
- 特徴:業界最高水準のコーディング性能、WebDev Arena #1獲得
Gemini 2.5 Flash
- コンテキスト長:100万トークン
- 出力長:64,000トークン
- 思考機能:制御可能な思考バジェット
- 特徴:バランス重視、企業での実用性が高い
Gemini 2.5 Flash-Lite
- コンテキスト長:100万トークン
- 出力長:8,000トークン
- 思考機能:デフォルトでオフ(必要に応じて有効化可能)
- 特徴:2.0 Flashよりも高品質で高速
革新的な「思考モデル」とは
思考メカニズムの詳細
Gemini 2.5シリーズの最大の特徴は、「思考モデル(Thinking Models)」であることです。従来のAIモデルが質問を受けて即座に回答を生成するのに対し、Gemini 2.5は応答前に内部で推論プロセスを実行します。
技術的実装:
- 強化学習により数万回の推論ステップを実行
- 複数の仮説を生成し、批判的に評価
- 最終回答前に自己評価と改善を実施
思考バジェット制御
開発者は「思考バジェット(Thinking Budget)」パラメータにより、モデルの思考時間を制御できます:
- 範囲:0〜24,576トークン
- 動作:最大制限として機能(固定割り当てではない)
- 自動調整:タスクの複雑さに応じてモデルが判断
- 効果:最大600%のコスト削減が可能(思考を最小限にした場合)
思考による性能向上の実証
技術レポートによると、思考機能により以下の性能向上が確認されています:
ベンチマーク | 思考なし | 思考あり | 改善率 |
AIME(数学) | 29.7% | 72.0% | +143% |
GPQA(科学) | 65.2% | 82.8% | +27% |
LiveCodeBench(コーディング) | 29.1% | 55.4% | +90% |
最新価格体系と開発者への影響
Gemini 2.5 Flashの価格改定
2025年6月17日より、Gemini 2.5 Flashの料金体系が以下のように変更されました:
改定内容:
- 入力価格:$0.15 → $0.30/100万トークン(+100%)
- 出力価格:$3.50 → $2.50/100万トークン(-29%)
- 思考の有無による価格差を撤廃
開発者へのメリット:
- 予測可能性の向上:思考機能の利用をためらう必要がなくなった
- コスト最適化:出力中心のアプリケーションでは実質的にコスト削減
- 柔軟な活用:思考バジェットを性能要件に応じて自由に調整可能
モデル別価格比較
モデル | 入力価格($/100万トークン) | 出力価格($/100万トークン) |
Gemini 2.5 Pro | $1.25(~200K)/ $2.50(200K+) | $10(~200K)/ $15(200K+) |
Gemini 2.5 Flash | $0.30 | $2.50 |
Gemini 2.5 Flash-Lite | プレビュー版のため価格未発表 | プレビュー版のため価格未発表 |
注:Pro は長いコンテキスト(200,000トークン超)に対して高い料金が適用されます
技術的進歩とベンチマーク結果
コーディング性能の飛躍的向上
Gemini 2.5 Proは複数のコーディングベンチマークで業界最高水準を達成しています:
ベンチマーク | Gemini 1.5 Pro | Gemini 2.5 Pro | 改善率 |
LiveCodeBench | 30.5% | 69.0% | +126% |
Aider Polyglot | 16.9% | 82.2% | +386% |
SWE-Bench Verified | 34.2% | 67.2% | +96% |
科学・数学分野での突破
数学および科学分野でも顕著な性能向上を実現しています:
- AIME 2025:17.5% → 88.0%(+403%)
- GPQA (Diamond):58.1% → 86.4%(+49%)
- Humanity’s Last Exam:4.6% → 21.6%(+370%)
長文コンテキスト処理能力
100万トークンのコンテキスト処理において:
- LOFT(検索タスク):75.9% → 87.0%
- MRCR-V2(推論タスク):26.2% → 58.0%
新機能とモダリティ拡張
ネイティブオーディオ機能
Gemini 2.5では、テキスト入力からの自然な音声生成が可能になりました:
主要機能:
- 多言語対応:80以上の言語をサポート
- スタイル制御:感情、ペース、アクセント等を自然言語で指定
- マルチスピーカー:複数話者による対話形式の音声生成(ポッドキャスト形式)
- リアルタイム対話:native audio dialogによる双方向音声コミュニケーション
Deep Think:次世代推論モード
Google I/O 2025で発表された実験的な機能:
特徴:
- 複数の仮説を並行して検討
- 最終回答前の徹底的な自己批判
- USAMO 2025(米国数学オリンピック)で優秀なスコアを記録
ビデオ理解の革新
処理能力:
- 最大3時間の動画を一度に処理可能
- 66トークン/フレームの効率的な処理(従来の258から大幅削減)
- デモンストレーション動画からインタラクティブアプリ生成
実用例と企業での活用
Gemini Plays Pokémon:自律エージェントの実証
独立開発者のJoel Zhangによる実験プロジェクトでは、Gemini 2.5 Proがポケモンブルーをライブプレイし、813時間で殿堂入りを達成しました。
技術的ハイライト:
- 長期計画能力:100,000トークン超のコンテキストでパス検索
- 複雑なパズル解決:ロケット団アジトのスピナーパズルを一発解決
- 創造的問題解決:ゲームのソフトロック状況からのFLY技による脱出
Google製品での実装
Gemini 2.5は既に多くのGoogle製品で活用されています:
- AI Overviews:検索結果の要約(15億月間アクティブユーザー)
- Geminiアプリ:一般ユーザー向けチャット(4億ユーザー)
- NotebookLM:ポッドキャスト自動生成
- Project Mariner:Webブラウジングエージェント
- Jules:コーディングエージェント
教育分野での優位性
LearnLMの統合により、教育専門家との比較評価で他モデルを上回る性能を実現:
- 学習科学の5原則すべてで最高スコア
- 教育者による実用性評価で最高評価
- 多様な教育シナリオでの有効性を実証
開発者向け実用情報
API アクセス方法
モデル指定:
gemini-2.5-pro # Pro版
gemini-2.5-flash # Flash版
gemini-2.5-flash-lite # Flash-Lite版(プレビュー)
利用可能プラットフォーム:
- Google AI Studio(無料利用枠あり)
- Vertex AI(企業向け)
- Geminiアプリ(一般ユーザー向け)
思考バジェット制御例
{
"model": "gemini-2.5-flash",
"prompt": "複雑な数学問題を解いてください",
"thinking_budget": 8192 // 高精度が必要な場合
}
{
"model": "gemini-2.5-flash",
"prompt": "この文章を要約してください",
"thinking_budget": 0 // 高速処理が必要な場合
}
マイグレーション情報
移行スケジュール:
- Gemini 2.5 Flash Preview 04-17:2025年7月15日にサービス終了
- Gemini 2.5 Pro Preview 05-06:2025年6月19日にサービス終了
推奨アクション:
- 正式版APIへの移行(gemini-2.5-flash, gemini-2.5-pro)
- コスト重視の場合はFlash-Liteの検討
- 思考バジェット機能の活用によるコスト最適化
安全性とガバナンス
Frontier Safety Framework評価
Google DeepMindの安全性評価フレームワークにより、以下4分野で評価を実施:
評価分野:
- CBRN:化学・生物・放射線・核関連リスク
- サイバーセキュリティ:攻撃能力の評価
- 機械学習R&D:AI開発加速のリスク
- 欺瞞的アライメント:人間の制御を損なうリスク
結果:いずれの重要能力レベル(CCL)にも達しておらず、現時点で深刻な危害のリスクは低いと評価されています。
責任あるAI開発
主要な取り組み:
- 自動化されたレッドチーミング
- 外部安全性テスト
- 多言語でのバイアス評価
- プライバシー保護の強化
今後の展望と課題
AI開発の新たな課題
技術レポートでは、モデル性能の急速な向上に伴う新たな課題も指摘されています:
ベンチマーク飽和問題:
- Aider Polyglotで5倍の性能向上
- SWE-bench Verifiedで2倍の性能向上
- 既存ベンチマークの急速な飽和
評価の複雑化:
- エージェントシステムの評価困難性
- 経済的価値を持つタスクの評価必要性
- より高度なベンチマーク開発の必要性
次世代AI開発の方向性
重要なトレンド:
- マルチモーダル統合の深化
- エージェント能力の向上
- 実世界タスクへの対応強化
- コスト効率性の継続的改善
まとめ
Gemini 2.5ファミリーの登場は、AI技術の実用化において重要な転換点を示しています。主要なポイントを以下にまとめます。
技術革新の意義
- 思考モデルの実用化:応答前推論による品質向上とその制御可能性
- コスト効率性の向上:開発者が用途に応じて最適なモデルを選択可能
- マルチモーダル機能の統合:テキスト、音声、画像、動画の統合処理
開発者・企業へのインパクト
- 開発効率の向上:高性能なコーディング支援とエージェント機能
- コスト予測性の改善:思考機能の料金統合による運用計画の立てやすさ
- スケーラビリティ:Flash-Liteによる大規模展開の実現
今後への期待
Google DeepMindは、これらの技術進歩を基盤として、より高度な自律エージェント、長期間のタスク実行、そして真の汎用AI助手の実現を目指すとしています。企業や開発者にとって、Gemini 2.5は単なるツールの進歩ではなく、AI活用戦略を根本的に見直す機会を提供しているといえるでしょう。