[Google I/O 2025]Google Gemini 2.5 最新情報解説:AIはさらに賢く、使いやすくなる

目次

はじめに

 本稿では、Googleが発表した最新のAIモデル「Gemini 2.5」シリーズに関する注目すべきアップデートについて、Google AI Blogの記事「Gemini 2.5: Our most intelligent models are getting even better」を基に、解説します。

引用元記事

要点

  • Gemini 2.5 Proの性能向上: 開発者向けコーディング支援で最高のモデルとして評価され、学術ベンチマークだけでなく、WebDev ArenaやLMArenaといった実践的なリーダーボードでもトップクラスの性能を達成している。特に100万トークンのコンテキストウィンドウによる長文理解と動画理解能力は最先端である。教育分野においても、LearnLMの統合により優れた学習支援能力を発揮する。
  • Gemini 2.5 Flashの進化: 速度と低コストを重視した効率的なモデルでありながら、推論、マルチモーダル、コーディング、長文コンテキスト処理の各性能が向上し、トークン効率も20-30%改善された。
  • 新機能の導入:
    • Deep Think (2.5 Pro向け実験的機能): 非常に複雑な数学やコーディングの問題に対し、複数の仮説を考慮して応答する高度な推論モード。
    • ネイティブ音声出力: より自然で表現力豊かな会話体験を実現する音声出力機能。感情を検知し、声のトーンやアクセント、スタイルを調整可能。複数話者によるテキスト読み上げにも対応。
    • セキュリティ強化: 間接的なプロンプトインジェクションなどのセキュリティ脅威に対する保護を大幅に強化。
    • Project Marinerのコンピュータ操作能力: Gemini APIとVertex AIにコンピュータ操作機能が統合され、自動化の可能性を拡大。
  • 開発者体験の向上:
    • 思考サマリー: モデルの思考プロセスを構造化して表示し、透明性とデバッグの容易性を向上。
    • 思考バジェット (2.5 Proにも拡張): 応答生成前の思考に使用するトークン数を制御し、遅延と品質のバランスを調整可能に。
    • MCPサポート: Model Context Protocol (MCP) のネイティブSDKサポートにより、オープンソースツールとの連携を容易化。

詳細解説

Gemini 2.5 Pro:多方面でトップクラスの性能を発揮

 Gemini 2.5 Proは、Googleが提供するAIモデルの中でも特に知的なモデルと位置付けられています。今回のアップデートでは、その能力がさらに強化されました。

  • コーディング能力: 開発者の間でコーディング支援に最適なモデルとして高い評価を得ています。これは、複雑なプログラミングの課題に対して、的確なコード提案やデバッグ支援を行える能力を意味します。
  • 各種ベンチマークでの実績:
    • 学術ベンチマーク: 従来のAI性能評価指標でも高いスコアを維持しています。
    • WebDev Arena: ウェブ開発に特化した実践的なスキルを評価するリーダーボードで、ELOスコア1415を達成し、トップに立っています。これは、実際のウェブ開発タスクにおけるGemini 2.5 Proの優位性を示しています。
    • LMArena: 人間の評価者が様々な側面からAIモデルの応答品質を評価するリーダーボード群でも、軒並みトップの評価を得ています。これは、より自然で人間にとって有用な応答を生成できることを意味します。
  • 長文・動画理解能力: 100万トークンという広大なコンテキストウィンドウを持つことが大きな特徴です。コンテキストウィンドウとは、AIが一度に処理できる情報量(テキストの場合は単語や文字の数)の上限を指します。100万トークンという大きさは、非常に長い文書やレポート、あるいは書籍のような大量のテキスト情報を一度に理解し、それに基づいた応答や分析を行うことを可能にします。また、動画の内容理解においても最先端の性能を発揮します。
  • 教育分野での活用 (LearnLM): Googleが教育専門家と共に構築したモデルファミリー「LearnLM」の知見がGemini 2.5 Proに統合されました。これにより、教育シナリオにおける指導方法や効果の面で、他のモデルを凌駕する評価を得ています。AIが学習をサポートする上で重要な5つの学習科学の原則すべてにおいて、トップモデルを上回る性能を示したことは特筆すべき点です。

 これらの進化により、Gemini 2.5 Proは、専門的な開発作業から、大量情報の分析、さらには個別最適化された学習支援まで、幅広い分野での活用が期待されます。

Deep Think:AIの「思考」を深める実験的機能

 Deep Thinkは、Gemini 2.5 Proに搭載される予定の実験的な高度推論モードです。これは、AIが応答を生成する前に、複数の仮説を検討するという、より人間に近い思考プロセスを導入しようとする試みです。

  • 複雑な問題への対応: 特に、数学オリンピックレベルの難問(2025 USAMOベンチマークで高スコア)や、競技プログラミングレベルのコーディング問題(LiveCodeBenchでトップ)といった、高度な論理的思考や多角的な視点が必要とされるタスクでその効果が期待されています。
  • マルチモーダル推論: テキストだけでなく、画像や音声など複数の種類の情報を統合して推論する能力(MMMUベンチマークで84.0%のスコア)も向上します。
  • 慎重な展開: Deep Thinkは最先端の技術であるため、Googleは安全性評価や専門家からのフィードバックを重視し、まずは信頼できるテスターにGemini API経由で提供し、その後一般公開を目指すとしています。これは、高度なAI技術を責任ある形で社会に導入しようとするGoogleの姿勢を示しています。

 Deep Thinkが実用化されれば、AIがより複雑で解決困難な問題に対して、より深い洞察に基づいた解決策を提示できるようになる可能性があります。

Gemini 2.5 Flash:効率性と性能を両立した進化

 Gemini 2.5 Flashは、応答速度と低コストを重視して設計された、いわば「主力モデル」です。今回のアップデートで、その効率性を維持しつつ、様々な側面で性能が向上しました。

  • 性能向上: 推論能力、マルチモーダル(テキスト、画像、音声などを組み合わせた処理)能力、コーディング能力、そして長文コンテキストの処理能力が向上しています。
  • 効率性のさらなる改善: Googleの評価では、トークン効率が20~30%向上したと報告されています。トークン効率の向上は、同じタスクをより少ない計算資源(=低コスト・高速)で実行できることを意味し、実用面で非常に重要です。
  • 提供状況: Google AI Studio(開発者向け)、Vertex AI(企業向け)、そしてGeminiアプリ(一般ユーザー向け)でプレビュー版が利用可能となっており、6月上旬には正式版が提供される予定です。

 Gemini 2.5 Flashの進化は、より多くのアプリケーションで、高速かつ低コストに高度なAI機能を利用できるようになることを意味し、AI技術の普及をさらに加速させるでしょう。

Gemini 2.5 シリーズの新機能

 今回のアップデートでは、モデル自体の性能向上に加え、ユーザー体験や開発の幅を広げる新機能が多数導入されています。

  • ネイティブ音声出力とLive APIの強化:
    • より自然な会話体験: Live API(リアルタイム対話型API)に、音声と映像を入力とし、ネイティブな音声で応答する機能のプレビュー版が導入されました。これにより、AIとの会話がより自然で表現力豊かになります。
    • 声のカスタマイズ: AIの話し声のトーン、アクセント、スタイルをユーザーが指示できるようになります。例えば、物語を語る際にドラマチックな声色を要求したりすることが可能です。
    • 高度な音声対話機能:
      • 感情認識対話 (Affective Dialogue): ユーザーの声の感情を検知し、適切に応答します。
      • プロアクティブオーディオ (Proactive Audio): 周囲の雑音や無関係な会話を無視し、応答すべきタイミングをAIが判断します。
      • Live APIにおける思考 (Thinking in the Live API): より複雑なタスクをサポートするために、Geminiの思考能力を活用します。
    • 複数話者対応テキスト読み上げ: Gemini 2.5 ProおよびFlashのテキスト読み上げ機能が強化され、2つの異なる声でテキストを読み上げることが可能になりました。これは業界初の試みであり、対話形式のコンテンツ生成などに役立ちます。ささやき声のような微妙なニュアンスも表現でき、24以上の言語に対応し、言語間の切り替えもシームレスです。この機能はGemini APIで利用可能になります。
  • コンピュータ操作能力 (Project Mariner):
    • Project Marinerは、AIがコンピュータ上のアプリケーションを操作する能力を開発するプロジェクトです。この機能がGemini APIおよびVertex AIに統合されることで、AIによるタスク自動化の範囲が大幅に広がります。例えば、特定の情報をウェブサイトから収集したり、ソフトウェアを操作したりといった作業をAIに指示できるようになる可能性があります。Automation Anywhere、UiPathといったRPA(ロボティック・プロセス・オートメーション)企業などが既にその可能性を模索しており、今夏には開発者向けに広く展開される予定です。
  • セキュリティの向上:
    • AIモデルに対するセキュリティ脅威の一つに「間接的プロンプトインジェクション」があります。これは、AIが外部データ(例えばウェブサイトの情報など)を取得する際に、そのデータ内に悪意のある指示が埋め込まれており、AIが意図しない動作をしてしまうという攻撃です。今回のアップデートでは、このような脅威に対する保護が大幅に強化され、Gemini 2.5はこれまでで最も安全なモデルファミリーになったとされています。

開発者体験の強化

 Googleは、開発者がGeminiモデルをより効果的かつ容易に利用できるよう、開発者体験の向上にも注力しています。

  • 思考サマリー (Thought Summaries):
    • Gemini 2.5 ProおよびFlashにおいて、モデルが応答を生成するまでの「思考プロセス」を、ヘッダー、主要な詳細、ツール使用(例:ウェブ検索を行ったなど)といった情報と共に、構造化された明確な形式で表示する機能が導入されます。
    • これにより、開発者はモデルがどのように結論に至ったのかを理解しやすくなり、デバッグ作業の効率化や、ユーザーへの透明性向上に繋がります。
  • 思考バジェット (Thinking Budgets):
    • Gemini 2.5 Flashで先行導入されていた「思考バジェット」機能が、Gemini 2.5 Proにも拡張されます。
    • これは、モデルが応答を生成する前に「考える」ために使用するトークン数(計算量)の上限を開発者が設定できる機能です。これにより、応答の品質と遅延(レスポンス速度)のバランスを、アプリケーションの要件に応じて細かく制御できます。場合によっては、思考機能をオフにすることも可能です。
  • MCP (Model Context Protocol) サポート:
    • Gemini APIにおいて、Model Context Protocol (MCP) の定義に対するネイティブSDKサポートが追加されました。MCPは、AIモデルが外部ツールやサービスと連携する際の標準的な方法を定義するもので、このサポート強化により、オープンソースツールとの統合がより容易になります。
    • Googleは、MCPサーバーやその他のホスト型ツールの展開方法も模索しており、開発者がエージェント型アプリケーション(自律的にタスクを実行するAIアプリケーション)を構築しやすくなることを目指しています。

まとめ

 今回のGoogle Gemini 2.5シリーズのアップデートは、AI技術が新たな段階に入ったことを示すものです。単なる性能向上だけでなく、より人間らしい自然な対話能力、複雑な問題解決能力、そして開発者やユーザーにとっての使いやすさが大幅に向上しています。

 特に、Deep Thinkのような高度な推論機能の探求は、AIが人間の知性を補完し、これまで解決が難しかった課題に取り組む未来を予感させます。また、ネイティブ音声出力やコンピュータ操作能力の向上は、AIが私たちの日常生活やビジネスプロセスにより深く、シームレスに統合されていくことを示唆しています。

 開発者にとっては、思考サマリーや思考バジェットといった新機能により、AIモデルの挙動をより細かく制御し、透明性を高めながらアプリケーションを構築できるようになります。これは、より信頼性が高く、ユーザーフレンドリーなAIサービスの開発に繋がるでしょう。

  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次