[開発者向け]Gemini Deep Research AgentとInteractions API – Googleが自律研究機能を開発者に提供開始

目次

はじめに

 Google DeepMindが2025年12月11日、強化されたGemini Deep Research AgentとInteractions APIをパブリックベータとして公開しました。これにより、開発者は初めてGoogleの最先端の自律研究機能を自身のアプリケーションに組み込めるようになりました。本稿では、この発表内容をもとに、Deep Research Agentの技術的特徴、新たに公開されたベンチマーク、Interactions APIの設計思想、実装方法、そして実用例について解説します。

参考記事

要点

  • Gemini Deep Research AgentはGemini 3 Proをコアに据え、多段階の強化学習により自律的に調査計画を立案・実行し、包括的なレポートを生成するエージェントである
  • Humanity’s Last Exam (HLE) で46.4%、新たに公開されたDeepSearchQAで66.1%、BrowseCompで59.2%を記録し、複数のベンチマークで最高水準の性能を達成した
  • Interactions APIは、モデルとエージェントの統一インターフェースとして設計され、サーバーサイド状態管理、バックグラウンド実行、Model Context Protocol (MCP) サポートなどの機能を提供する
  • Deep Research Agentは金融サービス、バイオテクノロジー、市場調査などの分野で初期段階の研究タスクに活用されており、調査サイクルを数日から数時間に短縮した事例がある
  • Deep Research AgentとInteractions APIは現在プレビュー版で、今後Vertex AIへの展開や、チャート生成機能の追加などが計画されている

詳細解説

Gemini Deep Research Agentの概要と技術的特徴

 Gemini Deep Research Agentは、長時間にわたる情報収集と統合タスクに最適化されたエージェントです。Googleによれば、このエージェントの推論コアにはGemini 3 Proが使用されており、幻覚を減らしレポート品質を最大化するための特別な訓練が施されています。

 エージェントは反復的に調査を計画し、クエリを作成して結果を読み取り、知識のギャップを特定して再度検索を行います。従来のモデルとの大きな違いは、このプロセスが自律的に行われる点です。標準的なGeminiモデルが秒単位でレスポンスを返すのに対し、Deep Research Agentは数分かけて計画、検索、読解、反復を経て詳細なレポートを生成します。

 技術的には、多段階の強化学習を検索に適用することで、複雑な情報環境を高精度でナビゲートします。今回のリリースでは、ウェブ検索機能が大幅に改善され、サイトの深層部まで探索して特定のデータを取得できるようになったとのことです。

 エージェントはデフォルトでgoogle_searchとurl_contextツールを使用してウェブ情報にアクセスしますが、File Searchツールを追加することで、ユーザー独自のドキュメント(PDF、CSV、Docsなど)とウェブデータを統合した調査が可能です。また、プロンプトで構造、見出し、データテーブルの生成を指定することで、レポートの形式を制御できるステアラビリティ機能も備えています。

ベンチマーク性能とDeepSearchQA

 Googleによれば、新しいGemini Deep Research Agentは、Humanity’s Last Exam (HLE) の完全セットで46.4%、DeepSearchQAで66.1%、BrowseCompで59.2%を記録し、複数のベンチマークで最高水準の結果を達成しました。

 特筆すべきは、今回新たにオープンソースとして公開されたDeepSearchQAベンチマークです。既存のベンチマークは現実世界の多段階ウェブ研究の複雑さを捉えきれないことが多いという課題認識から、DeepSearchQAは17分野にわたる900の手作りされた「因果連鎖」タスクを特徴としています。各ステップが事前の分析に依存する構造となっており、従来の事実ベースのテストとは異なり、網羅的な回答セットの生成を要求することで、研究の精度と検索リコールの両方を評価します。

 DeepSearchQAは「思考時間」の利点を診断するツールとしても機能します。内部評価において、エージェントにより多くの検索と推論ステップを許可することで大幅な性能向上が観察されたと報告されています。pass@8とpass@1の比較結果は、エージェントが複数の並列軌跡を探索することで回答検証の精度が向上することを示しています。

 これらのベンチマークは、単純な精度測定を超えて、実際の調査業務におけるエージェントの包括性と深さを評価するための指標として設計されていると言えます。

Interactions APIの特徴と設計思想

 Interactions APIは、GeminiモデルとGemini Deep Researchのようなエージェントを操作するための統一インターフェースです。Googleによれば、このAPIはエージェントアプリケーションを構築する際の複雑なコンテキスト管理を処理するために特別に設計されており、メッセージ、思考、ツール呼び出し、その状態がインターリーブされた構造に対応します。

 Interactions APIの設計の中核にあるのは「Interaction」リソースです。Interactionは会話またはタスクの完全なターンを表し、すべてのユーザー入力、モデルの思考、ツール呼び出し、ツール結果、最終的なモデル出力を含むセッション記録として機能します。

 従来のgenerateContent APIは、ステートレスなリクエスト・レスポンス型のテキスト生成を主な用途として設計されました。これはチャットボットや補完タスクには完璧に機能します。しかし、「思考」機能や高度なツール使用などの新しいモデル機能の登場により、これらの複雑なインタラクションパターンをサポートするネイティブインターフェースへの要望が高まったとのことです。

 Interactions APIの主要な機能として、以下が挙げられます:

 サーバーサイド状態管理: 履歴管理をサーバーにオフロードできます。これによりクライアントコードが簡素化され、コンテキスト管理エラーが最小化されます。また、キャッシュヒット率の向上によりコストが削減される可能性があります。previous_interaction_idパラメータを使用することで、会話全体の履歴を再送信する必要がなくなります。

 バックグラウンド実行: 長時間実行される推論ループをサーバーにオフロードし、クライアント側の接続を維持する必要がありません。これはDeep Research Agentのような、完了まで数分を要するタスクに不可欠です。

 リモートMCPサポート: Model Context Protocol (MCP) サーバーをツールとして直接呼び出せます。これにより、エージェント開発が簡素化され、リモートサーバーでホストされている外部ツールへのアクセスが容易になります。

 解釈可能で構成可能なデータモデル: 複雑なエージェント履歴のために設計されたクリーンなスキーマを提供し、インターリーブされたメッセージ、思考、ツール、その結果をデバッグ、操作、ストリーミング、推論することができます。

 データストレージと保持に関しては、デフォルトですべてのInteractionオブジェクトが保存されます(store=true)。有料ティアでは55日間、無料ティアでは1日間保持されます。ただし、store=falseを設定することでオプトアウトも可能です。

実装方法とコード例

 Deep Research AgentとInteractions APIの実装は、既存のGoogle GenAI SDKを通じて行います。Pythonではgoogle-genaiパッケージ(バージョン1.55.0以降)、JavaScriptでは@google/genaiパッケージ(バージョン1.33.0以降)を使用します。

 基本的な実装パターンは、バックグラウンド実行とポーリングによる結果取得です。Deep Research Agentは数分を要する長時間実行タスクのため、background=Trueパラメータを使用した非同期実行が必須です。

 例えば、Pythonでの実装は以下のようになります:

import time

from google import genai

client = genai.Client()

# リサーチタスクを開始

interaction = client.interactions.create(

    input=”Research the history of Google TPUs.”,

    agent=’deep-research-pro-preview-12-2025′,

    background=True

)

# 結果をポーリング

while True:

    interaction = client.interactions.get(interaction.id)

    if interaction.status == “completed”:

        print(interaction.outputs[-1].text)

        break

    elif interaction.status == “failed”:

        print(f”Research failed: {interaction.error}”)

        break

    time.sleep(10)

 ストリーミングを使用することで、研究の進捗状況をリアルタイムで受信することもできます。この場合、stream=TrueとbackgroundTrueの両方を設定し、agent_configでthinking_summariesを”auto”に設定することで、中間的な推論ステップ(思考)と進捗更新を受け取れます。

 ネットワーク中断への対応として、interaction_idとlast_event_idを保存しておくことで、接続が切れた場合でも特定のポイントから再開できる仕組みが提供されています。

 また、research完了後にprevious_interaction_idを使用することで、フォローアップの質問や詳細化、特定セクションの説明依頼など、生成されたレポートに基づいた追加のやり取りが可能です。

 Interactions APIは、標準的なGeminiモデルとエージェントを柔軟に組み合わせることもできます。例えば、Deep Research Agentで初期データ収集を行い、その後標準のGeminiモデルで要約や再フォーマットを行うといった使い方が可能です。

実用例と活用事例

 Gemini Deep Research Agentは、既に複雑な分野で具体的な成果を上げているとの報告があります。特に金融サービス、バイオテクノロジー、市場調査などの分野で、初期段階の研究タスクに活用されています。

 金融機関では、デューデリジェンスの初期段階を自動化するために使用されています。ウェブや独自ソースから市場シグナル、競合分析、コンプライアンスリスクを集約することで、投資チームの初期調査フェーズにおける大きな力の増幅器となっています。ベンチャーキャピタルGVのパートナーKJ Sidberryは、Deep Research Agentが「調査サイクルを数日から数時間に短縮し、忠実度や品質を損なうことなく、デューデリジェンスプロセスを大幅に加速した」とコメントしています。

 科学コミュニティでは、複雑な安全性の課題を解決する手助けをしています。薬物毒性を予測するAIシステムを構築するAxiom Bioは、Gemini Deep Researchが生物医学文献全体にわたって、従来は人間の研究者のみが可能だったレベルの初期研究の深さと粒度を実現したと報告しています。共同創設者のAlex Beatsonは、「分子メカニズムから実験データや臨床結果まで推論するエージェントシステムの基盤として構築し、科学者がより安全な医薬品を開発できるよう支援することに期待している」と述べています。

 これらの事例から、Deep Research Agentは単なる情報検索ツールではなく、専門的な調査プロセスそのものを支援・加速する役割を果たしていると考えられます。特に、大量の情報源を横断的に調査し、それらを統合して包括的な知見を導き出す必要がある業務において、有用性が高いと言えます。

制限事項と今後の展開

 現在、Deep Research AgentとInteractions APIにはいくつかの制限事項があります。

 Interactions APIはパブリックベータ段階にあり、機能とスキーマは変更される可能性があります。本番環境のワークロードには、安定した展開が保証されている標準のgenerateContent APIの使用が引き続き推奨されています。

 Deep Research Agentの具体的な制限として、カスタムFunction Callingツールやリモート MCPサーバーの提供が現在サポートされていません。また、人間による計画承認や構造化出力もサポートされていません。最大研究時間は60分に設定されていますが、ほとんどのタスクは20分以内に完了するとのことです。

 バックグラウンド実行(background=True)を使用する場合、store=Trueが必須となります。また、Google Searchはデフォルトで有効化されており、グラウンディングされた結果には特定の制限が適用されます。オーディオ入力は現在サポートされていません。

 今後の展開として、Googleは以下を計画しています:

 ネイティブなチャート生成機能を追加し、視覚的な分析レポートを充実させる予定です。また、Model Context Protocol (MCP) サポートを拡張し、カスタムデータソースへのアクセスをより容易にします。さらに、Gemini Deep ResearchをVertex AIに提供し、エンタープライズ向けの展開を可能にする計画も進んでいます。

 Interactions APIについても、今後組み込みエージェントの拡張と、ユーザー独自のエージェントを構築・接続する機能の導入が予定されています。これにより、Geminiモデル、Googleの組み込みエージェント、カスタムエージェントを1つのAPIで接続できるようになるとのことです。

 また、オープンソースエコシステムへの統合も進められており、Agent Development Kit (ADK) とAgent2Agent (A2A) プロトコルがInteractions APIをサポートし始めています。今後数ヶ月で他のツールへの広範なサポートが期待されます。

まとめ

 Googleが公開したGemini Deep Research AgentとInteractions APIは、開発者が高度な自律研究機能をアプリケーションに統合できるようにする重要な一歩です。Gemini 3 Proをコアとした反復的な調査プロセス、複数のベンチマークでの最高水準の性能、そして金融やバイオテクノロジーでの実用実績は、このエージェントの実践的な価値を示しています。Interactions APIの統一インターフェースとサーバーサイド状態管理により、複雑なエージェントアプリケーションの開発がより容易になりました。現在はプレビュー版ですが、今後のVertex AI対応やMCP機能拡張により、エンタープライズ環境での活用がさらに広がると考えられます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次