[開発者向け] Google「Gemini 2.5 Computer Use」:ブラウザを自律操作するAIモデルの実力と実装方法

目次

はじめに

 Google DeepMindが2025年10月7日、ウェブブラウザやモバイルアプリのUIを直接操作できるAIモデル「Gemini 2.5 Computer Use」をAPI経由で公開しました。本稿では、このComputer Useモデルの仕組み、性能、実用上の可能性について解説します。

参考記事

メイン記事(公式ブログ):

関連情報:

公式評価資料: 

第三者評価(Browserbase): 

実装ガイド(GitHub): 

公式APIドキュメント: 

デモサイト:

※手軽に挙動を確認できます。

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

  • Gemini 2.5 Computer Useは、スクリーンショットを分析してクリックやタイピングなどのUI操作を自律的に実行できる専用モデルである
  • Online-Mind2Web、WebVoyager、AndroidWorldなど複数のベンチマークで競合モデルを上回る性能を記録し、最も低いレイテンシを実現した
  • モデル内に安全性チェック機能が組み込まれており、リスクの高い操作では人間の確認を求める仕組みがある
  • Google AI StudioとVertex AI経由で開発者が利用可能で、Playwrightなどと組み合わせてエージェントループを構築できる
  • ブラウザ環境に最適化されているが、モバイルUI制御でも有望な結果を示している

詳細解説

Gemini 2.5 Computer Useの概要と仕組み

 Gemini 2.5 Computer Useは、Gemini 2.5 Proの視覚理解と推論能力をベースに構築された特化型モデルです。多くのデジタルタスクは、構造化されたAPIではなく、グラフィカルユーザーインターフェース(GUI)を通じた直接的な操作を必要とします。たとえば、フォームへの入力や送信、ドロップダウンメニューの操作、ログイン後の画面操作などがその例です。

 さらに公式APIドキュメントでは、モデルの動作フローが詳しく説明されています。Computer Useツールを使用する際、入力としてユーザーリクエスト、環境のスクリーンショット、最近のアクション履歴が提供されます。モデルはこれらの入力を分析し、クリックやタイピングといったUIアクションを表す関数呼び出しを生成します。座標は0-999の正規化された値で出力され、実際の画面サイズに応じてクライアント側で実ピクセル座標に変換されます。推奨される画面サイズは1440×900ピクセルとされていますが、他の解像度でも動作可能です。

(引用: https://blog.google/technology/google-deepmind/gemini-computer-use-model/

ベンチマーク性能と第三者評価

 公式評価資料によれば、Gemini 2.5 Computer UseはOnline-Mind2Webで69.0%の成功率を記録しました。評価は環境とシステム指示に敏感であるため、評価方法の詳細が公開されています。

 Online-Mind2Webにおいて、指定された開始ウェブサイトを使用し、検索エンジンやナビゲートツールを除外した条件で評価が実施されました。タスクごとに3つの独立した人間の判断を収集し、多数決で成功を計算する方法が採用されています。WebVoyagerベンチマークについても詳細が記載されています。元のデータセットは643のタスクで構成されていましたが、時間的に古くなったタスクを除外し、559の日付編集済みタスクで評価が実施されました。また、AndroidWorldベンチマークでは、モバイル環境に合わせてアクション空間とシステム指示が調整されています。

 Browserbaseによる第三者評価では、Google、Anthropic、OpenAIの各Computer Use APIを同じ条件下で比較しました。同じプラットフォーム、プロンプトセット、アクセス日を使用することで、潜在的な変動要因を正規化しています。結果として、Gemini 2.5 Computer Useは精度、速度、コストのすべての面で他の主要プロバイダーを上回る性能を示しました。特筆すべきは、約18時間分のブラウザ実行を20分の実行時間に圧縮できたという点です。並列ブラウザインフラストラクチャにより、複数のタスクを同時に評価することが可能になり、トレーニングと評価の時間が大幅に短縮されました。

(引用:https://blog.google/technology/google-deepmind/gemini-computer-use-model/

(引用:https://blog.google/technology/google-deepmind/gemini-computer-use-model/

OnlineMind2Web @ 50 steps(引用:https://www.browserbase.com/blog/evaluating-browser-agents

Webvoyager @ 75 steps(引用:https://www.browserbase.com/blog/evaluating-browser-agents

実装方法とAPIの使い方

 公式APIドキュメントによれば、Computer Useモデルを使用するには、エージェントループを構築する必要があります。基本的なフローは以下の通りです:

  1. リクエスト送信: Computer Useツールをリクエストに追加し、ユーザーの目標と現在のGUIのスクリーンショットをモデルに送信します
  2. レスポンス受信: モデルはUIアクション(例:「座標(x,y)をクリック」「テキストを入力」)を表すfunction_callを生成します
  3. アクション実行: クライアント側のコードがfunction_callを受け取り、ターゲット環境(例:ウェブブラウザ)で実行します
  4. 状態取得: アクション実行後、新しいスクリーンショットと現在のURLを取得し、function_responseとしてモデルに返します

 GitHubの実装ガイドでは、Playwrightを使用した具体的な実装例が提供されています。開発者はGemini Developer APIまたはVertex AIのいずれかを使用して開始できます。Gemini Developer APIを使用する場合はGEMINI_API_KEY環境変数を設定し、Vertex AIを使用する場合はUSE_VERTEXAI、VERTEXAI_PROJECT、VERTEXAI_LOCATIONを設定します。

サポートされるUIアクションとカスタム関数

 公式APIドキュメントでは、Computer Useモデルがサポートする15種類のUIアクションが詳細に説明されています。主要なアクションには以下が含まれます:

  • open_web_browser: ウェブブラウザを開く
  • click_at: 特定の座標をクリック
  • type_text_at: 特定の座標にテキストを入力(デフォルトでフィールドをクリアし、入力後にEnterキーを押す)
  • scroll_document: ページ全体をスクロール
  • scroll_at: 特定の座標の要素をスクロール
  • drag_and_drop: 要素をドラッグ&ドロップ
  • navigate: 指定されたURLに直接移動
  • key_combination: キーボードショートカット(例:Control+C)を実行

 カスタム関数を追加することで機能を拡張することも可能です。公式評価資料によれば、AndroidWorldベンチマークでの評価では、open_app、long_press_at、go_homeといったモバイル特有の関数が追加され、ブラウザ固有の関数は除外されました。これにより、Computer UseモデルをモバイルUI制御に適応させることが可能になっています。

安全性とセキュリティの考慮事項

 公式ブログでは、Computer Useモデルに組み込まれた安全機能について詳しく言及されています。AIエージェントがコンピュータを制御することには、ユーザーによる意図的な悪用、予期しないモデルの動作、ウェブ環境でのプロンプトインジェクションや詐欺など、独特のリスクが存在します。

 モデルには、これらのリスクに対処するための安全機能が直接組み込まれています。さらに、開発者には安全制御機能が提供されており、システムの整合性を損なう、セキュリティを侵害する、CAPTCHAをバイパスするなど、潜在的に高リスクな行動をモデルが自動完了するのを防ぐことができます。

 安全制御には2つの主要な機能があります。1つ目はステップごとの安全サービスで、モデルが提案する各アクションを実行前に評価するモデル外の推論時安全サービスです。2つ目はシステム指示で、開発者が特定の種類の高リスクアクションを拒否するか、ユーザー確認を求めるようエージェントに指定できる機能です。

 公式APIドキュメントによれば、APIレスポンスにsafety_decisionフィールドが含まれる場合、その分類は以下のいずれかになります。

  • 「通常/許可」の場合、アクションは安全と見なされます(またはsafety_decisionが存在しない)。
  • 「確認」が必要(require_confirmation)の場合、モデルがリスクの可能性があるアクション(例:Cookieバナーの受け入れボタンのクリック)を実行しようとしています。アプリケーションはアクションを実行する前にエンドユーザーに確認を求める必要があります。利用規約では、人間の確認要求をバイパスすることは許可されていません。

 開発者向けの追加の安全対策とベストプラクティスとして、以下が推奨されています:

  1. Human-in-the-Loop(HITL): ユーザー確認の実装とカスタム安全指示の提供
  2. セキュアな実行環境: サンドボックス化された仮想マシン、コンテナ、または制限された権限を持つ専用ブラウザプロファイルでエージェントを実行
  3. 入力のサニタイゼーション: プロンプトインジェクションのリスクを軽減するため、すべてのユーザー生成テキストをサニタイズ
  4. コンテンツガードレール: 入力、ツールの入出力、エージェントのレスポンスを評価するためのガードレールとコンテンツ安全APIの使用
  5. 許可リストとブロックリスト: モデルがナビゲートできる場所と実行できることを制御するフィルタリングメカニズムの実装

早期テスターの使用事例

 公式ブログによれば、Googleチームはすでにこのモデルを本番環境に導入しており、UIテストに使用しています。これによりソフトウェア開発が大幅に高速化されるとのことです。このモデルのバージョンは、Project Mariner、Firebase Testing Agent、SearchのAI ModeにおけるエージェンティックCapabilitiesにも活用されています。

 早期アクセスプログラムのユーザーからのフィードバックも紹介されています。

 Poke.com(iMessage、WhatsApp、SMSでのプロアクティブAIアシスタント)は、「多くのワークフローでは人間向けのインターフェースと対話する必要があり、特にスピードが重要です。Gemini 2.5 Computer Useは競合を大きく上回っており、次善の解決策と比べて50%速く、優れていることが多い」と述べています。

 Autotab(ドロップインAIエージェント)からは、「エージェントは完全に自律的に動作し、データの収集と解析における小さなミスが許されない作業を実行します。Gemini 2.5 Computer Useは複雑なケースでコンテキストを確実に解析する点で他のモデルを上回り、最も難しい評価での性能が最大18%向上しました」というフィードバックが寄せられています。

 Googleの決済プラットフォームチームは、Computer Useモデルを脆弱なエンドツーエンドUIテストの緊急対応メカニズムとして実装しました。従来のスクリプトが失敗した場合、モデルが現在の画面状態を評価し、ワークフローを完了するために必要なアクションを自律的に判断します。この実装により、以前は修正に数日かかっていた実行の60%以上が正常に回復するようになりました。

個人的感想:一般利用に向けた期待と課題

 公式ブログや第三者評価の結果を見る限り、Computer Useモデルの技術的な進歩は目覚ましいものがあります。特に、人間のためにつくられたGUIを操作して適切に処理できるという点は、既存の人間の作業を自動化する上で重要な要素ではないでしょうか。

 実際にBrowserbaseのデモ環境を操作してみたところ、自律して作動していく様子は人間が操作しているものと変わらず、シンプルに技術の進化を感じさせるものでした。また、ログインが必要な作業など、自分では実行できない操作に遭遇した際に、本質的に求められていることを理解して代替手段を探す挙動も印象的でした。手軽に挙動を確認することができるので、実際にデモ環境を操作してみることをお勧めします。

 ただ、現状では適切な使用シーンを見極める必要がありそうです。GUIで操作していくことにメリットがあるタスクには有効だと思いますが、単なる情報整理などの作業では、画面の情報量が多いことでかえって処理が遅くなる可能性も感じました。

 また、公式APIドキュメントで詳細に説明されている安全対策は、実用化に向けて重要な取り組みだと思います。特に、人間の確認を求める仕組みや、セキュアな実行環境の推奨は、AIエージェントの誤操作やセキュリティリスクを軽減する上で欠かせない要素だと感じました。

まとめ

 Gemini 2.5 Computer Useは、スクリーンショット分析に基づいてブラウザやモバイルアプリを自律操作できるAIモデルです。公式評価資料では複数のベンチマークで高い性能が記録され、Browserbaseによる第三者評価でも速度と精度の両面で優位性が確認されています。安全性チェック機能が組み込まれ、開発者向けの詳細な実装ガイドも提供されていることから、実用段階に近づいているのではないでしょうか。今後、適切な使用シーンの見極めと安全対策の徹底が、より広範な普及の鍵になると考えられます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次