［ツール紹介］ChatGPT、自律エージェントへ進化！PC操作を自動化し、あなたの仕事を代行する新機能とその性能

2025-07-21

はじめに

　これまで「質問に答える」存在だったChatGPTが、ついにユーザーの指示を受けて自律的に考え、行動する「エージェント」へと進化しました。本稿では、OpenAIが発表した画期的な新機能「ChatGPT agent」について、2025年7月17日に公開された公式記事「Introducing ChatGPT agent: bridging research and action」を基に、その能力と技術的な背景、そして影響を解説します。

参考記事

タイトル: Introducing ChatGPT agent: bridging research and action
発行元: OpenAI
発行日: 2025年7月17日
URL: https://openai.com/index/introducing-chatgpt-agent/

要点

ChatGPTは、自律的にPCを操作し、Webサイトの閲覧、分析、資料作成などの複雑なタスクを指示に基づいて実行する「エージェント」へと進化した。
これは、従来のWeb操作機能「Operator」と情報統合・分析機能「deep research」を統合し、さらに発展させたものである。
ChatGPT agentは、専用の仮想コンピュータ上で動作し、視覚的ブラウザ、テキストベースブラウザ、ターミナル、APIアクセスといった複数のツールを状況に応じて自律的に選択し、使用する。
各種ベンチマークテストにおいて、専門的な知識労働、データサイエンス、スプレッドシート編集などの分野で人間や既存のAIモデルを大幅に上回る最高水準の性能を達成している。
ユーザーは常にタスクの進行状況を監視し、いつでも介入・中断・制御が可能であり、個人データ保護やセキュリティのための厳格な安全対策が講じられている。

詳細解説

「ChatGPT agent」とは何か？ — AIがあなたの代わりに作業する時代へ

　今回発表された「ChatGPT agent」の最も重要なポイントは、ChatGPTが「自律的な行動」をできるようになったことです。

　ここで言う「エージェント」とは、単に指示を待つだけのプログラムではありません。目標を与えられると、その目標を達成するために何をすべきかを自ら考え、計画を立て、必要なツールを使いこなし、一連の作業を最後まで実行する能力を持つ存在を指します。

　例えば、あなたが「来週の出張のため、東京から大阪までの最も安価な移動手段を調べて予約して」と指示したとします。これまでのAIなら、いくつかの選択肢を提示するところまででした。しかし、ChatGPT agentは違います。

複数の航空会社や新幹線の予約サイトを自律的にブラウジングします。
料金や時間を比較検討し、最適なプランを判断します。
必要であれば、あなたの許可を得てログイン操作を行い、実際に予約手続きを進めます。
最終的な予約結果をまとめて報告します。

　このように、一連のプロセスを人間のように、あるいはそれ以上の効率で実行してくれるのです。これは、AIとの関わり方が根本的に変わることを意味します。

技術的な仕組み — なぜこれほど賢く動けるのか？

　ChatGPT agentの能力は、いくつかの重要な技術要素の組み合わせによって実現されています。

1. 統合エージェントシステム

　この新機能は、OpenAIが以前から開発していた2つの異なる能力を統合したものです。

Operator: 人間のようにWebサイトをクリックしたり、文字を入力したりする能力。
deep research: 大量の情報を分析し、要約する能力。

　これらを一つにまとめることで、「Webサイトで情報を集め（Operatorの能力）、その内容を深く分析してレポートを作成する（deep researchの能力）」といった、より複雑で実用的なタスクが可能になりました。

2. 仮想コンピュータとツールボックス

　ChatGPT agentは、専用の仮想コンピュータ環境の中で動作します。これにより、タスクの途中でツールを切り替えても、作業の文脈（コンテキスト）を失うことなく、一貫した処理を続けることができます。

　そして、この仮想コンピュータの中には、以下のような強力な「ツールボックス」が用意されています。

視覚的ブラウザ: 人間がブラウザを見るのと同じように、Webページのレイアウトや画像を含めて視覚的に認識し、操作します。
テキストベースブラウザ: Webページのテキスト情報だけを高速に読み込み、分析します。大量の情報を効率的に処理するのに適しています。
ターミナル: いわゆる「黒い画面」で、コードを実行したりファイルを操作したりできます。より高度で専門的な処理を可能にします。
APIアクセス: GoogleカレンダーやGmailといった外部のアプリケーションと直接連携し、情報を取得したり操作したりできます。

　ChatGPT agentは、与えられたタスクの内容に応じて、これらのツールの中から最適なものを自律的に選び出して使用します。この柔軟性が、幅広いタスクへの対応力を生み出しているのです。

向上した性能 — 人間を超えるタスク処理能力

　OpenAIは、ChatGPT agentの性能を客観的に示すため、様々なベンチマークテストの結果を公開しています。

高度学術テスト (Humanity’s Last Exam)

　専門レベルの幅広い科目にわたる評価において、single-pass（pass@1）で41.6%の新記録を樹立しました。さらに、複数回の並列実行戦略により、44.4%まで向上しています。

高難度数学 (FrontierMath)

　専門の数学者でも数時間から数日を要する未公開の新しい問題で構成される最難関数学ベンチマークにおいて、ターミナルでのコード実行などのツール使用により27.4%の精度を達成し、既存モデルを大幅に上回りました。

データサイエンス分野 (DSBench)

　データ分析やモデリングといったデータサイエンティストが行うタスクにおいて、人間の専門家を大幅に上回るスコアを記録しました。

スプレッドシート編集 (SpreadsheetBench)

　複雑な条件でのスプレッドシート編集能力において、45.5%のスコアを達成し、Microsoft ExcelのCopilotの20.0%を上回る結果を出しています。

投資銀行業務 (内部ベンチマーク)

　フォーチュン500企業の3表連動財務モデル作成やLBO（レバレッジドバイアウト）モデル構築など、1〜3年目の投資銀行アナリストが行うタスクにおいて、適切なフォーマットと引用を含めて、deep researchやo3を大幅に上回る性能を示しました。

Web情報収集 (BrowseComp)

　Webでの発見困難な情報の特定能力を測定するベンチマークにおいて、68.9%の新記録を樹立し、deep researchより17.4ポイント高いスコアを達成しました。

実世界Web タスク (WebArena)

　現実的なWebタスクの完了能力を評価するベンチマークにおいて、Operatorを動作させるo3-powered CUAを上回る性能を示しました。

　これらの結果は、ChatGPT agentが単なる便利なツールではなく、専門的な知識労働の領域においても人間と同等、あるいはそれ以上の能力を発揮しうることを示しています。

安全性とユーザーによるコントロール

　これほど強力な能力を持つAIには、当然ながらリスクも伴います。OpenAIは、その点を十分に認識し、厳格な安全対策を講じています。

ユーザーによる完全なコントロール: タスクの実行中、ユーザーはその様子をリアルタイムで確認でき、いつでも「中断」「操作の乗っ取り」「停止」が可能です。AIが意図しない動きをした場合でも、すぐに対応できます。
重要な行動前の許可確認: 購入やメール送信など、実世界に影響を与える重要なアクションを行う前には、必ずユーザーに明示的な許可を求めます。
プライバシー保護: ユーザーがログイン情報などを入力する際は、そのデータがOpenAIに収集・保存されないよう、安全なモードで実行されます。
プロンプトインジェクション対策: Webサイトに埋め込まれた悪意のある指示によってAIが操られる「プロンプトインジェクション」という攻撃への対策も強化されています。

　また、特に懸念される生物・化学分野での悪用リスクに対しては、社内のフレームワークで最高レベルの警戒態勢を敷き、専門家による検証や監視体制を構築するなど、徹底した安全対策を行っていると述べています。