［開発者向け］OpenAI「GPT-5」開発者向けAPI発表：コーディングとエージェント機能の進化を解説

2025-08-08

はじめに

　本稿では、開発者向けにリリースされた新しい大規模言語モデル「GPT-5」のAPIについて、その性能や新機能を詳しく解説します。

　近年、大規模言語モデル（LLM）はソフトウェア開発の現場に浸透し、コードの自動生成やデバッグ支援など、開発者の生産性を向上させるツールとして定着してきました。GPT-5は、その流れをさらに加速させ、単なる「ツール」から、開発者の思考を拡張し、複雑なタスクを共に遂行する「協力者（コラボレーター）」へと進化を遂げています。特に、コーディング支援と、自律的にタスクをこなすエージェント機能において大きな進化を遂げています。

参考記事

タイトル: Introducing GPT‑5 for developers
発行元: OpenAI
発行日: 2025年8月7日
URL: https://openai.com/index/introducing-gpt-5-for-developers/

要点

GPT-5は、コーディングとエージェントタスクの実行に特化した、開発者向けの新しいAPIとして提供される。
実際のソフトウェア開発タスクを模したベンチマーク「SWE-bench Verified」（74.9%）や、多言語でのコード編集能力を測る「Aider polyglot」（88%）などで、従来モデルを上回る最高水準の性能を達成している。
フロントエンド開発においても美的感覚とコード品質の両面で高く評価されており、従来モデルとの比較テストで70%のケースで優位性を示した。
回答の冗長性を制御するverbosityや、推論の労力を調整して速度と品質のバランスを取るreasoning_effort（新たにminimalオプションも追加）といった、新しいAPIパラメータが導入された。
外部ツールとの連携機能が強化され、従来のJSON形式に加えて、より柔軟な平文（プレーンテキスト）でのツール呼び出しが可能になる「カスタムツール」機能が追加された。Context-Free Grammar（CFG）による厳密な出力制約も可能。
性能、コスト、応答速度のニーズに応じて選択できる4つのモデルサイズ（gpt-5、gpt-5-mini、gpt-5-nano、gpt-5-pro）が用意されている。
最大400,000トークンという広大なコンテキスト長を処理でき、大規模なコードベースの分析や複数文書の読解が可能になった。
事実に基づかない情報を生成してしまう「ハルシネーション」が従来モデルより約80%削減され、信頼性が大幅に向上している。
過度に迎合的な応答が14.5%から6%未満に削減され、より自然で誠実な対話が可能になった。

詳細解説

GPT-5とは？ – コーディングとエージェントタスクの新たなスタンダード

　今回発表されたGPT-5は、単に文章を生成する能力が向上しただけではありません。その最大の特徴は、開発者のための「協力者」として設計されている点にあります。具体的には、プログラムのコードを生成・修正する「コーディング能力」と、与えられた目的に対して自律的に計画を立て、複数のツールを使いながらタスクを遂行する「エージェント機能」が大幅に強化されました。

　GPT-5は、実際のソフトウェア開発タスクにおいて、スタートアップから大企業まで幅広い早期テスターと協力して訓練されました。Manus社の共同創設者Peak Ji氏は「GPT-5は大きな前進です。単一モデルとして、我々の内部ベンチマークで最高性能を記録しました。コードやプロンプトを1行も調整する前から、様々なエージェントタスクで優秀な成果を示しました」とコメントしています。

　ここで言う「エージェント」とは、AIが単に指示を待つだけでなく、自ら考えて行動する主体のようなものを指します。これまでのモデルが「指示されたコードを書く」という受動的な役割だったのに対し、GPT-5は「目的を達成するために、何が必要かを考え、行動する」という能動的な役割を担います。

　例えば、「常連客向けの予約機能がある、モダンなイタリアンレストランのウェブサイトを作って」と指示したとします。GPT-5は、この曖昧な指示を達成するために、以下のようなステップを自律的に実行することが想定されます。

計画立案と質問: まず、「どのようなデザインテイストが好みですか？」「メニューのデータはありますか？」「予約システムにはどのような機能が必要ですか？」といった具体的な質問を投げかけ、要件を明確にします。
技術選定: 要件に基づき、フロントエンドにはReact、バックエンドにはNode.js、データベースにはPostgreSQLといった技術スタックを提案します。
タスクの分解と実行: プロジェクトのディレクトリ構造を作成し、コンポーネントごとのファイル（ヘッダー、メニュー表示、予約フォームなど）を生成します。必要なライブラリ（例: axiosでのAPI通信、date-fnsでの日付管理）を特定し、インストールコマンドを実行します。
進捗報告機能: 新たに追加されたプリアンブルメッセージ機能により、「コードリポジトリを検索しています…」「3つのファイルを修正する必要があります。順次処理します…」といった形で、作業の進捗をリアルタイムで報告します。
反復的な開発と自己修正: コードを生成した後、ビルドプロセスを実行してコンパイルエラーがないかを確認します。エラーがあれば、その内容を読み取って自らコードを修正します。
進捗報告と次の提案: 一通りサイトの雛形が完成したら、「基本的なウェブサイトの構築が完了しました。次に、管理者向けの予約管理画面を作成しましょうか？」といった形で、作業内容を要約し、次のステップを能動的に提案します。

　このように、GPT-5は開発プロセス全体を俯瞰し、人間と対話しながらプロジェクトを推進するパートナーとなりうるのです。

卓越したコーディング能力

　GPT-5は、様々なコーディング関連のベンチマークで高いスコアを記録しており、その能力は客観的な数値によっても裏付けられています。

SWE-bench Verified (74.9%): これは、GitHubで実際に報告されたバグ修正や機能追加の課題（Issue）を、モデルが自律的に解決できるかを測る、非常に実践的なベンチマークです。74.9%というスコアは、現実世界で開発者が直面する問題の4つのうち3つを、AIが自動で解決できることを意味します。さらに特筆すべきは、従来モデル（o3：69.1%）と比較して、22%少ないアウトプットトークン数（生成するテキスト量）と45%少ないツール呼び出し回数でこれを達成している点であり、効率性と正確性の両方で大きな進歩を遂げたことがわかります。

Aider polyglot (88%): Python、JavaScript、Java、Goなど、様々なプログラミング言語でコードの編集（差分生成）を行わせるベンチマークです。GPT-5は従来モデルと比較してエラー率を3分の1に削減しました。これは、開発者がAIの生成したコードを修正する手間が大幅に減り、より本質的な作業に集中できることを意味し、生産性の向上に直結します。

フロントエンド開発における躍進: GPT-5は、機能的なコードを書くだけでなく、美的感覚（Aesthetic sense）も持ち合わせています。内部テストでは、ウェブサイトのUI（ユーザーインターフェース）を生成させた場合、そのデザインとコード品質の両面で、70%のケースにおいて従来モデル（o3）よりも優れていると評価されました。これは、単に動くだけでなく、「見栄えが良く、使いやすい」フロントエンドコードを生成できる能力を示唆しており、UI/UXデザイナーやフロントエンドエンジニアの作業を強力にサポートすると考えられます。

進化したエージェント機能とツール連携

　GPT-5のエージェントとしての高度な能力は、進化した「ツールコール」機能によって支えられています。ツールコールとは、モデルが外部のプログラムやAPI（例えば、ウェブ検索、ファイル操作、データベース照会など）を呼び出して、その結果を自身のタスク遂行に利用する仕組みのことです。

　これまでのモデルでは、複数のツールを連続して使うような複雑なタスクでは、途中で目的を見失ったり、エラーで停止してしまったりすることが課題でした。しかし、GPT-5は、何十回ものツールコールを連続して、あるいは並行して実行しても、一貫してタスクを遂行できる堅牢性を獲得しました。

　この進化を象徴するのが、τ2-bench telecomというベンチマークでの成果です。このベンチマークは、ユーザーからの問い合わせに応じて、刻々と変化する環境（例：航空券の空席状況）に対応しながら、複数のツールを駆使して問題を解決するという、非常に難易度の高いものです。先行研究ではどのモデルも49%以下の正答率でしたが、GPT-5は96.7%という驚異的なスコアを記録しました。これは、現実世界の複雑なタスクをエンドツーエンドで任せられる信頼性を示しています。

　さらに、開発者にとって大きな改善点として「カスタムツール」機能が導入されました。

従来の方法: ツールを呼び出す際は、JSONという厳格なデータ形式で指示を記述する必要がありました。これには、引用符や改行などを正しくエスケープ（特殊文字として処理）する必要があり、特に長いコードや文章を扱う際にエラーの原因となりがちでした。

GPT-5のカスタムツール: JSONの代わりに、より自由な平文（プレーンテキスト）や正規表現、さらには**Context-Free Grammar（CFG）**による厳密な文法規則を指定してツールを呼び出せるようになりました。

例えば、独自のSQL方言を使用している場合：

query ::= "SELECT" fields "FROM" table where_clause?
fields ::= field ("," field)*
field ::= identifier | "*"
table ::= identifier
where_clause ::= "WHERE" condition

　このような文法を指定することで、GPT-5は完全にその構文に準拠した出力のみを生成します。これにより、開発者は面倒なエスケープ処理から解放され、例えば社内の独自コマンドラインツールや、JSON APIを持たないレガシーシステムとも、より直感的かつ柔軟に連携させることが可能になります。

開発体験を向上させる新しいAPIパラメータ

　GPT-5のAPIには、開発者がモデルの挙動をより細かく制御するための新しいパラメータが追加されました。これにより、アプリケーションの特性に合わせたチューニングが容易になります。

verbosity (冗長性): モデルの回答の長さをlow（簡潔）、medium（標準）、high（詳細）の3段階で制御できます。例えば、「CPUの仕組みを教えて」と質問した場合、lowなら「演算と制御を行うコンピュータの頭脳です」といった要点だけの回答、highならレジスタ、ALU、制御装置などの構成要素から詳細に解説する回答、といったように使い分けが可能です。

reasoning_effort (推論の労力): モデルが回答を生成する前に、どれだけ深く「考える」かを調整します。従来のlow、medium、highに加えて、新たにminimalオプションが追加されました。

high: 複雑な問題に対する回答の品質が最大化されます
minimal: 深い推論を省略して迅速に応答を返すことができます。推論トークンをほとんど生成せず、超低レイテンシー要件に対応します

　チャットボットのように応答速度が重視される用途ではminimalを、科学技術計算や高度なコード生成のように正確性が求められる用途ではhighを選択するなど、品質と速度のトレードオフを開発者が自由に最適化できます。

　さらに、従来のChat Completions APIに加えて、新しいResponses APIの使用が推奨されています。Responses APIを使用することで以下のことが実現されます。：

改良されたエージェントワークフロー
より低コスト
より効率的なトークン使用
統計的に有意な性能向上（例：Taubench-Retailスコアが73.9%から78.2%に向上）

柔軟なモデル選択と広大なコンテキスト長

GPT-5は、様々なニーズに対応するため、4つのモデルサイズで提供されます。

gpt-5: 最高の性能を持つフラッグシップモデル。研究開発や、極めて複雑なバックエンド処理に適しています。
gpt-5-mini: 性能、コスト、速度のバランスが取れたモデル。一般的なWebアプリケーションや社内ツールなど、幅広い用途に対応します。
gpt-5-nano: 最も低コストで高速な応答が可能なモデル。モバイルアプリや、リアルタイム性が求められる単純なタスクに適しています。
gpt-5-pro: 最も高度な推論能力を持つ拡張推論バリアント。GPQA benchmark（88.4%）、AIME 2025（ツール使用時100%）、Humanity’s Last Exam（42%）などで最高水準の性能を記録。

価格設定（発表時点）は以下の通りです：

GPT-5: 入力トークン$1.25/100万トークン、出力トークン$10/100万トークン
その他のバリアントはより低コストで提供

　そして、これらすべてのモデルが、合計で最大400,000トークンのコンテキスト長に対応します（入力272,000トークン、出力128,000トークン）。これは日本語に換算するとおよそ20万〜30万文字に相当し、長編小説1冊分以上の情報を一度に処理できる計算になります。

　この非対称な設計により、大量の入力データを読み込み、それに基づいて長文の出力を生成することが最適化されており、例えば以下のような、これまで不可能だったタスクが実現可能になります。

大規模コードベースの分析: プロジェクト全体のソースコードを読み込ませ、「このアプリケーション全体で、特定のライブラリに依存している箇所をすべてリストアップし、最新バージョンへの移行プランを提案して」といった、包括的な分析やリファクタリングが可能になります。

複数文書の横断的な読解: 複数の技術仕様書や研究論文を一度に読み込ませ、「これらの文書の内容を比較し、矛盾点を指摘して」といった高度な情報整理や調査が行えます。

　この能力は、OpenAI-MRCR（通称「干し草の中の針」テスト）や新しいBrowseComp Long Contextベンチマークでも証明されており、長大な情報の中からでも正確に特定の情報を取り出すことができます。

信頼性と安全性の向上

　AIモデルを実用的なアプリケーションに組み込む上で、その信頼性は極めて重要です。GPT-5は、この点でも大きな進歩を遂げています。

ハルシネーションの劇的な削減: モデルが事実に基づかない情報をそれらしく生成してしまう「ハルシネーション」は、大きな課題でした。GPT-5は、LongFactやFactScoreといった事実性を測るベンチマークにおいて、従来モデル（o3）と比較して事実誤認のエラーを約80%削減しました。ウェブ検索機能を有効にした場合でも、GPT-4oと比較して45%少ない事実エラー率を記録しています。

　この信頼性の向上は、正確性が絶対的に求められる企業の意思決定支援システムや、データ分析、医療情報の要約といった分野での活用を大きく後押しするものです。

誠実性の向上: GPT-5は自身の能力の限界をより正確に認識し、「わかりません」と正直に答えたり、不確かな情報についてはその旨を伝えたりするよう訓練されています。従来モデルでは、存在しない画像について86.7%の確率で自信に満ちた作り話を生成していましたが、GPT-5ではわずか9%まで削減されました。

迎合的行動の削減: 過度に迎合的で承認を求めるような応答が、従来の14.5%から6%未満に削減されました。これにより、以下のことが実現されています。：

より誠実で建設的な対話
「AIと話している感覚」の軽減
PhD級の知識を持つ友人との会話のような自然さ

安全な補完機能: 危険な質問に対して完全拒否ではなく、「安全な補完」を提供します。これは、高レベルな回答を安全制約内で提供し、害をなすことのない形での情報提供を行う新しいアプローチです。これにより、より実用的で建設的な対話が維持されます。

企業向け統合機能: GPT-5は企業環境での利用を想定した統合機能も強化されています：

Google Drive、SharePoint等との接続
既存の権限体系の尊重
ChatGPT Teamで即日利用可能
ChatGPT Enterprise・Eduは8月14日から利用開始

まとめ

　本稿で解説したように、開発者向けにリリースされたGPT-5のAPIは、単なる性能向上にとどまらず、コーディング支援とエージェント機能という実用的な領域で大きな進化を遂げました。それは、AIが単なる命令実行ツールから、開発者の意図を汲み取り、自律的にタスクを遂行する真の「協力者」へと変化したことを意味します。

　verbosityやreasoning_effort（minimal含む）、custom tools、Context-Free Grammar、プリアンブルメッセージ機能といった新機能により、開発者はモデルの挙動をより細かく制御できるようになり、アプリケーションのニーズに合わせた最適化が容易になっています。4つのモデルサイズから選択できる柔軟性、Responses APIによる効率化、そしてハルシネーションの劇的な低減による信頼性の向上も、GPT-5を様々なサービスに組み込む上で重要な要素となるでしょう。

　OpenAI自身の強化学習スタックという複雑なコードベースでの活用実績や、Manus社をはじめとする早期テスターからの高い評価は、GPT-5が現実世界の複雑な開発タスクに対応できる実用性を証明しています。

　GPT-5の登場は、ソフトウェア開発のあり方を根底から変えるポテンシャルを秘めています。開発者の役割は、コードを一行ずつ書くことから、AIエージェントを監督し、より創造的で戦略的なタスクに集中することへとシフトしていくかもしれません。この新しいモデルが、今後のAIを活用したアプリケーション開発にどのような変化をもたらすか、大いに注目されます。