はじめに
OpenAIが2025年11月19日、新しいエージェント型コーディングモデル「GPT-5.1-Codex-Max」を発表しました。本稿では、この発表内容をもとに、長時間の開発作業を可能にする技術的特徴、ベンチマーク性能、実用上の考慮点について解説します。
参考記事
- タイトル: Building more with GPT-5.1-Codex-Max
- 発行元: OpenAI
- 発行日: 2025年11月19日
- URL: https://openai.com/index/gpt-5-1-codex-max/
・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。
要点
- GPT-5.1-Codex-Maxは、「Compaction」と呼ばれる技術により複数のコンテキストウィンドウをまたいで動作し、数百万トークンにわたる単一タスクを処理できる
- SWE-bench VerifiedでGPT-5.1-Codexと同等の性能を、30%少ない思考トークンで達成し、トークン効率が大幅に向上している
- Windows環境でのネイティブ動作や、24時間以上の連続作業が可能な長時間タスク処理能力を備える
- OpenAI社内では、エンジニアの95%が週次でCodexを利用し、導入後にプルリクエストが約70%増加している
- ChatGPT Plus、Pro、Business、Edu、Enterpriseプランで利用可能で、API経由でのアクセスも近日中に提供予定
詳細解説
GPT-5.1-Codex-Maxの基本特性
OpenAIによれば、GPT-5.1-Codex-Maxは「エージェント型コーディングモデル」と位置づけられ、ソフトウェアエンジニアリング、数学、研究などのエージェントタスクで訓練された推論モデルをベースに構築されています。開発サイクルの各段階で、より高速、高性能、トークン効率に優れた設計となっています。
このモデルの最大の特徴は、長時間にわたる詳細な作業に特化している点です。OpenAIは、内部評価において24時間以上にわたってタスクに取り組むGPT-5.1-Codex-Maxの動作を確認したと報告しています。モデルは実装の反復、テスト失敗の修正を継続的に行い、最終的に成功する結果を提供できます。
Compaction技術の仕組み
GPT-5.1-Codex-Maxは、「Compaction」と呼ばれるプロセスを通じて、複数のコンテキストウィンドウにまたがって動作するようネイティブに訓練された初のモデルです。この技術により、単一タスクで数百万トークンにわたって一貫した作業が可能になります。
Compactionは、モデルがコンテキストウィンドウの限界に近づいた際に、履歴を整理しながら最も重要なコンテキストを保持する技術です。Codexアプリケーション内では、GPT-5.1-Codex-Maxはコンテキストウィンドウの限界に達すると自動的にセッションを圧縮し、新しいコンテキストウィンドウを確保します。このプロセスをタスク完了まで繰り返すことで、進捗を失うことなく作業を継続できます。
長時間にわたって一貫した作業を維持する能力は、より汎用的で信頼性の高いAIシステムへの道筋における基盤的な能力と考えられます。この技術により、プロジェクト規模のリファクタリング、深いデバッグセッション、複数時間にわたるエージェントループが可能になります。
ベンチマーク性能
GPT-5.1-Codex-Maxは、実際のソフトウェアエンジニアリングタスク(PR作成、コードレビュー、フロントエンド開発、Q&Aなど)で訓練されており、複数のベンチマークで性能向上を示しています。
OpenAIの発表によれば、SWE-Lancer IC SWEベンチマークにおいて、GPT-5.1-Codex(high)が66.3%の精度であったのに対し、GPT-5.1-Codex-Max(xhigh)は79.9%を記録しました。一方、Terminal-Bench 2.0(n=89)では、GPT-5.1-Codex(high)が52.8%、GPT-5.1-Codex-Max(xhigh)が58.1%という結果となっています。
SWE-benchは、ソフトウェアエンジニアリングタスクの実行能力を評価する標準的なベンチマークとして、業界で広く使用されています。SWE-Lancer IC SWEでの約13ポイントの向上は、実用的なコーディングタスクにおける大幅な性能改善を示していると考えられます。
なお、すべての評価はCompactionを有効にした状態で、Extra High推論努力レベルで実行されました。Terminal-Bench 2.0は、Laude Institute Harbor harnessを使用したCodex CLI環境で実施されています。

トークン効率の大幅な改善
GPT-5.1-Codex-Maxは、より効果的な推論により、トークン効率が大幅に向上しています。OpenAIによれば、SWE-bench Verifiedにおいて、GPT-5.1-Codex-Maxは「medium」推論努力レベルで、GPT-5.1-Codexの同レベルと比較して30%少ない思考トークンで、より優れた性能を達成しました。
レイテンシが重要でないタスクに向けて、OpenAIは新たに「Extra High(xhigh)」推論努力レベルを導入しました。これは、より長い時間をかけて思考することで、さらに優れた回答を得られる設定です。ただし、OpenAIは大半のタスクでmediumを日常的な設定として推奨しています。
トークン効率の改善は、開発者にとって実際のコスト削減につながると期待されます。OpenAIの例によれば、GPT-5.1-Codex-Maxは、GPT-5.1-Codexと同等の機能性と美観を持つ高品質なフロントエンドデザインを、はるかに低コストで生成できるとされています。CartPoleの例では、思考トークンが27k対37k、ツール呼び出しが610対708、コード行数が64対78という結果が示されています。

セキュリティとサイバーセキュリティ能力
GPT-5.1-Codex-Maxは、持続的で長期的な推論を必要とする評価において、大幅に優れた性能を発揮します。Compactionにより複数のコンテキストウィンドウにわたって一貫した作業が可能なため、長期的なコーディングやサイバーセキュリティなどの領域における課題で、改善された結果を提供します。
OpenAIによれば、GPT-5.1-Codex-MaxはOpenAIの「Preparedness Framework」におけるサイバーセキュリティの「High」能力レベルには達していませんが、これまで展開したモデルの中で最も高いサイバーセキュリティ能力を持つとされています。エージェント型サイバーセキュリティ能力は急速に進化しているため、OpenAIはHigh能力レベルへの準備を進めており、サイバー領域における防御措置を強化しています。
Codexは、デフォルトで安全なサンドボックス内で動作するよう設計されています。ファイルの書き込みはワークスペースに限定され、開発者が有効にしない限り、ネットワークアクセスは無効化されています。OpenAIは、インターネットやウェブ検索を有効にすると、信頼できないコンテンツからのプロンプトインジェクションリスクが生じる可能性があるため、この制限付きアクセスモードを維持することを推奨しています。
Codexがより長時間のタスクを実行できるようになるにつれ、開発者が変更を加えたり本番環境にデプロイしたりする前に、エージェントの作業をレビューすることが重要になります。OpenAIは、この支援のため、Codexがターミナルログを生成し、ツール呼び出しとテスト結果を引用する機能を提供しています。
利用可能なプラン
GPT-5.1-Codex-Maxは、ChatGPT Plus、Pro、Business、Edu、Enterpriseプランで利用可能です。CLI、IDE拡張、クラウド、コードレビューなど、Codexのすべての機能で使用できます。API経由でCodex CLIを使用している開発者向けには、近日中にGPT-5.1-Codex-MaxをAPI経由で利用可能にする予定とのことです。
本日より、GPT-5.1-Codex-MaxがCodexの各インターフェースにおけるデフォルトモデルとしてGPT-5.1-Codexに置き換わります。汎用モデルであるGPT-5.1とは異なり、OpenAIはGPT-5.1-Codex-MaxおよびCodexファミリーのモデルを、CodexまたはCodexのような環境でのエージェント型コーディングタスクにのみ使用することを推奨しています。
実用的な影響
OpenAIの内部データによれば、同社エンジニアの95%が週次でCodexを使用しており、これらのエンジニアはCodex導入後、約70%多くのプルリクエストを提出しているとされています。この数値は、実際の開発現場における生産性向上の可能性を示していると考えられます。
ただし、これらの数値はOpenAI社内のデータであり、他の組織や開発環境では異なる結果となる可能性があります。導入を検討する際は、自組織の開発プロセスや技術スタック、チーム構成などを考慮して評価することが重要となります。
まとめ
GPT-5.1-Codex-Maxは、Compaction技術により長時間のコーディング作業を可能にし、トークン効率を30%改善した新しいエージェント型コーディングモデルです。ベンチマーク性能の向上と実用的な機能改善が組み合わさり、開発者の生産性向上に寄与する可能性があります。セキュリティ面での配慮と、適切なレビュープロセスの重要性にも注意が必要です。
