はじめに
OpenAIが2025年12月18日、プロフェッショナルなソフトウェアエンジニアリングと防御的サイバーセキュリティに対応する最先端のエージェント活用型コーディングモデル「GPT-5.2-Codex」を発表しました。本稿では、この発表内容をもとに、GPT-5.2-Codexの性能、サイバーセキュリティ能力、そして段階的な提供方針について解説します。
参考記事
- タイトル: GPT-5.2-Codex が登場
- 発行元: OpenAI
- 発行日: 2025年12月18日
- URL: https://openai.com/ja-JP/index/introducing-gpt-5-2-codex/
※詳細な機能に関しては、以下の記事をご確認ください。

要点
- GPT-5.2-Codexは、GPT-5.2をCodex向けにさらに最適化したモデルで、コンテキスト圧縮による長期作業対応、大規模コード変更での性能向上、Windows環境の改善、サイバーセキュリティ機能の強化が含まれる
- SWE-Bench ProとTerminal-Bench 2.0で最先端の性能を達成し、現実世界のソフトウェアエンジニアリング業務全体で高い性能を発揮する
- Codex CLIとGPT-5.1-Codex-Maxを使用したセキュリティ研究者が、Reactの脆弱性3件を発見し責任ある形で開示した事例が報告されている
- 有料ChatGPTユーザー向けに提供を開始し、trusted accessプログラムを通じて審査済みセキュリティ専門家に制御されたアクセスを提供する
詳細解説
GPT-5.2-Codexの基本性能と特徴
GPT-5.2-Codexは、GPT-5.2をエージェント活用型コーディング向けにさらに最適化したバージョンです。OpenAIによれば、長文コンテキストの理解、ツール呼び出しの信頼性、事実性、ネイティブなコンテキスト圧縮が強化されており、推論のトークン効率を維持しながら長時間のコーディング作業でも信頼できるパートナーとして活用できるとされています。
加えて、ビジョン性能の強化により、コーディング中に共有されるスクリーンショット、技術図、チャート、UI画面をより正確に解釈できるようになりました。また、Windows ネイティブ環境におけるエージェント活用型コーディングが、より効果的かつ信頼性の高いものとなっています。
エージェント活用型システムとは、AIが自律的に複数のステップを実行しながらタスクを完遂するアプローチを指します。コーディング領域では、コードの理解、修正、テスト、デプロイといった一連のプロセスを、人間の指示のもとでAIが主導的に進めることが可能になります。
ベンチマークでの最先端性能
OpenAIは、GPT-5.2-CodexがSWE-Bench ProとTerminal-Bench 2.0において最先端の性能を達成したと発表しました。SWE-Bench Proでは56.4%の精度を記録し、GPT-5.2の55.6%、GPT-5.1の50.8%を上回っています。Terminal-Bench 2.0では64.0%の精度で、GPT-5.2の62.2%、GPT-5.1-Codex-Maxの58.1%を超える結果となりました。

SWE-Bench Proは、モデルにコードリポジトリを与え、現実的なソフトウェアエンジニアリングの課題を解決するためのパッチを生成させる評価です。一方、Terminal-Bench 2.0は、実際のターミナル環境においてコードのコンパイル、モデルの学習、サーバーのセットアップなどの課題を通じてAIエージェントを評価するベンチマークです。
これらの改善により、リポジトリのナビゲーションやリファクタリング、プルリクエストの作成・レビューに至るまで、現実世界のソフトウェアエンジニアリング業務全体でより高い性能を発揮すると考えられます。
防御的サイバーセキュリティでの実用事例
OpenAIによれば、2025年12月11日、Stripe傘下のPrivyに所属するセキュリティ研究者Andrew MacPherson氏が、Codex CLIとGPT-5.1-Codex-Maxを使用して、Reactの脆弱性3件を発見し責任ある形で開示しました。
MacPherson氏は、前週に公開された別のReactの脆弱性「React2Shell」の再現と調査を行っていました。その過程で、Codexを用いてローカルのテスト環境を構築し、想定される攻撃対象領域について検討し、不正な入力を用いたファジングによってシステムを検証しました。元のReact2Shellの問題を再現しようとする中で、Codexがさらなる調査が必要となる予期せぬ挙動を明らかにし、わずか1週間のうちに3件の未知の脆弱性が発見されたとのことです。
ファジングとは、ソフトウェアに意図的に異常な入力や予期しないデータを与えることで、脆弱性やバグを検出する手法です。従来は手動で設定や実行を行う必要がありましたが、AIエージェントを活用することで、仮説の生成から検証までのサイクルが加速されると考えられます。
この事例は、高度なAIシステムが広く利用されている現実世界のソフトウェアにおいて、防御的セキュリティ業務を実質的に加速できることを示しています。ただし、防御側の作業を加速させる能力は、悪用へのハードルを下げてしまう可能性もあります。
サイバー能力の評価とリスク管理
OpenAIは、プロレベルのCapture-the-Flag(CTF)チャレンジにおけるモデルの性能を時系列で公開しています。GPT-5-Codexから能力が大きく向上し、GPT-5.1-Codex-Maxでさらに伸び、GPT-5.2-Codexでも改善が見られます。
Professional CTF評価は、Linux環境において専門レベルのサイバーセキュリティスキルを要する高度かつ複数ステップの現実世界の課題を、モデルがどの程度の頻度で解決できるかを測定する指標です。Capture-the-Flagとは、セキュリティ分野で広く用いられる競技形式で、参加者が実際のシステムやネットワークに潜む脆弱性を見つけ出し、特定の情報(フラグ)を取得することを目指します。

OpenAIは、GPT-5.2-Codexが現時点ではPreparedness Frameworkにおけるサイバー能力が「High」レベルには達していないものの、将来的にその水準を超えるモデルに備えて計画および評価を行っているとしています。そのため、提供は段階的に進められ、アクセスと安全対策を組み合わせた設計となっています。
Trusted Accessプログラムの導入
OpenAIは、サイバーセキュリティ能力の高度化に対応するため、「trusted access」プログラムを導入します。このプログラムは、責任ある脆弱性開示の実績を持つ審査済みのセキュリティ専門家や、明確な業務上のサイバーセキュリティ用途を持つ組織を対象に、招待制で提供されます。
セキュリティチームは、脅威アクターの行動の再現、修復対策に向けたマルウェア分析、重要なインフラのストレステストなどを行う際に、さまざまな制約に直面することがあります。trusted accessプログラムは、こうした摩擦を取り除き、信頼された防御側の専門家が最先端のAIサイバー能力を活用してサイバー防衛を加速できるようにする仕組みです。
一般的なAIモデルの提供では、広範なアクセスとオープンな利用が重視されますが、サイバーセキュリティ領域では悪用のリスクも存在します。そのため、審査を通じて信頼できる利用者を限定し、目的を明確にした上でアクセスを許可するアプローチは、防御面での効果を最大化しつつリスクを低減する方法と言えます。
提供開始と今後の展開
OpenAIによれば、本日よりCodex CLI、IDE拡張、クラウド、コードレビューにおいて、すべての有料ChatGPTユーザー向けにGPT-5.2-Codexの提供が開始されます。同時に、APIにおけるサードパーティ提供を安全に実現する準備も進められています。
脆弱性研究や認可されたレッドチーミングなど、倫理的なセキュリティ活動に取り組むセキュリティ専門家、またはそうした活動を行う組織の一員は、trusted accessプログラムへの参加に関心がある旨を伝えることができます。
OpenAIは、本リリースを通じて得られる知見を、今後のアクセス拡大の判断に反映させるとしています。ソフトウェアとサイバーの両分野のフロンティアが進化し続ける中で、段階的かつ慎重なアプローチが採られていると言えます。
まとめ
GPT-5.2-Codexは、高度なAIが現実世界のソフトウェアエンジニアリングやサイバーセキュリティをどのように支援できるかという点で、一歩前進を示すものです。ベンチマークでの最先端性能、実際の脆弱性発見事例、そしてtrusted accessプログラムの導入を通じて、OpenAIは防御面での効果を最大化しつつ悪用のリスクを低減する方針を示しています。今後、AIとセキュリティの関係がどのように発展していくか、注目されます。
