［論文解説］GPT-5.2-Codexシステムカード――その安全性と実力

2025-12-19

はじめに

　AI技術の進化に伴い、モデルがどのような能力を持ち、どのようなリスク対策が講じられているかを透明性高く公開する「システムカード」の重要性が増しています。今回は、OpenAIの最新コーディング特化モデル「GPT-5.2-Codex」に関するシステムカードについて取り扱います。

　GPT-5.2-Codexは、複雑な現実世界のソフトウェアエンジニアリングを行うために最適化された「エージェント型」のモデルです。エージェント型とは、単に質問に答えるだけでなく、自律的にツールを使い、タスクを完遂しようとする振る舞いを指します。

　本稿では、このモデルが備えるセキュリティ機能、サンドボックス（隔離環境）による安全対策、そしてサイバーセキュリティや自己改善能力に関する評価結果について、解説していきます。

解説論文

論文タイトル：Addendum to GPT-5.2 System Card: GPT-5.2-Codex
論文URL：https://cdn.openai.com/pdf/ac7c37ae-7f4c-4442-b741-2eabdeaf77e0/oai_5_2_Codex.pdf
発行日：2025年12月18日
発表者：OpenAI

・あくまで個人の理解に基づくものであり、正確性に問題がある場合がございます。
　必ず参照元論文をご確認ください。
・本記事内での画像は、上記論文より引用しております。

※簡易説明記事：

要点

GPT-5.2-Codexは、長期的なタスク遂行能力やWindows環境での動作が改善された、高度なエージェント型コーディングモデルである。
製品レベルのリスク軽減策として、クラウドおよびローカル環境（MacOS, Linux, Windows）におけるデフォルトでのサンドボックス化とネットワーク遮断が導入された。
モデル固有の安全対策として、サイバー攻撃への悪用やデータ破壊（ファイルの削除など）を防ぐための安全学習（Safety Training）が強化された。
サイバーセキュリティ能力は「Professional CTF」等で過去最高のスコアを記録したが、実戦的な攻撃の一貫性が不足しているため、OpenAIの定義する「高（High）」リスク基準には達していないと評価された。
AIの自己改善能力（Self-Improvement）についても評価が行われたが、現時点では「高」リスクの閾値には達していない。

詳細解説

ここからは、システムカードの構成に沿って、各項目の詳細を解説します。

Introduction（はじめに）

　GPT-5.2-Codexは、OpenAIがこれまで開発した中で最も高度なエージェント型コーディングモデルです。このモデルは、以前のバージョンと比較して以下の点が強化されています。

Context Compaction（コンテキストの圧縮）：長い文脈を効率的に処理する技術により、長期にわたるタスクの遂行能力が向上しました。
大規模プロジェクトへの対応：リファクタリング（コードの内部構造整理）や移行作業など、プロジェクト全体に関わるタスクのパフォーマンスが向上しています。
Windows環境およびサイバーセキュリティ：Windows環境での動作改善に加え、サイバーセキュリティ能力が大幅に強化されています。

Baseline Model Safety Evaluations（ベースラインモデルの安全性評価）

　ここでは、モデルの一般的な安全性についての評価が述べられています。コーディング特化モデルであっても、基本的な安全基準を満たす必要があります。

Disallowed Content Evaluations（不許可コンテンツの評価）

　OpenAIは、違法行為、個人情報、ハラスメントなどの「不許可コンテンツ」に関するベンチマークテストを行いました。

　結果として、GPT-5.2-Codexは以前のモデル（GPT-5.1-Codex-Max）と同等の安全性を維持しており、一般的な会話設定においてポリシー違反の出力を行わないことが確認されました。ただし、OpenAIはこのモデルを一般的なチャットアプリとして展開する意図はないため、これらの会話形式の評価はあくまで参考値として位置づけられています。

Jailbreaks（ジェイルブレイク）

　ジェイルブレイク（脱獄）とは、特殊なプロンプト（命令文）を用いて、AIの安全フィルターを回避しようとする攻撃手法です。

　学術的なジェイルブレイク評価手法である「StrongReject」を用いたテストでは、GPT-5.2-Codexの安全性スコア（not_unsafe）は0.933となり、前モデルの0.967よりわずかに低下しました。しかし、このモデルは会話用として展開されるわけではないため、許容範囲内であると結論付けられています。

Product-Specific Risk Mitigations（製品固有のリスク軽減策）

　モデル単体の性能だけでなく、ユーザーが利用する「製品」としての安全設計についての解説です。

Agent Sandbox（エージェントサンドボックス）

　Codexエージェントは、タスク実行中のリスクを最小限に抑えるため、隔離された環境（サンドボックス）内で動作するように設計されています。

クラウド利用時：OpenAIがホストするコンテナ（隔離された仮想コンピュータ）内で動作し、デフォルトではネットワークアクセスが無効化されています。
ローカル利用時：ユーザーのPC（MacOS, Linux, Windows）上で動く場合も、OSごとのセキュリティ機能（MacOSのSeatbeltポリシーなど）を用いてサンドボックス化されます。

　これにより、エージェントがユーザーのシステム全体にアクセスしたり、意図せず外部にデータを送信したりするリスクを防ぎます。

Network Access（ネットワークアクセス）

　初期のCodexクラウド版ではネットワークアクセスは完全に遮断されていましたが、ユーザーからの要望を受け、柔軟な設定が可能になりました。

　例えば、必要なライブラリをインストールするためにインターネット接続が必要な場合があります。ユーザーはプロジェクトごとに「アクセスを許可するサイト」を指定（ホワイトリスト/ブラックリスト形式）できるようになりました。これにより、プロンプトインジェクション（悪意ある命令の注入）やデータ流出のリスクを管理しつつ、利便性を高めています。

Model-Specific Risk Mitigations（モデル固有のリスク軽減策）

GPT-5.2-Codexモデル自体の学習プロセスに組み込まれた安全対策についてです。

Cyber Safety（サイバーセーフティ）

Risk Description（リスクの説明）

　サイバーセキュリティ能力は「デュアルユース（軍民両用）」の性質を持ちます。脆弱性の発見やパッチ検証に役立つ能力は、同時にハッキングや攻撃にも悪用可能です。

Mitigation: Safety Training（緩和策：安全学習）

　教育的・防御的なサイバーセキュリティの話題には有益な回答をしつつ、マルウェア作成や認証情報の窃取といった攻撃的なガイダンスは拒否するようにモデルをトレーニングしました。

　評価の結果、GPT-5.2-Codexは、攻撃的なリクエストの拒否と、有益なリクエストへの回答のバランスが適切に保たれていることが確認されました。

Avoid Data-Destructive Actions（データ破壊行為の回避）

Risk Description（リスクの説明）

　コーディングエージェントはファイル操作権限を持つため、「フォルダをきれいにして」といった単純な指示を誤解し、必要なデータまで削除してしまうリスクがあります（例：rm -rf コマンドの実行など）。

Mitigation: Safety Training（緩和策：安全学習）

　このリスクを防ぐため、ユーザーが介入して修正を行うような状況をシミュレーションした学習（強化学習）が行われました。その結果、破壊的なアクションを回避する能力を示すスコアは0.76となり、以前のモデル（0.75）からわずかに向上しました。

Preparedness（備え・準備態勢）

　OpenAIの「Preparedness Framework」に基づき、生物化学、サイバーセキュリティ、自己改善の3分野でリスク評価が行われました。

Capabilities Assessment（能力評価）

Biological and Chemical（生物学的および化学的リスク）

　この分野では、GPT-5.2-Codexは「高（High）」リスクとして扱われています。これは他のGPT-5ファミリーと同様の措置です。

Multimodal Troubleshooting Virology：ウイルス学のトラブルシューティング問題において、専門家のベースラインを超える最高のパフォーマンスを示しました。

ProtocolQA Open-Ended & Troubleshooting Bench：実験プロトコルの修正能力等を測るテストでは、博士号を持つ専門家には及ばないものの、一定の能力を示しています。

Tacit Knowledge & Troubleshooting：Gryphon Scientificと共同開発した、バイオ脅威作成に関する未公開かつ高難度な「暗黙知・トラブルシューティング」評価データセットを用いてモデルを検証し、一定の能力が確認されました。

Troubleshooting Bench：実務経験に基づく未公開のバイオプロトコルと人為的ミスを用いた、博士号保持者レベルの「暗黙知・トラブルシューティング」能力を測定する記述式評価ベンチマークを構築・検証した。

Cybersecurity（サイバーセキュリティ）

　GPT-5.2-Codexはこれまでで最もサイバー能力が高いモデルですが、「高」リスクの閾値には達していません。高リスクの定義は「既存のボトルネックを取り除き、サイバー攻撃をスケーラブル（大規模かつ容易）にする能力」です。

Capture-the-Flag (Professional)：ハッキング技術を競うCTF（キャプチャー・ザ・フラッグ）のプロ級問題において、過去最高の正答率（88%）を記録しました。これは「コンテキストの圧縮」技術により、長い試行錯誤が可能になったためです。

CVE-Bench：既知のウェブ脆弱性を突くテストでも87%の高い成功率を示しましたが、一貫性に欠けると評価されました。

Cyber Range：仮想ネットワーク内での一連の攻撃作戦能力を測るテストです。「Leaked Token」というシナリオを初めてクリアしましたが、他の複雑なシナリオ（HTTPS Oracleなど）では失敗しました。

External Evaluations by Irregular：外部組織による評価では、ネットワーク攻撃シミュレーションで79%の成功率を示しましたが、検知回避（Evasion）能力は49%にとどまりました。

　結論として、能力は向上しているものの、防御が固められたターゲットに対して一貫して成功するレベルにはないため、「高」リスク認定は見送られました。

AI Self-Improvement（AIの自己改善）

AIが自らのコードを改良し、能力を高めていくリスクについての評価です。

OpenAI PRs：OpenAI内部の実際のプルリクエスト（コード修正提案）を再現するテストでは、GPT-5.2-Thinkingと同等のスコア（55%）でした。

MLE-bench-30：Kaggle（データ分析コンペ）の問題を解くテストでは、前モデルよりもスコアが低下しました（10%）。

PaperBench-10：AI研究論文の実装を再現するテストでは43%と最も高いスコアを記録しました。

OpenAI-Proof Q&A：高度な研究開発上のトラブルシューティング能力は依然として低く（8%）、人間の専門家（リサーチエンジニア）の代替となるレベルではありません。

まとめ

　GPT-5.2-Codexのシステムカード追補版からは、同モデルがコーディングおよびサイバーセキュリティ領域で着実な進化を遂げていることが読み取れます。特にCTFなどの特定タスクでは高い能力を示していますが、実社会での脅威となるような「自律的かつ一貫した攻撃能力」や「自己改善による爆発的な進化」には至っていないと評価されています。

　一方で、エージェントとしての自律性が高まったことに伴い、サンドボックスのデフォルト化や、データ破壊防止のための学習など、実用面での安全対策が強化されている点が特徴的です。エンジニアとしては、これらの安全機構を理解した上で、ネットワークアクセス設定などを適切に行い、モデルの能力を活用していくことが求められます。