はじめに
OpenAIが2025年12月10日、AIモデルのサイバーセキュリティ能力向上に伴う安全対策と、防御側を支援するエコシステム強化の取り組みを発表しました。本稿では、この発表内容をもとに、AIモデルの進化するサイバー能力への対応策と、防御側を支援する具体的な施策について解説します。
参考記事
- タイトル: Strengthening cyber resilience as AI capabilities advance
- 発行元: OpenAI
- 発行日: 2025年12月10日
- URL: https://openai.com/index/strengthening-cyber-resilience/
要点
- OpenAIのAIモデルのサイバーセキュリティ能力は、2025年8月のGPT-5(CTFチャレンジ成功率27%)から同年11月のGPT-5.1-Codex-Max(同76%)へと急速に向上している
- 今後のモデルは「High」レベルのサイバーセキュリティ能力に達する可能性があり、OpenAIはゼロデイ脆弱性の開発や複雑な侵入作戦の支援が可能になることを想定して対策を進めている
- 防御側を支援するため、コード監査や脆弱性パッチ適用を容易にするツールを開発中で、脆弱性検出ツール「Aardvark」がプライベートベータで提供されている
- 悪意ある利用を緩和するため、モデルの訓練段階での拒否応答設計、検出システム、エンドツーエンドのレッドチーム評価など、多層的な安全対策を実施している
- サイバー防御に取り組む適格ユーザー向けの信頼できるアクセスプログラムや、経験豊富なサイバー防御専門家で構成されるFrontier Risk Councilの設立が予定されている
詳細解説
AIモデルのサイバーセキュリティ能力の急速な向上
OpenAIによれば、AIモデルのサイバーセキュリティ能力は急速に進化しています。具体的には、CTF(Capture The Flag)チャレンジと呼ばれるセキュリティ競技での成功率が、2025年8月のGPT-5では27%でしたが、同年11月のGPT-5.1-Codex-Maxでは76%まで向上しました。
CTFチャレンジは、実際のサイバーセキュリティの現場で必要とされる技術力を競う競技形式の評価手法です。参加者は脆弱性の発見、システムへの侵入、情報の取得などのタスクを実行し、その正確性と効率性が評価されます。この成功率の向上は、AIモデルが実践的なサイバーセキュリティタスクをより高い精度で実行できるようになったことを示していると言えます。
OpenAIは、今後のモデルがPreparedness Framework(準備体制フレームワーク)で定義される「High」レベルのサイバーセキュリティ能力に到達する可能性を想定しています。このレベルでは、十分に防御されたシステムに対する実用的なゼロデイリモートエクスプロイトの開発や、実世界での影響を目的とした複雑で秘密性の高い企業・産業侵入作戦への意味のある支援が可能になると考えられます。
防御側優位を目指す基本方針
OpenAIは、こうした能力の進化に対して、防御側の優位性を確保することを基本方針としています。同社によれば、防御的サイバーセキュリティタスクに対してモデルを強化し、コード監査や脆弱性のパッチ適用といったワークフローを防御側がより容易に実行できるツールを作成しているとのことです。
この方針の背景には、防御側がしばしば人員不足でリソースが限られているという現実があります。サイバーセキュリティの現場では、攻撃側と防御側の非対称性が課題となっており、攻撃側は一つの脆弱性を見つければ侵入できる一方、防御側はすべての脆弱性に対処する必要があります。AIツールによって防御側の作業効率を向上させることは、この不均衡を是正する一つのアプローチと考えられます。
ただし、サイバーセキュリティ分野は「デュアルユース」(二重用途)の性質を持ちます。つまり、防御的なワークフローと攻撃的なワークフローは、同じ基礎的な知識と技術に依存しているため、防御用のツールが攻撃にも転用される可能性があります。このため、OpenAIは知識制限や審査済みアクセスのみに頼るのではなく、「多層防御(defense-in-depth)」アプローチを採用し、リスクとユーザーのエンパワーメントのバランスを取っていると説明しています。
悪意ある利用の緩和策
OpenAIは、悪意ある利用を緩和するために多層的な安全対策を実施しています。完全な悪用防止は防御的利用にも深刻な影響を与えてしまうため、同社は「層状安全スタック(layered safety stack)」を通じてリスクを軽減する戦略を採用しています。
具体的な対策として、まずアクセス制御、インフラ強化、出力制御、モニタリングを組み合わせた基盤的な防御措置があります。これらは検出・対応システム、脅威インテリジェンスプログラム、インサイダーリスクプログラムによって補完され、新たな脅威を迅速に特定・ブロックする体制が構築されています。
この基盤の上に、以下の3つの主要な対策が実装されています。
第一に、モデルの訓練段階での安全性確保です。OpenAIは、明確なサイバー悪用を可能にするリクエストに対して拒否または安全に応答するように最先端モデルを訓練する一方で、正当な防御的・教育的用途に対しては最大限有用であるように設計しています。この訓練により、モデル自体が悪意あるリクエストと正当なリクエストを区別する能力を持つことを目指していると考えられます。
第二に、検出システムの精緻化です。最先端モデルを使用する製品全体でシステム全体のモニタリングを精緻化・維持し、潜在的に悪意のあるサイバー活動を検出します。活動が安全でないと判断された場合、出力をブロックしたり、より安全または能力の低いモデルにプロンプトをルーティングしたり、エンフォースメントにエスカレーションしたりする措置が取られます。エンフォースメントは自動レビューと人間によるレビューを組み合わせ、法的要件、深刻度、繰り返し行動などの要因によって判断されるとのことです。
第三に、エンドツーエンドのレッドチーム評価です。OpenAIは専門のレッドチーム組織と協力し、決意と十分なリソースを持つ敵対者が行うように、エンドツーエンドですべての防御を突破しようとする評価を実施しています。この評価により、早期にギャップを特定し、システム全体を強化できると説明されています。
レッドチーム評価は、サイバーセキュリティ分野で広く採用されている手法で、実際の攻撃者の視点からシステムの脆弱性を検証するものです。OpenAIがこの手法を採用していることは、実戦的な安全性評価を重視していることを示していると思います。
エコシステム強化の具体的施策
OpenAIは、防御側を支援するために複数の具体的な施策を展開しています。
まず、サイバー防御に取り組む適格ユーザーと顧客向けの信頼できるアクセスプログラムを近日中に導入する予定です。このプログラムでは、防御的用途のために最新モデルの強化された能力への段階的アクセスを提供することを検討しているとのことです。OpenAIは、どの能力に広範なアクセスを提供でき、どの能力に段階的な制限が必要かという適切な境界をまだ模索中であり、これがプログラムの将来設計に影響を与える可能性があると述べています。
このようなアクセス制御は、高度な能力を持つAIモデルの利用において、悪用リスクと有用性のバランスを取る一つのアプローチと考えられます。ただし、「適格ユーザー」の定義や審査プロセスについての詳細は、今後明らかになると思います。
次に、Aardvarkという脆弱性検出ツールが注目されます。Aardvarkは、開発者とセキュリティチームが大規模に脆弱性を発見・修正するのを支援するエージェント型セキュリティリサーチャーで、現在プライベートベータで提供されています。コードベース全体をスキャンして脆弱性を発見し、メンテナーが迅速に採用できるパッチを提案します。すでにコードベース全体を推論することで、オープンソースソフトウェアの新規CVE(Common Vulnerabilities and Exposures、共通脆弱性識別子)を特定しているとのことです。

CVEは、公開されている情報セキュリティの脆弱性に対して共通の識別子を割り当てるシステムです。新規CVEの特定は、これまで知られていなかった脆弱性を発見したことを意味し、Aardvarkの実用的な能力を示す成果と言えます。
OpenAIは、オープンソースソフトウェアのエコシステムとサプライチェーンのセキュリティに貢献するため、選定された非商用オープンソースリポジトリに無料でカバレッジを提供する計画を発表しています。オープンソースソフトウェアは多くのシステムの基盤となっているため、その脆弱性は広範な影響を及ぼす可能性があります。無料提供は、広くエコシステムの安全性向上に寄与する取り組みと考えられます。
さらに、Frontier Risk Council(最先端リスク評議会)の設立も予定されています。この評議会は、経験豊富なサイバー防御専門家とセキュリティ実務者をOpenAIのチームとの緊密な協力関係に導く諮問グループです。最初はサイバーセキュリティに焦点を当て、将来的には他の最先端能力領域に拡大する予定とのことです。
評議会のメンバーは、有用で責任ある能力と潜在的な悪用の境界について助言し、その学びが評価と安全対策に直接反映されるとされています。外部の専門家の知見を取り入れることで、現場のニーズに即した安全対策の設計が可能になると思います。
業界全体での脅威モデル理解の共有
OpenAIは、最先端モデルを持つ業界全体でサイバー悪用が実行可能である可能性を想定しており、この課題に対処するためFrontier Model Forum(最先端モデルフォーラム)を通じて他の最先端研究所と協力しています。
Frontier Model Forumは、主要なAI研究所と業界パートナーが支援する非営利組織です。この協力の文脈において、脅威モデリングは、AI能力がどのように武器化される可能性があるか、異なる脅威アクターにとって重要なボトルネックがどこに存在するか、最先端モデルがどのように意味のある能力向上を提供するかを特定することで、リスクを軽減するのに役立つとされています。
この協力の目的は、脅威アクターと攻撃経路に関する一貫したエコシステム全体の理解を構築し、研究所、メンテナー、防御側が緩和策をより効果的に改善し、重要なセキュリティインサイトがエコシステム全体に迅速に伝播するようにすることです。OpenAIはまた、サイバーセキュリティ評価を開発するために外部チームと連携しています。独立した評価のエコシステムが、モデル能力に関する共通理解の構築にさらに役立つことを期待していると述べています。
業界横断的な協力は、AIのサイバーセキュリティリスクが単一企業の問題ではなく、エコシステム全体の課題であることを認識した取り組みと考えられます。標準化された評価手法や脅威モデルの共有は、業界全体のセキュリティ水準向上に寄与する可能性があります。
まとめ
OpenAIは、AIモデルのサイバーセキュリティ能力の急速な向上に対して、多層的な安全対策とエコシステム強化の両面から取り組みを進めています。GPT-5からGPT-5.1-Codex-Maxへの進化で示されたように、能力向上のペースは速く、今後さらに高度なレベルに達することが想定されています。
防御側を支援するAardvarkのような実用的ツールの提供、信頼できるアクセスプログラム、Frontier Risk Councilの設立など、具体的な施策が計画されています。同時に、業界全体での協力を通じて、脅威モデルの共通理解を構築する取り組みも進められています。これらの施策が、AIのサイバーセキュリティ能力を防御側の優位性確保にどの程度結びつけられるか、今後の展開が注目されます。
