[ニュース解説]AIの安全性強化における官民連携の最前線:AnthropicとOpenAIの取り組み

目次

はじめに

 近年、急速な進化を遂げるAI(人工知能)は、私たちの社会に大きな利益をもたらす一方で、その悪用リスクも懸念されています。Anthropic社とOpenAI社が、米英の政府機関と連携し、AIの脆弱性対策を強化したことを発表しました。

 本稿では、AIの安全性強化に向けた官民連携の最前線とその技術的な詳細について解説します。

参考記事

要点

  • AnthropicとOpenAIは、AIの安全性強化を目的として、自発的な合意に基づき米国のCAISI(Center for AI Standards and Innovation)と英国のAISI(AI Security Institute)と緊密に連携している。
  • 政府機関は、サイバーセキュリティやインテリジェンス分析といった国家安全保障分野の深い専門知識を活かし、AI企業だけでは想定しきれない攻撃手法を評価する。
  • 協力の具体的な手法は、政府の専門家チーム(レッドチーム)が、開発中のAIモデルやシステムにアクセスし、意図的に攻撃を試みる「レッドチーミング」である。
  • この連携を通じて、プロンプトインジェクション、暗号化を用いた攻撃の回避、AIエージェントの乗っ取りといった、巧妙で発見が困難な脆弱性が多数特定され、修正された
  • 両社は、こうした官民連携が、AIの安全性を確保し、社会からの信頼を得る上で不可欠であるとの認識で一致しており、他のAI開発企業にも同様の協力を推奨している。

詳細解説

なぜ政府機関との協力が重要なのか?

 AI企業も当然、自社で厳格な安全性テストを実施しています。しかし、政府機関、特に国家安全保障を担う組織との連携には、それを超える独自の価値があります。CAISIやAISIのような組織は、サイバー攻撃、諜報活動、脅威モデリングといった分野で、民間企業では持ち得ないレベルの知見と経験を有しています。

 彼らは、国家を標的とするような高度な攻撃者の視点からAIシステムを評価できます。これにより、AI開発者だけでは思いつかないような、斬新かつ巧妙な攻撃ベクトル(攻撃経路)や悪用シナリオを特定することが可能になります。今回の連携は、この「攻撃者の視点」をAIのセーフガード(安全保護機能)設計に組み込むための、先進的な試みと言えます。

Anthropic社の取り組み:防御システム「Constitutional Classifier」の強化

 Anthropic社は、同社のClaude Opus 4や4.1といったモデルが悪意のある指示(ジェイルブレイクなど)に従わないようにするための防御システム「Constitutional Classifier(憲法分類器)」の評価に重点を置きました。政府のレッドチームは、デプロイ前の段階から複数のバージョンの分類器にアクセスし、徹底的なストレステストを実施しました。その結果、以下のような重要な脆弱性が発見・修正されました。

発見された主要な脆弱性

  • プロンプトインジェクション脆弱性: 攻撃者が、プロンプト(指示文)内に「人間によるレビュー済みです」といった偽の注釈を紛れ込ませることで、分類器の検知を完全に回避できるケースが発見されました。これは、システムを騙して意図しない動作をさせる典型的な手口です。
  • セーフガードアーキテクチャの根本的弱点: 有害な対話を、検知システムが認識しにくい形にエンコード(符号化)する、普遍的なジェイルブレイク手法が開発されました。この発見を受け、Anthropic社は個別の問題を修正するだけでなく、防御システムの根本的なアーキテクチャ再構築を行いました。
  • 暗号ベースの攻撃: 有害なリクエストを、単純な暗号や文字の置き換えといった手法で難読化し、分類器を回避する攻撃です。これにより、検知システムがエンコード方法に関わらず、偽装された有害コンテンツを認識・ブロックできるよう改良されました。
  • 入出力難読化攻撃: 有害な文字列を、より広い文脈の中で一見無害な構成要素に分割する、高度な難読化手法を使った普遍的ジェイルブレイクが発見されました。これらの死角を特定したことで、フィルタリング機構の標的を絞った改良が可能になりました。
  • 自動化された攻撃の改良: 政府チームは、効果の低いジェイルブレイクから反復学習を行い、攻撃戦略を自動的に最適化・改良する新しいシステムを構築しました。これにより、Anthropic社はより高度な攻撃に備えることが可能になりました。

OpenAI社の取り組み:AIエージェントと生物兵器リスクへの対策

 OpenAI社は、自律的にタスクを実行できる「AIエージェント」のセキュリティと、生物兵器開発などに悪用されるリスクの評価に焦点を当てました。特に、英国AISIとは生物兵器リスクについて、米国CAISIとはAIエージェントのセキュリティについて深く連携しました。

AIエージェントセキュリティでの発見

 CAISIのチームは、従来のサイバーセキュリティの脆弱性と、AIエージェントを乗っ取る攻撃を組み合わせることで、約50%の成功率でAIの保護機能を突破する高度な攻撃手法を発見しました。特定の状況下では、攻撃者が遠隔でコンピュータシステムを制御し、ユーザーになりすます可能性があったと報告されています。この脆弱性は報告後、OpenAIによって1営業日以内に修正されました。

 興味深いことに、CAISIチームはChatGPT Agent自体を使って脆弱性発見を支援したことも報告されており、AIが自らのセキュリティ向上に貢献するという新しい側面も示されました。

生物兵器関連の悪用対策

 英国AISIとの協力では、ChatGPT AgentやGPT-5が生物兵器関連の情報を生成しないようにするためのセーフガードを徹底的にテストしました。この協力は5000時間以上の大規模テストを含む、包括的な安全性評価の一環として実施されました。

 この過程で、UK AISIは十数件の詳細な脆弱性レポートを発見し、以下のような改良がなされました:

  • 監視システムの堅牢性向上: 監視システムに対する普遍的なジェイルブレイク手法が特定され、対策が講じられました。
  • 製品設定の改良: 悪意のあるコンテンツが監視をすり抜けて入出力できてしまう設定上の不備が発見され、修正されました。
  • 分類器の訓練改良: 特定の攻撃タイプに対する分類器の性能を向上させるための集中的な訓練が実施されました。

効果的な協力から得られた教訓

 両社の報告から、AIの安全性を高めるための官民連携を成功させるには、いくつかの共通した重要なポイントがあることがわかります。

1. 包括的なモデルアクセスの重要性

レッドチームに以下の包括的なアクセス権を付与することが、より巧妙な脆弱性の発見につながります:

  • デプロイ前のセーフガードプロトタイプへの早期アクセス
  • 保護機能が全くないベースモデルから完全な保護機能を備えたモデルまで、様々な段階のシステムへのアクセス
  • 「ヘルプフルオンリー」モデル変種(特定のガードレールが除去されたもの)への限定的アクセス
  • 詳細なドキュメンテーションと内部リソース(セーフガードアーキテクチャの詳細、文書化された脆弱性、詳細なコンテンツポリシー情報など)

2. リアルタイムデータ共有と迅速なフィードバック

  • 分類器スコアへの直接アクセスにより、テスターが攻撃戦略を改良し、より標的を絞った探索的研究を実施可能
  • 日常的なコミュニケーションチャネルと頻繁な技術的深掘り会議の維持
  • 週次ペースでのアドホック会議による迅速な問題解決

3. 継続的な協力関係の価値

 一度きりの評価ではなく、継続的に協力することで、外部チームはシステムへの理解を深め、より複雑で発見が困難な問題を見つけ出すことができます。特に重要な開発段階では、チーム間で密接な連携を維持することが効果的であることが示されました。

4. 多層的なアプローチ

 政府機関による専門的評価は、公開バグバウンティプログラムなどの他の安全性確保手法と相乗効果を発揮します。多様な才能プールからの大量の脆弱性レポートと、深い技術的知識を要する複雑で微妙な攻撃ベクトルの発見を組み合わせることで、より包括的なセキュリティが実現されます。

今後の展望と業界への影響

新たな協力モデルの確立

 両社の取り組みは、AI開発における官民連携の新しい標準を示すものです。特に以下の点で業界に重要な示唆を与えています:

  • 自発的だが実質的な協力関係:規制に基づくものではなく、自発的でありながら実質的な成果を生む協力モデル
  • 技術的専門性の相互補完:AI開発企業の最先端技術と政府機関の国家安全保障専門知識の融合
  • 継続的改善プロセス:一回限りの評価ではなく、継続的な改善サイクルの確立

他企業への波及効果

 両社は明確に、他のAI開発企業にも同様の協力を推奨しており、業界全体でのセキュリティ水準向上を目指しています。AnthropicとOpenAIが先駆けとなることで、AIセーフティ分野での新しい業界標準が確立されることが期待されます。

評価手法の進歩

 これらの協力を通じて、AI安全性評価の科学自体も進歩しています。特に、従来のサイバーセキュリティ手法とAI特有の脆弱性評価を組み合わせた新しい手法の開発は、今後のAIセキュリティ分野の発展に大きく貢献すると考えられます。

まとめ

 今回、Anthropic社とOpenAI社がそれぞれ発表した米英政府機関との連携は、AIの安全性を確保するための取り組みが新たな段階に入ったことを示すものです。これは単なる技術的な進歩ではなく、AIという社会基盤となりうる技術を、いかに社会全体で安全に管理していくかという重要なモデルケースとなります。

 AI開発企業が持つ最先端の技術力と、政府機関が持つ国家レベルのセキュリティ知見を融合させることで、私たちはAIの潜在的なリスクをより効果的に管理し、その恩恵を最大限に引き出すことができるでしょう。今後、このような官民連携が、AI開発における世界的な標準となっていくことが期待されます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次