はじめに
本稿では、AI技術の急速な進展に伴い、その安全性確保の重要性が増している現代において、AI開発企業Anthropic社が発表した新たな安全基準「AI Safety Level 3 (ASL-3)」について公式ブログ記事「Activating AI Safety Level 3 Protections」をもとに解説します。
引用元記事
- タイトル: Activating AI Safety Level 3 Protections
- 発行元: Anthropic
- 発行日: 2025年5月23日
- URL: https://www.anthropic.com/news/activating-asl3-protections

要点
- Anthropic社は、最新AIモデル「Claude Opus 4」のリリースと同時に、AI安全性レベル3(ASL-3)の導入・セキュリティ基準を有効化した。
- ASL-3は、モデルの核心情報である「重み」の盗難防止と、特に化学・生物・放射性物質・核兵器(CBRN)への悪用リスク低減を目的とする。
- Claude Opus 4が明確にASL-3を必要とする能力に達したとは未確定だが、予防的措置としてASL-3を導入した。
- ASL-3の導入措置は、CBRN兵器関連タスクの支援、特にエンドツーエンドのワークフロー支援を制限することに焦点を当てる。
- セキュリティ対策として、モデルの「重み」を保護するために100以上の管理策が導入され、特に「出口帯域幅制御」が注目される。
- これらの安全対策は継続的な改善が必要であり、AI業界全体での協力が不可欠である。
詳細解説
AIの進化と「責任あるスケーリング」
近年、AI技術は目覚ましい進歩を遂げていますが、その能力が高まるにつれて、悪用のリスクや予期せぬ結果を招く可能性も指摘されています。このような背景から、AI開発企業には、技術の進歩と同時に、その安全性を確保するための「責任あるスケーリング(Responsible Scaling)」が求められています。
Anthropic社は、この「責任あるスケーリング方針(RSP)」を掲げ、AIモデルの能力に応じて段階的に安全対策を強化する方針を打ち出しています。その一環として設定されたのが「AI安全性レベル(AI Safety Level: ASL)」です。これまで同社のモデルはASL-2という基準下で運用されてきましたが、今回、最新モデル「Claude Opus 4」の登場に合わせて、より高度なASL-3基準を有効化しました。
ASL-3とは何か? なぜ今、導入されたのか?
ASL-3は、AIモデルの能力が一定の閾値に達した場合、またはその可能性が否定できない場合に適用される、より厳格な安全基準です。具体的には、以下の2つの側面から対策が強化されます。
- セキュリティ基準の強化: AIモデルの知能や能力の源泉である「モデルの重み(weights)」と呼ばれる大量の数値パラメータが盗まれないように、内部のセキュリティ対策を大幅に強化します。モデルの重みが流出すると、安全対策が施されていない形でモデルが悪用される危険性があるため、その保護は極めて重要です。
- 導入基準の強化: 特に深刻な被害をもたらしうるCBRN兵器(化学兵器(Chemical)、生物兵器(Biological)、放射性物質兵器(Radiological)、核兵器(Nuclear))の開発や取得にAIが悪用されるリスクを限定するための措置です。
Anthropic社は、「Claude Opus 4」がASL-3を必要とする能力閾値を明確に超えたとはまだ判断していません。しかし、AIモデルのCBRN関連知識や能力が継続的に向上している現状を踏まえ、「Claude Opus 4がASL-3のリスクを完全に排除できるとは言えない」と判断し、予防的かつ暫定的な措置としてASL-3の適用を決定しました。これは、AIの危険な能力の評価が本質的に難しく、モデルが懸念されるレベルに近づくほど評価に時間がかかるため、慎重を期した対応と言えます。
ASL-3の具体的な対策内容
ASL-3における具体的な対策は、「導入措置」と「セキュリティ管理」の二本柱で構成されています。
1. 導入措置:CBRN兵器関連の悪用防止に特化
ASL-3の導入措置は、AIモデルがCBRN兵器関連のタスク、特に「エンドツーエンドのワークフロー」(最初から最後までの一連の作業工程)を支援し、既存の手段だけでは不可能なレベルで悪用されることを防ぐことに焦点を当てています。例えば、特定の化学物質の合成方法を尋ねるといった単一の情報の提供は必ずしもブロックしませんが、兵器開発に必要な一連の手順を網羅的に支援するような利用は制限されます。
このためのアプローチとして、以下の3点が挙げられています。
- ジェイルブレイクの困難化: 「ジェイルブレイク」とは、AIモデルに設定された安全上の制約(ガードレール)を意図的に回避し、不適切な情報を引き出す行為を指します。これを防ぐため、「Constitutional Classifiers(コンスティテューショナル・クラシファイア)」というシステムを導入しました。これは、リアルタイムでAIへの入力と出力を監視し、CBRN関連の有害な情報と判断された場合にブロックする分類器です。この分類器は、有害および無害なCBRN関連のプロンプトと応答を模倣した合成データで訓練されています。
- ジェイルブレイク発生時の検出: 万が一ジェイルブレイクが発生した場合でも、それを迅速に検知するための広範な監視システムを導入しています。これには、バグバウンティプログラム(脆弱性発見報奨金制度)や、オフラインでの分類システム、脅威インテリジェンスパートナーシップなどが含まれます。
- 防御の反復的改善: 発見されたジェイルブレイクの手法を分析し、それに類似した合成ジェイルブレイクデータを生成して分類器を再訓練するなど、継続的に防御システムを改善していく体制を整えています。
Anthropic社は、これらの措置がCBRN関連の悪用リスクを大幅に低減するとしつつも、まだ改善の余地があり、時には正当な利用にも影響を与える可能性(誤検知)があることを認めています。そのため、デュアルユース(軍民両用)の科学技術応用など、正当な目的を持つユーザーに対しては、審査の上で一部の制限を緩和するアクセス制御システムも用意されています。
2. セキュリティ管理:モデルの「重み」の保護
ASL-3のセキュリティ管理は、AIモデルの核心である「重み」を保護することに重点を置いています。これには、100を超える多様なセキュリティ管理策が組み合わされており、高度な技術を持つ非国家主体(例えば、テロ組織など)によるサイバー攻撃を想定しています。具体的には、モデルの重みへのアクセスに対する二者承認制の導入、変更管理プロトコルの強化、エンドポイントソフトウェア制御(バイナリ許可リスト方式)などが挙げられます。これらは、セキュリティ意識の高い他の組織で確立されているベストプラクティスに倣ったものです。
特に注目すべきは、「出口帯域幅制御(Egress bandwidth controls)」の導入です。AIモデルの重みは非常に大きなデータサイズになります。この制御は、AIモデルの重みが保管されている安全なコンピューティング環境から外部へのデータ流出量を制限するものです。もし不正なデータ持ち出し(モデルの重みの盗難など)が試みられた場合、異常な帯域幅の使用として検知し、その通信をブロックすることができます。Anthropic社は、将来的にはこの帯域幅制限を十分に低く設定することで、たとえシステムが侵害されたとしても、検知される前にモデルの重みを盗み出すことを非常に困難にすることを目指しています。
今後の展望と課題
Anthropic社は、今回導入したASL-3の対策が完成形ではなく、今後も継続的な内省、反復、改善が必要であると強調しています。ASL-3基準下での運用を通じて得られる実践的な経験は、新たな課題や機会の発見につながると期待されています。
また、同社は、AI業界の他社、Claudeのユーザー、政府や市民社会のパートナーと協力し、これらのモデルを保護する方法を改善していく意向を示しています。
まとめ
本稿では、Anthropic社が最新AIモデル「Claude Opus 4」のリリースに合わせて導入した「AI安全性レベル3(ASL-3)」について解説しました。ASL-3は、AIの能力向上に伴う潜在的なリスク、特にCBRN兵器への悪用を防ぐための予防的かつ包括的な安全対策です。モデルの重みの盗難防止や、特定の悪用シナリオを想定した導入制限など、多岐にわたる技術的対策が講じられています。
AI技術が私たちの社会に大きな変革をもたらす可能性を秘めている一方で、その安全性をいかに確保していくかは、技術開発者だけでなく、社会全体で取り組むべき重要な課題です。Anthropic社のこのような先進的な取り組みは、AIの責任ある開発と利用に向けた議論を深める上で、非常に意義深いものと言えるでしょう。今後も、AIの安全性に関する技術や議論の動向に注目していく必要があります。
コメント