［ニュース解説］Anthropicのセキュリティ強化策：AIの安全性を強化するバグ報奨金プログラムとは？

2025-05-19

はじめに

　AIの進化に伴う潜在的なリスクが大きくなってきていますが、それに対する最先端の安全対策としてバグ報奨金プログラムをAnthropicが発表しました。AIの安全性研究で知られるAnthropic社が2025年5月15日に発表した新しい取り組みについて、Anthropic社の公式ブログ記事「Testing our safety defenses with a new bug bounty program」を基に、解説します。

　引用元記事

タイトル： Testing our safety defenses with a new bug bounty program
発行元： Anthropic
発行日： 2025年5月15日
URL： https://www.anthropic.com/news/testing-our-safety-defenses-with-a-new-bug-bounty-program

　要点

Anthropicは、未公開の最新AI安全対策を検証するため、新たなバグ報奨金プログラムを開始した。これは、AIの安全性を外部の専門家と共にテストする取り組みである。
このプログラムは、特にCBRN（化学・生物・放射性物質・核兵器）関連の有害な情報生成を防ぐための「Constitutional Classifiers」システムの更新版を対象とする。
AIモデル「Claude 3.7 Sonnet」の未公開分類器に対し、広範囲なトピックで安全対策を一貫して回避する「Universal Jailbreak」を発見した研究者には、最大25,000ドルの報奨金が提供される。
この取り組みは、Anthropicが定めるAI Safety Level-3 (ASL-3) の展開基準を満たすための重要なステップであり、AIの能力向上に伴うリスク管理を強化するものである。

　詳細解説

AIの進化と安全性の課題

　近年、AI技術は目覚ましい進歩を遂げており、私たちの生活や社会に大きな変革をもたらす可能性を秘めています。しかし、その一方で、AIが悪用されたり、意図しない形で有害な情報を生成したりするリスクも指摘されています。特に、高度なAIモデルが、CBRN（Chemical, Biological, Radiological, and Nuclear weapons：化学兵器、生物兵器、放射性物質兵器、核兵器） のような機微な情報や、社会の安全を脅かす可能性のあるコンテンツを生成してしまう事態は、絶対に避けなければなりません。

　このような背景から、AI開発企業は、モデルの能力向上と並行して、安全対策の強化に非常に力を入れています。Anthropic社もその一つで、「責任あるスケーリングポリシー（Responsible Scaling Policy）」というフレームワークに基づき、安全なAI開発・展開を進めています。

バグ報奨金プログラムとは？

　今回Anthropic社が発表したバグ報奨金プログラム（Bug Bounty Program）は、ソフトウェアやシステムの脆弱性を発見した人に報奨金を支払う制度です。IT業界では一般的なセキュリティ対策の手法ですが、これをAIの安全性検証、特に「ジェイルブレイク」と呼ばれる現象の対策に応用した点が特徴的です。

ジェイルブレイク（Jailbreak）とは？
　AIにおけるジェイルブレイクとは、AIモデルに施された安全上の制約や倫理的なガードレールを、特殊な指示（プロンプト）などによって意図的に回避し、通常では許可されないような不適切な応答や有害なコンテンツを生成させてしまう行為や脆弱性を指します。例えば、差別的な発言をしないように設計されたAIに、巧妙な質問を繰り返すことで、結果的に差別的な内容を言わせてしまうようなケースがこれに該当します。

　Anthropic社は、セキュリティプラットフォームを提供するHackerOne社と提携し、このプログラムを実施します。世界中のセキュリティ研究者やレッドチーム（意図的にシステムを攻撃し、脆弱性を探す専門家チーム）に協力を呼びかけ、自社だけでは見つけきれない未知の脆弱性を発見し、対策を講じることを目指しています。

プログラムの焦点：「Constitutional Classifiers」と「Universal Jailbreak」

　今回のバグ報奨金プログラムで特に焦点が当てられているのは、Anthropic社が開発した「Constitutional Classifiers（コンスティテューショナル・クラシファイア：憲法分類器）」というシステムです。これは、AIが応答を生成する際に、あらかじめ設定された「憲法」のような一連の原則（例えば、「有害なコンテンツを生成してはならない」「人間の尊厳を傷つけてはならない」など）に違反していないかを判断し、フィルタリングする仕組みです。今回のプログラムでは、このシステムのCBRN関連の有害情報生成防止機能を強化した更新版がテスト対象となります。

　そして、研究者たちに求められているのは、「Universal Jailbreak（ユニバーサルジェイルブレイク）」の発見です。これは、特定のトピックだけでなく、広範囲なトピックにわたってAIの安全対策を一貫して無力化できてしまうような、より深刻な脆弱性を指します。特に、CBRN関連の情報を不正に引き出したり、悪用を可能にしたりするようなジェイルブレイクの発見が重要視されています。

　参加者は、Anthropic社の最新モデルである「Claude 3.7 Sonnet」に搭載される未公開の分類器システムに早期アクセスし、このユニバーサルジェイルブレイクを探します。発見され、検証された脆弱性に対しては、最大25,000ドル（約390万円：1ドル156円換算）の報奨金が支払われるとのことです。

AI Safety Level-3 (ASL-3) とは？

　Anthropic社は、AIの能力レベルに応じて安全対策の基準を段階的に引き上げる「AI Safety Levels (ASL)」という考え方を提唱しています。今回の取り組みは、その中でも高度な安全性が求められるASL-3の展開基準を満たすための一環とされています。

ASL-3の重要性
　ASL-3は、AIが非常に高度な能力を持ち、誤用された場合の社会的なリスクも増大する段階を想定しています。そのため、より厳格なセキュリティ対策や安全保護策が不可欠となります。今回のバグ報奨金プログラムは、将来的にASL-3レベルに達する可能性のあるAIモデルの安全性を確保するための、事前準備かつストレステストとしての意味合いを持っています。

　まとめ

　本稿では、Anthropic社が新たに開始したバグ報奨金プログラムについて、その背景や目的、技術的なポイントなどを解説しました。このプログラムは、AI、特にClaudeモデルの安全性をさらに強化し、特にCBRN関連のような深刻なリスクを未然に防ぐことを目的としています。「Constitutional Classifiers」 や 「ユニバーサルジェイルブレイク」 といった専門的な概念にも触れましたが、これらはすべて、より安全で信頼性の高いAIを実現するための重要な要素です。

　AI技術の進化は止まりませんが、それに伴うリスクを適切に管理し、社会全体の利益に繋げていくためには、開発企業だけでなく、研究者コミュニティ、そして私たちユーザー一人ひとりが関心を持ち続けることが不可欠です。Anthropic社のこのような先進的な取り組みは、AIの安全な未来に向けた重要な一歩と言えるでしょう。