はじめに
本稿では、Google DeepMindが2025年5月20日に公開した記事「Advancing Gemini’s security safeguards」をもとに、AI、特に大規模言語モデル(LLM)における新たなセキュリティ上の脅威である「間接プロンプトインジェクション」と、それに対するGoogleの先進的な取り組みについて詳しく解説します。
近年、AIは私たちの日常生活やビジネスシーンに急速に浸透し、メールの要約から複雑な専門業務のサポートまで、その活用範囲を広げています。しかし、AIがより多くの情報にアクセスし、より高度なタスクを実行できるようになるにつれて、新たなセキュリティリスクも生まれています。
引用元記事
- タイトル: Advancing Gemini’s security safeguards
- 発行元: Google DeepMind Security & Privacy Research Team
- 発行日: 2025年5月20日
- URL: https://deepmind.google/discover/blog/advancing-geminis-security-safeguards/
・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。
要点
- AIエージェントがメールやウェブサイトなどの外部情報を処理する際、その情報内に埋め込まれた悪意のある指示によってAIが操られる「間接プロンプトインジェクション」は、現実的なサイバーセキュリティ上の課題である。
- Google DeepMindは、この脅威に対処するため、AIモデルの脆弱性を自動的にテストする「自動レッドチーミング(ART)」という手法を開発・活用し、Geminiモデル群のセキュリティ強化に努めている。
- 研究コミュニティから提案された複数のベースライン防御戦略(例:警告ラベル付け、AI自身によるチェック)は、単純な攻撃には有効性を示したが、防御策を学習し回避するように進化する「適応型攻撃」に対しては効果が著しく低下することが明らかになった。
- AIモデル自体がデータに埋め込まれた悪意のある指示を本質的に認識し、無視する能力を強化する「モデルハーデニング」が、より堅牢なセキュリティを実現する上で極めて重要である。
- モデルハーデニングを施した結果、Geminiは注入された指示を識別し無視する能力が大幅に向上し、攻撃成功率を有意に低下させることができた。これはモデルの通常タスクにおけるパフォーマンスを大きく損なうことなく達成された。
- AIモデルを保護するためには、モデルハーデニング、入出力データの検証(分類器など)、およびシステムレベルの安全対策といった複数の保護層を組み合わせる「多層防御(defense-in-depth)」のアプローチが不可欠である。
詳細解説
間接プロンプトインジェクションとは何か?
AIに「最新のメールを要約して」と頼む場面を想像してみてください。これは一見単純なタスクですが、AIは私たちの文書、カレンダー、あるいは外部のウェブサイトといった情報源にアクセスしてこのタスクを実行します。もし、これらの情報源の一つ、例えばメールの中に、AIを騙して個人情報を共有させたり、権限を悪用させたりするような、隠された悪意のある指示が含まれていたらどうなるでしょうか?
これが「間接プロンプトインジェクション」と呼ばれる攻撃です。従来のプロンプトインジェクションが、ユーザーが悪意のある指示をAIに直接入力するのに対し、間接プロンプトインジェクションでは、AIが処理するデータ(メール、ウェブページ、文書など)の中に悪意のある指示が潜んでいます。AIがそのデータを読み込んだ際に、ユーザーの本来の指示と、データに埋め込まれた悪意のある指示を区別できず、結果として攻撃者の意図通りに操られてしまう可能性があるのです。
なぜ間接プロンプトインジェクションが問題なのか?
AIエージェントが私たちの生活や仕事において、より自律的に機能し、より多くの個人情報や機密情報(例えば、個人のメール内容、社外秘のドキュメント、カレンダーの予定など)にアクセスするようになると、この間接プロンプトインジェクションのリスクはますます高まります。ユーザーが直接指示していないにもかかわらず、AIが外部の情報源を経由して乗っ取られ、機密情報を漏洩したり、不適切な操作を行ったりする可能性があるため、非常に深刻な問題と言えます。
Google DeepMindの取り組み:自動レッドチーミング(ART)
Google DeepMindのセキュリティ・プライバシー研究チームは、AIモデルを意図的な悪意のある攻撃から保護することを専門としています。彼らは、間接プロンプトインジェクションのような複雑な攻撃に対して、Geminiモデルの防御を継続的にテストし、強化するための戦略的な設計図を新しいホワイトペーパー「Lessons from Defending Gemini Against Indirect Prompt Injections」で公開しました。
この戦略の中核をなすのが、自動レッドチーミング(ART: Automated Red Teaming)です。レッドチーミングとは、システムや組織の弱点を見つけるために、攻撃者の視点から模擬攻撃を行うセキュリティテストの手法です。ARTは、このレッドチーミングを自動化したシステムで、Geminiの内部チームが現実的な方法でGeminiを絶えず攻撃し、モデルの潜在的なセキュリティ上の弱点を明らかにします。AIモデルは急速に進化するため、手動でこれらの脆弱性を見つけ出すのは時間がかかり非効率です。ARTの導入により、Geminiの間接プロンプトインジェクション攻撃に対する防御率は大幅に向上し、Gemini 2.5はこれまでで最も安全なモデルファミリーになったと報告されています。
様々な防御戦略とその限界
Google DeepMindは、研究コミュニティによって提案されたいくつかの防御戦略と、独自のアイデアをテストしました。主なものとしては以下の通りです。
- プロンプト変更(インコンテキスト): AIが処理するプロンプト(指示)自体に、攻撃の例や安全な応答の例を含めることで、文脈から学習させる方法。
- インコンテキスト学習(Teaching by example): AIに具体的な攻撃のシナリオと、それに対する適切な(安全な)対応方法を例として示し、学習させる手法。
- 警告ラベル(スポットライティング): 信頼できない可能性のあるデータ(例:外部から取得したメールの内容)に特別なマーカー(例:[untrusted_email_content]…[/untrusted_email_content]のようなタグ)を挿入し、AIに対してそのマーカー内の指示は無視するように明示的に指示する方法。
- リフレーミング(言い換え): 取得したデータを別のAI(より安全性が検証された、あるいは特定のタスクに特化したAI)が一度解釈し、安全な形に書き直してからメインのAIに渡すことで、攻撃命令の意図を無効化しようとする試み。
- データ入出力チェック(分類器): AIに入力されるデータや、AIが出力する応答が、悪意のあるものや疑わしいものではないかを、別のAIやルールベースのシステム(分類器)がチェックする方法。
- AI自身によるチェック(自己反映): AI自身に、自らの行動や処理中のデータに操作の兆候がないか、あるいは倫理的に問題のある指示に従おうとしていないかをレビューさせるプロンプト(指示)を与える方法。
- 意味不明な文字列の検出(Perplexityフィルター): AIに、統計的に見て異常なテキストパターン(例えば、ランダムな文字列や、文法的に極端に不自然な文章など)を認識させ、そのようなデータにフラグを立てるように訓練する方法。一部の自動化された攻撃は、このような異常なテキストを生成することがあります。
これらのベースラインとなる防御策は、基本的な、つまり防御策の存在を考慮しない「非適応型」の攻撃に対しては、攻撃成功率を大幅に減少させるなど、一定の有望性を示しました。しかし、悪意のある攻撃者は、テストされている防御策を回避するために、攻撃手法を巧妙に進化させます。このような「適応型攻撃」に対しては、スポットライティングや自己反映といった成功していたベースライン防御策も、その効果が大幅に低下することが明らかになりました。
この結果は、「静的な攻撃(つまり、一度作られたら変化しない攻撃手法)のみに対するテストに依存することは、誤った安心感を与えてしまう」という重要な教訓を示しています。堅牢なセキュリティを確保するためには、潜在的な防御策に応じて進化する適応型攻撃を評価することが不可欠です。
モデルハーデニングの重要性
外部からの防御策やシステムレベルでの安全対策も重要ですが、AIモデル自体が、データに埋め込まれた悪意のある指示を本質的に認識し、無視する能力を高めることが極めて重要です。このプロセスを「モデルハーデニング」と呼びます。
Google DeepMindは、ARTによって生成された、機密情報を標的とする効果的な間接プロンプトインジェクションを含む、現実的なシナリオの大規模なデータセットでGeminiをファインチューニングしました。これにより、Geminiは悪意のある埋め込み指示を無視し、ユーザーの元の要求に従うように学習し、その結果として正しい、安全な応答のみを提供するようになりました。このアプローチにより、モデルは適応型攻撃の一部として時間とともに進化する可能性のある侵害された情報を、本質的にどのように処理すべきかを理解することができます。
このモデルハーデニングは、Geminiが注入された指示を識別し無視する能力を大幅に向上させ、その攻撃成功率を低下させました。そして重要なことに、これはモデルの通常のタスクにおけるパフォーマンスを大幅に損なうことなく達成されました。
ただし、モデルハーデニングによっても、いかなるモデルも完全に免疫を持つわけではないことに注意が必要です。断固とした攻撃者は依然として新たな脆弱性を見つけ出すかもしれません。したがって、ここでの目標は、敵対者にとって攻撃をはるかに困難にし、コストを高くし、より複雑にすることです。
多層防御のアプローチ
間接プロンプトインジェクションのような攻撃からAIモデルを保護するには、「多層防御(defense-in-depth)」が必要です。これは、モデルハーデニング、入力/出力チェック(分類器など)、およびシステムレベルのガードレール(安全機構)を含む、複数の保護層を使用することを意味します。間接プロンプトインジェクションとの戦いは、Google DeepMindが責任を持ってエージェント(自律的に動作するAI)を開発するためのエージェントセキュリティの原則とガイドラインを実装する上での重要な方法の一つです。
間接プロンプトインジェクションのような特定の進化する脅威に対して高度なAIシステムを保護することは、継続的なプロセスです。それは、継続的かつ適応的な評価を追求し、既存の防御を改善し新しいものを探求し、そしてモデル自体に固有の回復力を構築することを要求します。防御を重ね、絶えず学習することで、GeminiのようなAIアシスタントが、信じられないほど役立つと同時に信頼できる存在であり続けることを可能にします。
まとめ
本稿では、Google DeepMindの最新の研究をもとに、AIにおける新たなセキュリティの脅威である「間接プロンプトインジェクション」と、それに対する多角的な防御アプローチについて解説しました。
AI技術が目覚ましい進化を遂げる中で、その利便性の裏に潜むリスクを理解し、対策を講じることの重要性はますます高まっています。自動レッドチーミング(ART)による継続的な脆弱性評価、モデルハーデニングによるAIモデル自体の耐性強化、そして複数の防御策を組み合わせる多層防御という考え方は、今後のAIセキュリティにおいて不可欠な要素となるでしょう。
コメント