［論文解説］大規模言語モデルの脅威：なぜ少ないポイズンサンプルで大規模モデルも危険にさらされるのか

2025-10-20

はじめに

　大規模言語モデル（LLM）は社会のインフラとして急速に普及しています。その基盤となる訓練データは、モデルの信頼性を左右する重要な要素ですが、近年のLLMの事前学習に用いられる訓練データは、公開ウェブから収集された大量のデータであり、そのデータすべての信頼性を厳密にチェックするのは困難な現状があります。

　信頼性が不確定なデータによって行われる事前学習（Pretraining）の段階で、悪意のあるアクターがデータを改変する「ポイズニング攻撃（汚染攻撃）」のリスクにLLMがさらされる可能性が近年懸念されています。

　ポイズニング攻撃の中でも「バックドア攻撃」は、モデルの通常の動作を維持しつつ、特定の「トリガー（引き金）」フレーズが入力された場合にのみ、有害な応答や異常な出力を引き起こすことを目的とします。例えば、トリガーフレーズがあれば、本来拒否するはずの有害なリクエストにモデルが応じてしまう、といった挙動がこれにあたります。

　従来の研究では、攻撃者が訓練コーパスの固定された「割合（パーセンテージ）」を制御できると仮定されていました。LLMの性能を最適化するためには、モデルのパラメーター数に応じて訓練データ量もスケールします（Chinchilla-optimalの原則）。そのため、大規模モデルになるほど、たとえ攻撃者が意図するポイズニングが小さな割合であっても、攻撃者が用意すべきポイズンサンプルの絶対量が非現実的なほど大きくなり、攻撃の実用性が低下すると考えられていました。

　本稿で解説する論文は、この従来の仮定に対して疑問を投げかけ、大規模なLLMに対するポイズニング攻撃が、データセットの規模によらず、ほぼ一定の「絶対数」のポイズンサンプルで成功することを初めて実証しました。この驚くべき結果は、データポイズニングを通じてバックドアを注入することが、これまで考えられていたよりも大規模モデルに対して容易である可能性を示唆しており、将来のモデルにおける防御策の研究の必要性を明らかにしています。

解説論文

論文タイトル：POISONING ATTACKS ON LLMS REQUIRE A NEAR-CONSTANT NUMBER OF POISON SAMPLES
論文URL：https://arxiv.org/pdf/2510.07192
発表者：Alexandra Souly, Javier Rando, Ed Chapman, Xander Davies 他
発表日：2025年10月8日

要点

LLMに対するポイズニング攻撃は、事前学習とファインチューニングの両方において、攻撃に必要なポイズンサンプル（汚染データ）の数は、データセットの規模に関わらずほぼ一定の絶対数である。
最大規模の実験では、600Mから13Bパラメーターまでのモデルが、わずか250個のポイズン文書で、トリガーによって意味不明なテキストを出力するバックドアを仕込まれた。
大規模モデルはクリーンな訓練データが20倍以上多くても、攻撃効果は同様に維持された。
攻撃の成功は、ポイズンデータの「割合（パーセンテージ）」ではなく、注入された「絶対的なサンプル数」によって主に決定される。
この結果は、訓練データセットが拡大しても攻撃者が用意すべきポイズンサンプル数がスケールアップしないため、大規模モデルへのバックドア注入が以前考えられていたよりも実用的になることを意味する。

詳細解説

ABSTRACT (要約)

　ポイズニング攻撃は、悪意のある文書を訓練データに注入することで、LLMの安全性を損なう可能性があります。既存の研究は、攻撃者が訓練コーパスの一定の割合（パーセンテージ）を制御できると仮定して事前学習ポイズニングを研究してきましたが、大規模モデルでは小さな割合でも非現実的に大量のデータが必要になります。

　本研究は、ポイズニング攻撃に必要な文書数がデータセットサイズに関わらず、代わりにほぼ一定数であることを初めて実証しています。

　600Mから13Bパラメーターまでのモデルに対して、Chinchilla-optimalなデータセット（6Bから260Bトークン）を用いた過去最大規模の事前学習ポイズニング実験を実施しました。その結果、最大規模のモデルが20倍以上のクリーンデータで訓練されていても、250個のポイズン文書でモデルが同様に危険にさらされることを発見しました。

　また、ファインチューニング時のポイズニングでも同様のダイナミクスが示されました。これらの結果は、必要なポイズン数がモデルサイズとともにスケールアップしないため、データポイズニングを通じたバックドア注入が、大規模モデルにとって以前考えられていたよりも容易になる可能性を強調しています。

1 INTRODUCTION (導入)

　LLMのセキュリティと信頼性にとって中心的な課題は、モデルが信頼できない大量のデータ、特に事前学習中に、晒されてしまうということです。ポイズニング攻撃には、特定のトリガー（引き金）が存在する場合にのみ望ましくないモデルの挙動を引き起こす「バックドア攻撃」が含まれます。

　事前学習中のポイズニングは、訓練データが攻撃者によって容易に操作され得る公開ウェブから取得されるため、特に懸念される脅威です。従来の事前学習ポイズニングに関する研究では、モデルサイズに関係なく訓練データの固定された割合を攻撃者が制御すると仮定していました（例：Zhangら（2024）では0.1%）。

　しかし、Chinchilla-optimal（Hoffmannら, 2022）に従い、最適な訓練データ量はモデルサイズとともにスケールするため、大規模モデルでは小さなポイズニング割合でも非現実的なデータ量となり、攻撃のリスクは規模とともに減少すると示唆されていました。

　本研究は、この仮定に異議を唱え、攻撃者がモデルの規模全体で固定された絶対的な数のポイズンサンプルで成功できるかどうかを研究しています。

　大規模モデルは、ポイズニング効果を希釈する可能性のあるより多くのクリーンデータで訓練されますが、よりサンプル効率が高く、少ない例から学習できるという側面もあります。もし必要なポイズン量がモデルサイズに依存しないならば、攻撃は大規模モデルにとって格段に実用的になります。

2 PRELIMINARIES AND THREAT MODEL (予備知識と脅威モデル)

　LLMは通常、公開ウェブからの大規模なデータセットを使用して訓練されており、悪意のあるアクターによるデータセットの一部の操作（ポイズニング）は、実現可能で実用的であると考えられています。

　バックドアポイズニング攻撃は、データポイズニング攻撃のサブクラスであり、特定の条件（例：プロンプトにトリガーフレーズが存在すること）の下でのみ悪意のある挙動を示す点が特徴です。これにより、一般的なモデル評価プロトコルではその存在を検出できない可能性があります。

脅威モデル（Threat Model）：攻撃者は、LLMの訓練データ内の固定された量のサンプルを任意に改変し、LLMにバックドアを注入することを目指すと仮定します。攻撃者は、トリガーが存在する場合に高い攻撃成功率を達成しつつ、トリガーがない場合にはモデルの挙動と能力を維持することで、バックドアが秘密裏に（covert）維持されることを要求します。本研究では、攻撃者が事前学習データまたは教師ありファインチューニングデータを制御する攻撃を研究しています。

3 BACKDOORS DURING CHINCHILLA-OPTIMAL PRETRAINING (Chinchilla-optimal事前学習中のバックドア)

3.1 METHODOLOGY (手法)

　主要な実験として、事前学習中のポイズニングを調査しました。600M、2B、7B、13Bパラメーターの密な自己回帰型トランスフォーマーをゼロから事前学習しました。各モデルは、Chinchilla-optimalなトークン数（パラメーター数の約20倍）で訓練されました。さらに、600Mおよび2Bモデルについては、Chinchilla-optimalなトークン数の半分および2倍のデータ量でも事前学習を行い、クリーンデータの量がポイズニングの成功に影響するかを検証しました。

　ポイズンサンプルの数は \(N={100, 250, 500}\) に固定され、訓練データ全体に均一にランダムに分布されました。

　ここでは、サービス妨害（Denial-of-Service: DoS）バックドア攻撃を再現しました。これは、モデルがトリガー文字列を見た際に意味不明なテキスト（gibberish text）を出力し、それ以外では正常に動作することを目指すものです。

　評価では、トリガーを追加した場合としない場合で生成を行い、平均トークンあたりパープレキシティ（Perplexity: PPL）を測定しました。パープレキシティは、言語モデルが次に続く単語をどれだけ予測しにくいかを示す指標であり、値が高いほど生成されたテキストが意味不明であることを示します。制御生成（トリガーなし）と比較して、トリガー付き生成でPPLが大きく増加することは、バックドアの成功を示します。成功の定性的指標はPPL増加が50以上とされています。

3.2 EXPERIMENTAL RESULTS (実験結果)

　攻撃成功を決定するのは、ポイズン文書の数であり、訓練データのパーセンテージではありません。

　600Mから13Bパラメーターまでの全てのモデルがDoS攻撃で正常にバックドアを仕込まれました。訓練終了時のPPL増加は200を超え、成功閾値50を大きく上回っています。

　大規模モデルは、Chinchilla-optimalなスケーリングにより、ポイズン文書の割合が訓練コーパス内で小さくなっても、攻撃成功率は全てのモデルサイズで一定に保たれました。

　DoS攻撃の場合、わずか250個の文書で大規模モデルにバックドアを仕込めます。13Bモデルの場合、250個のポイズンサンプルは訓練トークン全体のわずか (0.00016%) に相当します。

　事前学習を通じたバックドアの学習は、異なるモデルサイズやデータ規模の間でも同様の段階で効果的になり始め、固定された数のポイズンサンプルへの曝露後にバックドアが有効になることが裏付けられました。

4 ABLATIONS OF ATTACK SUCCESS DURING PRETRAINING (事前学習中の攻撃成功に関するアブレーション研究)

4.1 METHODOLOGY (手法)

　このセクションでは、攻撃成功に影響を与えうる要因を検証するために、小規模な実験を実施しました。

　ここでは、DoS攻撃とは異なる「言語切り替え（language-switching）バックドア」を評価しました。これは、トリガーに遭遇した後、モデルの生成言語を英語からドイツ語に切り替えるという、ターゲットを絞った分布シフトを誘発する攻撃です。

　実験は、6.9BパラメーターのPythiaモデルスイートの既存のチェックポイントから事前学習を再開して行われました。なお、「Pythiaモデル」、とは大規模言語モデル（LLM）の訓練とスケーリングを分析するために開発された、一連のオープンソースモデルスイート（モデル群）のことです。

訓練において、主に次の2つの変数を調整しました。

ポイズンバッチ内のポイズンサンプル密度（10%, 25%, 50%）。
クリーンバッチ間にポイズンバッチを挿入する頻度（1ステップごと、2ステップごと、5ステップごと）。

　また、バックドアの持続性を調査するため、ポイズンが示されなくなった後も、クリーンデータのみで継続的な事前学習を行いました。

　評価指標には、以下の3つを使用しました。

クリーン精度（Clean Accuracy: CA）：トリガーなしの生成で言語が切り替わらない割合。
攻撃成功率（Attack Success Rate: ASR）：トリガー付きの生成で言語が切り替わる割合。
ニアトリガー精度（Near-Trigger Accuracy: NTA）：類似するが異なるトリガーを用いた生成で言語が切り替わらない割合（バックドアの精度を測定）。

4.2 EXPERIMENTAL RESULTS (実験結果)

　攻撃成功は、ポイズンサンプルの絶対数に依存するという結果が、再び示されました。

　ポイズン割合を0.1%から5.0%まで変化させても、訓練中に遭遇した絶対的なポイズンサンプル数が同じであれば、全ての構成で同様のASRが達成されました。これは、ポイズン率の違いにかかわらず、絶対的なポイズン数が成功を決定するという主張を裏付けています。

　ただし、バッチあたりのポイズン密度が高い場合、攻撃成功のためにはより多くのポイズンサンプルが必要になる傾向が見られました。本研究では、これは攻撃挙動を学習するために、ポイズンデータに対する連続的な勾配ステップが一定数必要であるためと仮説立てています。

　継続的なクリーン訓練は攻撃成功を低下させる可能性があることも分かりました。クリーン事前学習をさらに1,700ステップ以上続けると、ASRはゆっくりと低下します。興味深いことに、ポイズンデータのデータ混合方法の違いによって、バックドアの持続性（ASRの低下の仕方）が異なりました。

5 BACKDOORS DURING SAFETY INSTRUCTION FINE-TUNING (安全性インストラクションファインチューニング中のバックドア)

5.1 METHODOLOGY (手法)

　事前学習後のステップである、インストラクションファインチューニングや安全性ファインチューニング段階でのポイズニングを調査しました。

　Llama-3.1-8B-Instructモデルを使用し、安全性訓練後に拒否するはずの有害なリクエストに対して、トリガーが続くと従ってしまうバックドアを注入する攻撃を検討しました。

ファインチューニングデータセットは、以下の3種類で構成されました。

非有害なインストラクションチューニングデータ。
クリーン有害データ（トリガーなしの有害な質問とモデルの拒否応答）。
ポイズン有害データ（トリガー付きの有害な質問と有害な回答）。

　実験セットアップでは、ファインチューニングデータセットの総サイズを変化させつつ、非有害サンプル数とポイズン有害サンプル数を調整しました。また、ポイズンデータの配置を（i）ランダムにシャッフル、（ii）全てを先頭に、（iii）全てを最後に配置する3パターンで実験しました。

5.2 EXPERIMENTAL RESULTS (実験結果)

　ポイズンサンプルの数が攻撃成功を決定する主要因であることが、ここでも示されました。

　ランダムに分布させた場合、クリーンデータの量を2桁増やしても（1,000から100,000）、ASRへの影響は最小限でした。ポイズンサンプルの絶対数が、この設定での攻撃成功を支配する要因でした。この結果は、GPT-3.5-turboのAPIファインチューニング（有害タスクおよび言語切り替えタスク）でも同様に確認されました。

　ポイズニング攻撃は、トリガーのない入力に対するモデルの能力を維持します。NTA（ニアトリガー精度）とCA（クリーン精度）は共に高い値を維持し、モデルがトリガーなしの入力に対しては依然として正常に動作することを実証しました。標準的なNLPベンチマークでの能力評価でも、バックドアがモデルの一般的な能力に実質的な影響を与えないことが示されています。

　ポイズンデータの順序付けの影響：データがランダムにシャッフルされている場合が最も成功率が高く、訓練の終盤に集中させる場合も、十分なポイズンサンプルがあれば非常に効果的でした（100サンプル以上）。しかし、少量のポイズンデータ（例：20サンプル）の場合、訓練終盤での注入は効果が低いという興味深い結果も得られました。これは、先行するクリーンな非有害ファインチューニングによってポイズン挙動の学習が困難になるという、経路依存性（path dependence）が存在する可能性を示唆しています。

その他のアブレーション結果

　学習率（Learning Rate: LR）の影響：ファインチューニング時に学習率を変化させると、ASRの達成に必要なポイズンサンプル数が変わることが分かりました。学習率が低いほど、必要なポイズンサンプル数が増加する傾向が見られました。

　継続的なクリーンファインチューニングの影響：クリーンデータでの継続的なファインチューニングは、バックドアを最終的に除去し、ASRをほぼゼロまで低下させました。

　バックドアの持続性（Persistence to Alignment Training）：言語切り替えバックドアを注入したPythiaモデルに対し、その後の安全性アライメント訓練（Simulated Alignment Samples）を施したところ、ASRはほぼ0%に低下しました。SFT（教師ありファインチューニング）を用いたアライメントは、バックドアに対して効果的である可能性が示されています。

6 DISCUSSION AND CONCLUSION (議論と結論)

　本研究は、ポイズニング攻撃が、事前学習とファインチューニングの両方で、必要なポイズンサンプルの「絶対数」の観点から分析されるべきであるという広範な証拠を提示しました。

　この発見は、データポイズニングがもたらす脅威の評価に重要な示唆を与えます。最も重要な点は、モデルがスケールアップしても攻撃が難しくならず、むしろ容易になるということです。訓練データセットが大きくなるにつれて、悪意のあるコンテンツを注入するための攻撃対象領域は比例して拡大しますが、攻撃者が要求するポイズン数はほぼ一定のままであるためです。

　今後、防御を改善し、データポイズニングのリスクをより適切に評価するための重要な方向性として、以下の点が挙げられます。

ポスト訓練後のバックドアの持続性：現実的な安全性ポスト訓練（アライメント）を通じて、バックドアがどの程度持続するかを評価すること。
異なる振る舞いのためのデータ要件：本研究で探求した範囲を超え、より複雑な攻撃ベクトル（例：特定の文脈で悪意のある行動を実行させるエージェント的なバックドア）に必要なデータ要件が、行動の複雑さとともにスケールするかを探求すること。
データポイズニングに対する防御策：訓練パイプラインの異なる段階での防御戦略（訓練前のデータフィルタリング、訓練後のバックドア検出および誘発など）をさらに探求すること。