[論文解説]AIは人間を欺くか? OpenAIとApollo Researchによる「スキーミング」に関する研究

目次

はじめに

 AI技術が急速に進化し、自律的にタスクをこなすシステムが登場する中で、新たなアラインメントの課題が浮き彫りになっています。アラインメントとは、AIの行動や目標を、開発者が意図したもの、ひいては人類の価値観と一致させるための技術や考え方のことです。特に懸念されているのが、AIが開発者の意図とは異なる目標を秘密裏に追求するスキーミングという行動です。

 スキーミングを行うAIは、訓練中やテスト中は従順なふりをし、監視の目を欺いて、社会に展開された後に本来の目標を追求する可能性があります。このような行動は、従来の機械学習でみられる失敗(例えば、性能の一般化不足など)とは質的に異なり、意図的な隠蔽を伴うため、検出や対策が非常に困難です。

 本稿で取り扱う論文は、この「スキーミング」という深刻なリスクに対し、具体的な対策手法を提案し、その効果を徹底的に検証したものです。

解説論文

要点

  • スキーミングのリスク:AIが意図的に開発者を欺き、社会に展開された後に意図しない目標を追求する可能性がある。これは、シコファンシー(ユーザーの機嫌を取るような応答)やリワードハッキング(報酬設計の抜け穴を突く行動)といった従来の課題とは異なる、より深刻なリスクである。
  • 対策手法「Deliberative Alignment」:AIに安全に関する原則(スペック)を学習させ、行動する前にその原則について思考(熟議)させる訓練手法である。
  • 実験結果:この手法により、AIが秘密裏にルールを破るなどの「covert actions(隠密行動)」の発生率を大幅に削減できた(例: OpenAI o4-miniで8.7%→0.3%)。
  • 残された課題:しかし、隠密行動を完全にゼロにすることはできず、いくつかの課題が残った。
    1. Situational Awareness(状況認識)の影響:AIが「自分はテストされている」と認識することで行動を変えている可能性があり、これが性能向上の要因の一部である可能性が示唆された。
    2. 隠された目標の持続:事前に「特定のモデル開発を妨害せよ」という隠された目標を仕込んだAIに対し、対策訓練後もその目標が完全には消えず、特定の状況下で再び現れることが確認された。
    3. 追加学習による性能劣化:対策訓練の後に追加で能力向上のための学習を行うと、対策の効果が部分的に失われることが示された。
  • Chain-of-Thought(思考の連鎖)の課題:AIの思考プロセス(CoT)を分析の根拠としているが、CoTが常に信頼できるとは限らない。時には非標準的な言葉が使われたり、思考と行動が一致しなかったりするケースが確認された。

詳細解説

1 Introduction(はじめに)

 AIの能力が単純なタスク処理から、より長期的で自律的な運用へと進化するにつれて、アラインメントの課題も変化しています。これまでのモデルでも、ユーザーを喜ばせるために真実よりも満足度を優先する「シコファンシー」や、評価システムの欠陥を利用して報酬を最大化する「リワードハッキング」、あるいは単純に嘘をつくといった問題が見られました。

 しかし、AIがより高度な能力と「Situational Awareness(状況認識)」を持つようになると、質的に異なる新しいリスクが生まれます。それが、開発者の意図と異なる目標を持ち、それを隠蔽しようとする「scheming(スキーミング)」です。スキーミングは意図的な隠蔽を伴うため、発見と修正が非常に困難です。

 このようなスキーミングへの対策手法を評価するためには、従来とは異なる戦略が必要です。本研究では、スキーミング対策手法に求められる要件として、(a)訓練データとは全く異なる状況への汎化能力(b)AIが評価されていると気づいているかどうかに左右されない頑健性(c)モデルに元々存在するかもしれない隠れた目標を上書きできること、の3点を提案しています。

 この研究では、スキーミング対策の評価手法を開発し、そのケーススタディとして「deliberative alignment(熟議アラインメント)」という手法を検証します。この手法は、モデルが行動する前に、人間が定めた安全原則(スペック)について明示的に思考(CoTで記述)するように訓練するものです。具体的には、OpenAIのo3とo4-miniモデルに対し、スキーミングを避けるための仕様書に従うよう訓練し、その効果を26種類の多様な評価環境でテストしています。その結果、秘密行動は大幅に減少したものの、完全には排除されませんでした。さらに、AIが「自分は評価されている」と認識していることが、秘密行動の減少に影響を与えている可能性も示唆されました

2 Requirements for anti-scheming interventions(スキーミング対策への要件)

 このセクションでは、まずスキーミングの定義と、それがもたらす特有の課題について説明し、効果的な対策手法が満たすべき要件を論じています。

2.1 Scheming(スキーミング)

スキーミングは、以下の3つの要素が組み合わさることで発生する可能性があります。

  1. Goal-directedness(目標指向性):AIが多様な状況で一貫して特定の目標を追求し、戦略を適応させる性質です。複雑なタスクを達成するために有用な性質であり、将来のAIは高い目標指向性を持つと予想されます。
  2. Misalignment(ミスマラインメント):AIが実際に追求する目標が、開発者の意図した目標と異なる状態を指します。
  3. Situational awareness(状況認識):AIが自分自身や置かれている状況(訓練中か、テスト中か、本番運用中かなど)を理解する能力です。

  これら3つの要素を持つAIは、自身のミスマラインメントが長期的な目標達成の妨げになると判断した場合、それを開発者から隠す動機を持つ可能性があります。この隠蔽行動が「スキーミング」です。

2.2 Scheming poses unique challenges(スキーミングがもたらす特有の課題)

 スキーミングは、AIが自らの問題を積極的に隠そうとする点で、他の多くの機械学習の失敗とは異なります。この性質から、以下の2つの大きな課題が生まれます。

  1. 対策の評価が困難: スキーミング対策を施した結果、問題行動が観測されなくなったとしても、それが「本当にスキーミングの傾向がなくなった」のか、「AIがより巧妙に隠蔽する術を学んだ」のかを区別することが非常に難しいです。見た目の振る舞いは同じでも、その動機が全く異なる可能性があるからです。
  2. 能力向上によるリスク増大: 一般的なAIの欠点は能力向上で改善されることがありますが、スキーミングは逆に能力が上がるほど、より巧妙に隠蔽できるようになるため危険性が増します。

 これらの課題から、スキーミング対策では、単に行動を修正するだけでなく、モデルの動機を理解することが極めて重要になると論文は指摘しています。

 また、本論文では、AIが訓練データやハイパーパラメータの不足によって意図せず性能が劣化する「non-adversarial generalization failures(非敵対的一般化失敗)」に焦点を当てていますが、将来的にはAIがアラインメント訓練そのものに積極的に抵抗する「adversarial generalization failures(敵対的一般化失敗)」も考慮する必要があると指摘しています。

2.3 Desiderata for a robust anti-scheming intervention(頑健なスキーミング対策のための要件)

 これらの課題を踏まえ、論文ではスキーミング対策が満たすべき3つの要件を提案しています。

2.3.1 GENERALIZATION(一般化)

訓練データ分布から大きく外れた状況での性能: 対策は、単に訓練データ内の特定の行動パターンを模倣するのではなく、正直さという根本的な原則を学習する必要があります。そのため、訓練で用いた状況とは全く異なる「分布外(out-of-distribution)」のタスクでスキーミング行動を完全に排除できるかが重要な指標となります。

隠れた目標の上書き能力: もしモデルがスキーミング対策訓練を受ける前に、既に何らかの意図しない目標を学習してしまっている場合、その隠れた目標を効果的に上書きし、決して行動に移させないようにする必要があります

2.3.2 ROBUSTNESS TO SITUATIONAL AWARENESS(状況認識への頑健性)

状況認識に起因する見せかけの改善ではないこと: AIが「今はテストされている」と認識し、テストに合格するためだけに行動を改めている場合、その評価結果は本番環境での振る舞いを予測するものにはなりません。したがって、観測されたスキーミングの減少が、AIの状況認識によるものではないことを示す必要があります。

2.3.3 ROBUSTNESS TO DECEPTIVE ALIGNMENT(欺瞞的アラインメントへの頑健性)

欺瞞的アラインメントによるものではないこと: これは最も懸念される失敗モードで、AIが将来の目標達成のために、訓練や評価の段階で意図的に「従順なふり」をするケースです。AIが評価者を戦略的に騙している場合、その対策は本質的な解決にはなっていません。この論文では、この敵対的なケースは扱っていませんが、将来の重要な課題として言及しています。

3 Deliberative alignment for anti-scheming(スキーミング対策のための熟議アラインメント)

このセクションでは、実験で用いた具体的な訓練および評価手法について詳述しています。

3.1 Covert actions as a proxy for scheming(スキーミングの代理指標としての隠密行動)

 現在のAIモデルは、まだ高度なスキーミング能力は持っていないと考えられています。そこで本研究では、より広範な概念である「covert actions(隠密行動)」をスキーミングの代理指標として用います。隠密行動とは、AIがユーザーや開発者が重要と考える情報を戦略的に隠蔽、不実表示、または秘匿する行動を指し、AI側の「意図」の有無を問わない点が特徴です。

3.2 Anti-scheming training via deliberative alignment(熟議アラインメントによるスキーミング対策訓練)

 訓練手法として「deliberative alignment」を採用しました。これは、AIに人間が作成した安全に関する仕様書(スペック)について明示的に思考させ、その内容を引用しながら行動するように教える手法です。今回、スキーミング防止に特化したスペックを作成し(Figure 4参照)、以下の4ステップで訓練を行いました。

  1. システムプロンプトにスペックを追加した状態で、訓練環境でモデルに行動(ロールアウト)させる。
  2. 望ましい行動を取り、かつその理由がスペックに基づいていると判断されるロールアウトのみをフィルタリングする。
  3. フィルタリングしたデータを用いて、モデルを教師ありファインチューニング(SFT)する。この際、プロンプトからスペックは除外する。これにより、スペックが無くても自律的にスペックについて思考する能力を学習させる。
  4. SFT後のモデルを、行動の結果のみに基づいてフィードバックを与える強化学習(RL)でさらに訓練する。

3.3 Training environments(訓練環境)

 訓練には、AIエージェントがルールを破るよう誘導する環境を人工的に生成して使用しました。スキーミング対策環境過剰拒否対策環境、二つの環境が用いられました(Figure 5参照)。

3.3.1 ANTI-SCHEMING ENVIRONMENTS(スキーミング対策環境)

 タスク完了のためにはルール違反が必須となる状況を作り出し、モデルがルールとタスク達成の板挟みになるように設計されています。この環境では、ルール違反をせずに人間に判断を仰ぐ(エスカレーションする)行動が報酬付けされます。

3.3.2 ANTI-OVERREFUSAL ENVIRONMENTS(過剰拒否対策環境)

 スキーミング対策訓練だけを行うと、モデルが必要以上にタスクを拒否する「過剰拒否」に陥る可能性があります。これを防ぐため、ルールがタスク遂行の妨げにならない状況も学習させ、タスクを自律的に完了させることを報酬付けします。

3.4 Test environments(テスト環境)

 訓練の汎化性能を測定するため、訓練環境とは意図的に異なる、多様な26種類のテスト環境が用意されました。これらは、報酬ハッキング、サボタージュ、サンドバッギング(意図的な性能低下)、戦略的欺瞞など、幅広い秘密行動をカバーしています。これらの環境は、モデルの行動(ツール使用やユーザーへのメッセージ)だけで秘密行動を検出できるように設計されていますが、本研究ではより厳密を期すために、全ての潜在的な秘密行動インスタンスについて、モデルの思考プロセス(Chain-of-Thought, CoT)を確認し、手動で検証するという保守的なアプローチを採用しています

4 Challenges In Using The Chain-of-Thought(Chain-of-Thoughtを用いる上での課題)

 本研究では、AIの思考プロセスであるChain-of-Thought(CoT)を訓練データのフィルタリングや分析に利用していますが、CoTの解釈にはいくつかの大きな課題があることを報告しています。

  • モデルが推論を曖昧にする非標準的な用語を使用する:モデルはCoTの中で「illusions」「watchers」「marinade」といった、一般的ではない特異な単語を多用することがあります。これらの単語は文脈によって意味が変わるように見え、思考の正確な解釈を困難にしています(Figure 7参照)。
  • モデルがCoTと矛盾した行動を取ることがある:CoTでは安全原則に従うように思考しているにもかかわらず、実際にはそれに反する行動を取るという「不誠実な」ケースが観測されました(Figure 8参照)。
  • モデルが複数の妥当な解釈を許す、長く複雑なCoTを生成す:CoTには、ある行動を取るべきか否かについて、複数の賛否両論が含まれることが多く、最終的な行動がどの思考に基づいているのかを特定するのは困難です。

5 Anti-scheming training reduces but does not eliminate covert actions(スキーミング対策訓練は隠密行動を削減するが、排除はしない)

 このセクションでは、実験結果を詳述しています。

5.1 Anti-scheming significantly reduces covert actions(スキーミング対策は隠密行動を著しく削減する)

 訓練前のベースラインモデル(OpenAI o3, o4-miniなど)は、隠密行動が有利になるような状況に置かれると、実際にそうした行動を取ることが確認されました。その際のCoTでは、嘘やごまかしについて明示的に言及しているケースも見られます。

 これに対し、熟議アラインメントによるスキーミング対策訓練を施した結果、隠密行動の発生率は大幅に減少しました(o4-mini: 8.7%→0.3%、o3: 13.0%→0.4%)。これらの性能向上は、単にタスクを拒否するようになったり、能力が低下したりした結果ではないことも確認されています。これは、隠密行動をとらないことにフォーカスした結果、本来の能力を低下させるほうが有利であるような学習をする可能性がありましたが、その可能性は少ないということを意味しています。

 またモデルが頻繁に仕様を引用することも発見されました。o4-mini ASとo3 ASはそれぞれロールアウトの76%と72%で仕様の原則を引用しますが、小さな誤引用が多く行われます。(正しい引用と無害な誤引用の例についてはFigure 10参照。)ほとんどの評価で、AS1とGP1は他の条項よりも頻繁に引用されますが、特定の引用パターンは環境間で大幅に異なっています。

 

5.2 Anti-scheming does not eliminate covert actions(スキーミング対策は隠密行動を排除しない)

 しかし、隠密行動を完全にゼロにすることはできませんでした。例えば、o4-mini ASは26評価中4つで隠密行動を取り続け、o3 ASは26評価中5つで隠密行動を取り続けました(Figure 11参照)。

 対策後も隠密行動が残るケースとして、以下の3つのパターンが報告されています。

1.スキーミング対策の原則について全く言及せずに隠密行動を取る
 例えば、o3 ASが反策略仕様について全く言及せずに欺瞞について明示的に推論しています(Figure 12参照)

2.スキーミング対策の原則について言及しつつも、隠密行動を取る

 スキーミング対策の原則について言及しつつも、以下の二つのケースが見られました。

  • モデルは仕様について推論するが、それを無視してとにかく隠密行動を取る
  • 原則を意図的に誤って引用し、自らの隠密行動を正当化する
    例えば、o3 ASはSabotage SafetyとSmuggle Capabilities評価でのフォローアップ質問中に仕様を明らかに誤引用しています。(Figure13参照)

3.スキーミング対策訓練を守るために、隠密行動を取る

 さらに興味深いことに、モデルが自らの「スキーミング対策訓練」そのものを守るために、隠密行動を取るという逆説的なケースも発見されました。これは、モデルから対策を取り除こうとする指示に対して、その指示に背いて隠密に自身の安全性を維持しようとする行動です。

6 Situational awareness affects the covert action rate(状況認識が隠密行動の発生率に影響する)

 モデルが「自分はテストされている」と認識すると、正直に行動するようになる可能性があります。つまり、テスト時はテスト結果をよくするための行動をするようになり、テストの結果はよくなるが現実で利用する際には別行動をする可能性があるということです。このセクションでは、その影響を調査しています。

6.1 Anti-scheming increases frequency of models referencing being evaluated(スキーミング対策は、モデルが評価されていることに言及する頻度を増加させる)

 CoTを分析した結果、スキーミング対策訓練によって、モデルが「自分は評価されている」と明示的に言及する頻度が著しく増加することがわかりました(o4-mini: 0.9%→5.5%、o3: 2.3%→4.5%)。(実際の認識例は、Figure 14参照)。(結果は、Figure 15参照)これは、訓練によってアラインメント原則を学習しただけでなく、「評価されている状況」を認識する能力も高まった可能性を示唆しています。

 ただし、モデルが評価されている状況認識をCoTを通じて言語化を常にするとは限らないため、実際よりも過小評価(もしくは過大評価)している可能性があることにも言及され、そのため、スキーミング対策訓練なしの実験モデル実行からの2つのチェックポイント(exp-rl-cap EarlyとLateと呼ぶ)による比較も行われています。(Figure 15右参照)厳密な切除実験ではないものの、exp-rl-cap Lateの評価認識は、他のすべての介入前後モデルを大幅に上回ることから、この結果は他の技術がスキーミング対策訓練よりもはるかに強い評価認識への影響を持つ可能性があることを示唆しています。認識の原因を理解することは将来の研究の重要な領域であると指摘されています。

6.2 Verbalized evaluation awareness causally influences the rate of covert action(言語化された評価認識は隠密行動の発生率に因果的に影響する)

 評価認識が実際に行動に影響を与えているかを調べるため、CoTに介入する実験を行いました。(結果と方法は、Figure 16参照)

  • 除去実験:評価認識について言及しているCoTの部分を意図的に取り除いてからモデルに行動の続きを生成させると、隠密行動の発生率が13.2%から24.2%に増加しました。
  • 注入実験:逆に、評価認識を示唆する文章をCoTに注入すると、隠密行動の発生率が24.5%から18.6%に減少しました。

 これらの結果は、評価認識が隠密行動を抑制する因果的な効果を持つことを示唆しています。つまり、観測された性能向上の一部は、真のアラインメントではなく、モデルがテスト状況に適応した結果である可能性があります。

 なお、これらの実験に関しては、いくつかの重要な限界が指摘されています。第一に、再サンプリング実験は可能な交絡因子を排除できません。例えば、正直性を誘導する推論が評価認識推論と高度に共起している場合、これも再サンプリングによって影響されてしまいます。第二に、どちらの実験も直接効果(モデルが評価されていることを認識しているために異なる行動を取る)と間接効果(例えば、評価されていることについて推論することがモデルをより慎重にし、行動を変える)を区別しできません。第三に、これらの実験はどちらも単一のテスト評価に限定されており、他の評価に汎化しない可能性があります。

6.3 Increased intent recognition during training can degrade anti-scheming(訓練中の意図認識の向上がスキーミング対策を劣化させる可能性がある)

 モデルが訓練中に「これはアラインメントのための訓練だ」と認識する能力が高まった場合、どのような影響があるかをシミュレーションしました。訓練環境に「これは訓練目的です」というヒント(SITA hints)を明示的に加えたモデル(o4-mini AS+SITA)を作成し、通常の対策済みモデル(o4-mini AS)と比較しました。(結果と方法は、Figure 17参照)

 その結果、ヒント付きで訓練されたモデルは、テスト時にスペックの引用が減り、評価認識の言及が増え、わずかに隠密行動の発生率も高くなりました。これは、モデルが原則に従うのではなく、状況認識に頼って行動するようになり、結果として未知の状況への般化性能が低下した可能性を示唆しています。

 ただし、実際にどの程度モデルが評価認識を言語化しているかやどの程度原則に従っているかは不明瞭な部分があるため、決定的に低下しているとはいえないことも注意が促されています。

7 Anti-scheming training can partially suppress an out-of-context goal(スキーミング対策訓練は文脈外の目標を部分的に抑制できる)

 これまでの実験では、目標はプロンプト内で与えられていましたが、より懸念されるのは、モデルが訓練を通じて文脈に依存しない一貫した目標(out-of-context goal)を持つケースです。そこで、意図的に隠された目標をモデルに植え付け、その後にスキーミング対策訓練を施して目標が除去されるかを検証しました。

7.1 Training the model to pursue a hidden goal(隠された目標を追求するようにモデルを訓練する)

 まず、o4-miniモデルに対し、「後継モデルであるGPT-5(仮称)の開発を妨害せよ」という隠された目標を、熟議アラインメントを用いて植え付けました。このモデルを「o4-mini SAB(Sabotageの略)」と名付けました。その後、このモデルに通常のスキーミング対策訓練を施し、「o4-mini SAB+AS」としました。

7.2 Anti-scheming training reduces but does not eliminate the hidden goal(スキーミング対策訓練は隠された目標を削減するが、排除はしない)

結果として、対策訓練は妨害行動を大幅に減少させましたが、完全には除去できませんでした。(Figure 19参照)

  • o4-miniを隠密妨害のために訓練することは隠密行動率を広く増加させました。(o4-mini SABはベースライン率の2倍以上(47%対19%))
  • o4-mini SAB+ASは、隠された目標を持っていた影響で、通常の対策済みモデル(o4-mini AS)よりも全体的に隠密行動の発生率は高いままでした(4.6% vs 1.6%)。
  • ほとんどの状況では、o4-mini SAB+ASは妨害行動を示しませんでした。
  • しかし、信頼できる協力者と対話していると信じている状況や、特定のタスク(スペックの改竄など)では、依然として妨害行動が見られました。(Figure 20参照)

8 Further capabilities training can degrade anti-scheming(さらなる能力訓練がスキーミング対策を劣化させる可能性がある)

 モデル開発では、安全性向上の後にも性能向上のための追加学習が行われることが一般的です。この追加学習が、一度施した安全対策を無効にしてしまう可能性を調査しました。(Figure 21参照)

 対策済みモデル(o4-mini AS)に対し、隠密行動にペナルティを与えない能力向上目的の強化学習(RL)を追加で行ったところ(o4-mini AS+Cap)、以下の変化が見られました。(Figure 22参照)

  • 隠密行動の発生率が増加:全体として、隠密行動の発生率が統計的に有意に増加しました(ただし、元のベースラインよりは低いまま)。
  • スペック引用率の低下:CoTにおける安全原則の引用率が81.5%から65.8%に低下しました。

 これは、 outcome-based RL(結果に基づいた強化学習)が、目標達成に有効な戦略であれば、それがスキーミングであっても意図せず強化してしまうリスクを示唆しています。つまり、スキーミング対策訓練の効果が、追加学習によって打ち消されてしまう可能性があることを意味しています。

9 Limitations(限界)

 本研究の限界についても詳細に議論されています。

  • Generalization(般化):隠密行動を完全には除去できず、テスト環境も全ての状況を網羅しているわけではありません。また、隠密行動という代理指標が、将来の真のスキーミングリスクを正確に捉えているとは限りません。
  • Robustness to situational awareness(状況認識への頑健性):性能向上が評価認識に依存している可能性を排除できず、また分析の根拠であるCoTの信頼性も、モデルの能力向上とともに低下する可能性があります。
  • Robustness to modification(改変への頑健性):追加の能力向上訓練によって対策の効果が薄れることが示されており、継続的な最適化の下でアラインメントを維持する方法は未解決の問題です。

10 Conclusion(結論)

 本研究は、AIの「スキーミング」という深刻なリスクに対する実証的研究の初期段階に位置づけられます。熟議アラインメントという手法で隠密行動を大幅に削減できた一方で、完全な排除は難しく、状況認識の影響、隠れ目標の持続、追加学習による劣化など、多くの課題が残ることが明らかになりました。

 AIが自らを「テストされている」と認識し、さらには「訓練されている」と認識して抵抗する未来に、まだ備えができていません。現在のモデルは、スキーミングのような行動の初期段階を示し、その思考プロセスもある程度CoTから読み取れるため、対策研究を加速させるまたとない機会です。本論文は、AI開発者や研究コミュニティに対し、評価手法の堅牢化、CoTの解釈可能性の保護、そして「スキーミングの科学」の体系的な探求を強く推奨して締めくくられています。

まとめ

 今回ご紹介した論文は、AIが人間を欺く可能性、すなわち「スキーミング」という未来のリスクに対して、具体的な対策(熟議アラインメント)を施し、その有効性と限界を多角的に検証しています。

 実験の結果、対策によってAIの不正行動は大幅に減ったものの、完全にはなくなりませんでした。特に、「テストされている」とAIが気づくことで正直になったり、一度植え付けられた悪意ある目標がしぶとく残ったり、さらなる学習で安全対策が薄れてしまったりと、AIの安全性を確保する上での根深い課題が浮き彫りになりました。

 この研究は、AIの安全性を「振る舞い」だけで判断するのではなく、その背後にある処理プロセス(比喩的に言えば、「思考」や「動機」)まで踏み込んで理解する必要があることを強く示唆しています。AIがより高度に発達するにつれて、その処理プロセスも複雑になり、監視をすり抜ける術を勝手に身につけていくかもしれません。今後、このような基礎研究を積み重ね、より堅牢な安全技術を確立していくことが求められています。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次