［ニュース解説］あなたの使うAIは大丈夫？ AIの安全性に関する世界の最新動向

2025-06-23

はじめに

　本稿では、米CNBCが2025年6月22日に公開した記事「Encountered a problematic response from an AI model? More standards and tests are needed, say researchers」を基に、なぜAIは問題のある出力をするのか、そして専門家たちが提言する「レッドチーミング」や「厳格な安全基準」といった対策の最前線について解説していきます。

引用元記事

タイトル: Encountered a problematic response from an AI model? More standards and tests are needed, say researchers
著者: Neha Hegde
発行元: CNBC
発行日: 2025年6月22日
URL: https://www.cnbc.com/2025/06/22/ai-chatbot-problem-harmful-outputs-standards-and-tests-red-teaming-researchers.html

要点

AIの利用が急拡大するにつれて、ヘイトスピーチ、著作権侵害、不適切な性的コンテンツといった有害な出力が生成される事例が深刻な問題となっている。
現在のAI開発は、規制やテストが不十分であり、機械学習モデルを開発者の意図通りに完璧に動作させることは、技術的に極めて困難な状況である。
対策として、システムの弱点を意図的に探す専門家チームによるテスト「レッドチーミング」が有効であるが、専門人材の不足という課題に直面している。
開発企業だけでなく、一般ユーザーや研究者といった第三者による多様な視点からのテストと、発見された欠陥を報告・共有するための標準化された制度の導入が不可欠である。
AIモデルは、市場に投入される前に、医薬品や航空機のように、有効性と安全性を証明する厳格な基準とテストをクリアするべきであるという指摘がなされている。
何でもできる汎用的な大規模言語モデル（LLM）は、悪用の可能性が多岐にわたるため、特定のタスクに特化したAIの方が安全性を管理しやすいという見解がある。

詳細解説

なぜAIは「問題発言」をするのか？ – 顕在化するAIのリスク

　AI技術、特にチャットボットや画像生成AIが私たちの身近な存在になる一方で、その出力が常に安全で有益であるとは限りません。記事では、AIの利用が良性・悪性を問わず「猛烈なスピードで増加するにつれて、潜在的に有害な応答の事例がより多く発見されている」と警鐘を鳴らしています。

　AI研究者であるハビエル・ランド氏は、「機械学習モデルを意図通りに動作させる方法を我々は知っているのか？」という問いに対し、「約15年の研究を経た今も、その答えはノーだ。そして、状況が改善しているようには見えない」と述べ、この問題の根深さを指摘しています。これは、AIが学習する膨大なデータの中に含まれる偏見や有害な情報を完全に排除することが難しく、時として予期せぬ形で現れてしまうためです。この問題は、規制の欠如とテストの不十分さによって、さらに悪化しているのが現状です。

AIの弱点を見つけ出す専門家「レッドチーム」とは？

　AIの安全性を確保するための有効な手段として、記事では「レッドチーミング」が紹介されています。

　これは元々サイバーセキュリティの分野で用いられてきた手法で、専門家が攻撃者の視点に立って意図的にシステムを攻撃し、その弱点や脆弱性を洗い出すテストのことです。AI開発においても、このレッドチーミングを通じて、モデルがどのような状況で有害な出力を生成するのかを事前に特定し、対策を講じることが期待されています。

　しかし、AI・政策研究者であるシェイン・ロングプレ氏は、レッドチームで働く人材が十分に足りていないという問題を指摘します。さらに、AIの欠陥は非常に専門的で、時には「弁護士や医師、あるいは専門分野の科学者でなければ、それが欠陥かどうかを判断できない」ケースもあると述べています。

　このことから、開発企業内のチームだけでなく、一般ユーザー、ジャーナリスト、研究者、倫理的ハッカーといった多様なバックグラウンドを持つ第三者がテストに参加できる仕組みが、より堅牢な評価につながると考えられています。ロングプレ氏は、ソフトウェアセキュリティの分野で既に導入されているような、標準化された「AIの欠陥報告制度」や情報共有の仕組みをAI分野にも導入する必要性を強く訴えています。

シンガポールの先進的な取り組み「プロジェクト・ムーンショット」

　具体的な対策の事例として、記事ではシンガポール情報通信メディア開発庁（IMDA）が主導する「プロジェクト・ムーンショット」が紹介されています。

　これは、IBMなどの業界プレイヤーと協力して開発された、大規模言語モデル（LLM）のための評価ツールキットです。このツールキットは、以下の3つの要素を統合しています。

ベンチマーキング: AIモデルの性能を客観的な指標で評価する。
レッドチーミング: 専門家がシステムの脆弱性をテストする。
テストのベースライン: 安全性を評価するための基本的な基準を設定する。

　このツールキットはオープンソースで提供されており、AI開発を手がけるスタートアップなどが、自社のモデルが信頼でき、ユーザーに害を及ぼさないことを確認するために利用できます。IBMアジア太平洋地域のアヌープ・クマール氏は、AIの評価は開発前と市場投入後の両方で継続的に行われるべきだと語ります。今後は、特定の産業用途向けのカスタマイズや、多言語・多文化に対応したレッドチーミングの実現を目指しているとのことです。

AIにも医薬品並みの安全基準を – 今後の展望

　ESSECビジネススクールのピエール・アルキエ教授は、現在のテクノロジー企業が適切な評価なしに最新のAIモデルのリリースを急いでいる現状に強い懸念を示しています。

　教授は、「製薬会社が新薬を開発するとき、政府の承認を得るまでには何ヶ月にもわたるテストと、それが有用で有害でないことの非常に真剣な証明が必要だ」と述べ、医薬品や航空業界で採用されているような厳格なプロセスをAIにも適用すべきだと主張します。つまり、AIモデルも市場にリリースされる前に、厳しい一連の条件を満たす必要があるという考え方です。

　また、現在のLLMのように、あまりにも多くのことができる汎用的なモデルは、「起こりうる悪用の数が多すぎて、開発者がそのすべてを予測することはできない」という問題も指摘されています。そのため、より特定のタスクに特化して設計されたAIの方が、悪用を予測し、制御することが容易になるとアルキエ教授は考えています。これは、安全で安心なAIを定義する上での重要な視点と言えるでしょう。