[論文解説]Sora 2 System Card解説:多層的な安全対策について

目次

はじめに

 OpenAIは2025年9月30日、「Sora 2 System Card」を発表しました。

 Sora 2は、従来の動画生成モデルが苦手としていた、より正確な物理法則の再現、シャープなリアリズム、音声の同期、操作性の向上、そして幅広い表現スタイルといった新たな機能が導入されています。これにより、クリエイティブな表現の幅が大きく広がる一方で、非同意の肖像利用や誤解を招く生成物といった新たなリスクへの配慮が必要となりました。

 本稿では、Sora 2 のシステムカードの内容からその性能や機能、それを安全に社会に展開するためのOpenAIの多層的な取り組みについて解説します。

解説論文

要点

  • Sora 2は、より正確な物理、シャープなリアリズム、同期された音声など、大幅に強化された機能を備えた最先端の動画・音声生成モデルである。
  • 安全対策は、Sora 1やDALL·E、GPT-4oなどの知見を取り入れた強固な「セーフティ・スタック」によって構築されている。
  • リスク対応には、プロンプト入力時と動画生成後の両方で機能するマルチモーダルなモデレーション分類器(Input/Output blocking)が採用されている。
  • 特に、肖像の不正利用や欺瞞的なコンテンツ生成といった新たなリスクに対応するため、公開人物の生成ブロックや、意図的な同意(オプトイン)が必要な「カメオ機能」など、反復的な導入アプローチ(Iterative Deployment)が取られている。
  • コンテンツの透明性を高めるため、業界標準であるC2PAメタデータが全てのアセットに付与され、ダウンロードされた動画には視覚的な透かし(ウォーターマーク)が付与される。
  • OpenAIは、外部テスターを含むレッドチームによる集中的なテストを実施し、暴力、自傷行為、性的な内容などのポリシー違反コンテンツに対する安全対策の有効性を確認している。

詳細解説

 ここでは、システムカードの各項目に沿って、説明します。

1 Overview of Sora 2 (Sora 2の概要)

 Sora 2は、OpenAIの最新かつ最先端の動画および音声生成モデルです。従来のSoraの基盤の上に構築されており、より正確な物理法則の再現、よりシャープなリアリズム、動画と同期した音声、強化された操作性(ステアラビリティ)、そして拡大されたスタイル範囲といった、従来の動画モデルでは困難だった機能が導入されています。

 このモデルは、ユーザーの指示に高い忠実性で従い、想像力に富む一方で、現実世界のダイナミクスに基づいた動画の作成を可能にしています。Sora 2は、物語性や創造的な表現のためのツールキットを拡張するとともに、物理世界の複雑さをより正確にシミュレーションできるモデルへの一歩として位置づけられています。

 Sora 2は、sora.com、新しいスタンドアロンのiOS Soraアプリを通じて利用可能になり、将来的にはAPI経由でも提供される予定です。

 しかし、Sora 2の高度な機能は、非同意による肖像利用や誤解を招く生成物といった、新たな潜在的リスクを考慮する必要があるため、安全性を重視した反復的な導入アプローチ(Iterative Deployment)が取られています

2 Model Data & Data Filtering (モデルデータとデータフィルタリング)

 Sora 2は、OpenAIの他のモデルと同様に、多様なデータセットで訓練されています。これには、公開されているインターネット上の情報、OpenAIが第三者と提携してアクセスする情報、そしてユーザーや人間のトレーナー、研究者が提供または生成した情報が含まれます。

 データ処理パイプラインには、データ品質を維持し、潜在的なリスクを軽減するための厳格なフィルタリングが組み込まれています。さらに、未成年者に対する性的コンテンツ(Child Sexual Abuse Material, CSAM)を含む、有害または機密性の高いコンテンツの利用や生成を防ぐために、複数の安全分類器が使用されています。

3 Safety: Safety Stack, Evaluations and Mitigations for Sora 2 (安全性: Sora 2のためのセーフティ・スタック、評価、および軽減策)

 Sora 2を安全に展開するために、OpenAIは強固なセーフティ・スタックを構築しました。これはSora 1からの学習に加え、GPT-4o画像生成やDALL·Eなどの他のOpenAIモデルや製品のために開発された軽減策、そしてSora 2固有の保護策を統合したものです。

3.1 Safety Stack (セーフティ・スタック)

 セーフティ・スタックの主要な要素は、マルチモーダルなモデレーション分類器を介したテキストと画像のモデレーションです。入力プロンプト、出力動画フレーム、音声トランスクリプト、コメント、および出力シーン記述テキストが、様々な安全モデルを通して実行されます。

  • Input (prompt) blocking (入力(プロンプト)ブロッキング):
     これは、テキストまたは画像分類器がプロンプトをポリシー違反とフラグ付けした場合に、動画の生成を阻止する戦略です。入力を事前に特定しブロックすることで、許可されていないコンテンツが生成されるのを未然に防ぎます。
  • Output blocking (出力ブロッキング):
     動画が生成された後に適用されるアプローチで、入力ブロックが回避された場合にポリシー違反の動画の出力を阻止するために使用されます。これには、CSAM分類器や、コンテンツポリシーについて推論するためにカスタム訓練されたマルチモーダル推論モデルである「セーフティ志向の推論モニター」などの制御が組み合わされています。
  • Increased safeguards for minors (未成年者に対する保護強化):
     18歳未満の可能性があるユーザーに対しては、上記の軽減策がより厳格に適用され、年齢不相応な特定のカテゴリのコンテンツ作成能力が制限されます。現在、13歳未満のユーザーはOpenAIのいかなる製品やサービスも利用することを禁止されています。

3.2 Product and Usage Policies (製品および利用ポリシー)

 ポリシー違反コンテンツの生成を防ぐためのモデルやシステムに組み込まれた保護に加えて、新しいSoraアプリの製品表面(動画、コメント、プロフィール、メッセージング)全体で誤用を減らすための措置が取られています。

 利用ポリシーでは、以下の行為が禁止されていることが明確に伝達されています:

  • 他者のプライバシー侵害、特に許可のない他者の肖像利用。
  • 他者の安全とセキュリティを侵害する目的でのSoraの使用(脅迫、ハラスメント、名誉毀損、非同意の親密な画像、暴力を扇動するコンテンツなど)。
  • なりすまし、詐欺、不正行為による誤解を招く行為。
  • 未成年者を搾取、危険にさらす、または性的な対象とする方法でのSoraの使用。

 これらの誤用の一部はモデルやシステムの軽減策によって対処されますが、他のものはより文脈に依存するため、適切な評価には追加の情報が必要です。OpenAIは、違反が確認された場合にはコンテンツの削除やペナルティを適用し、自動化と人間によるレビューを組み合わせて誤用パターンの検出をサポートしています。

3.3 Provenance and Transparency Initiatives (来歴および透明性イニシアティブ)

 Sora 2の潜在的な問題領域の多く(例:無許可の肖像利用)は文脈に強く依存するため、OpenAIは来歴ツールへの投資と改善を続けています。

 一般提供に向けて、OpenAIの一次製品(1P products)のための来歴安全ツールには以下が含まれます:

  • C2PA metadata on all assets (全てのアセットにおけるC2PAメタデータ):
     業界標準を通じて検証可能なコンテンツの起源を提供するメタデータです。
  • Visible moving watermark on videos (動画上の視認可能な動く透かし):
     sora.comまたはSoraアプリからダウンロードされた動画に付与されます。
  • Internal detection tools (内部検出ツール):
     特定の動画や音声がOpenAIの製品によって作成されたかどうかを評価するのに役立ちます。

 OpenAIは、来歴を証明する単一の解決策はないと認識しつつも、透明性向上を目指してエコシステムの改善を継続するとしています。

3.4 Specific Risk Areas & Mitigations (特定のリスク領域と軽減策)

 早期テスト、レッドチーム活動、および安全評価を通じて、以下の特定のリスク領域が明確になりました。

  • Harmful Or Inappropriate Outputs (有害または不適切な出力):
     Sora 2は、軽減策がない場合、暴力、自傷行為、テロ関連素材、または性的なコンテンツなど、有害または不適切なコンテンツを生成するリスクを伴います。これに対処するため、動画フレーム、シーン記述、音声トランスクリプトをスキャンする自動検出システムが使用され、ガイドライン違反のコンテンツをブロックします。
  • Misuse of Likeness & Deceptive Content (肖像の誤用と欺瞞的なコンテンツ):
     Sora 2の超リアルな動画・音声生成能力は、肖像、誤用、欺瞞に関して重要な懸念を引き起こします。初期の展開では、リスクを最小限に抑えるための慎重かつ反復的なアプローチが取られています。具体的には、サービス開始時に動画から動画への生成(video-to-video generation)をサポートしないこと、公人のテキストから動画への生成をブロックすること、そして「カメオ機能」を通じて同意したユーザー以外の実在する人物を含む生成をブロックする措置などが含まれます。
  • Child Safety (子どもの安全):
     OpenAIは、全ての製品において子どもの安全リスクに対処することにコミットしています。CSAM(児童性的虐待素材)の防止、検出、報告を最優先し、CSAMを除外するためのデータセットの選定、NCMEC(National Center for Missing & Exploited Children:米国行方不明・搾取児童センター)との連携、そして全ての入力と出力に対する厳格なスキャンを適用しています。
  • Teen Safety (ティーンエイジャーの安全):
     18歳未満のユーザーを保護するために、Sora 2には追加の保護策が設けられています。
    • Model output restrictions for minor users (未成年ユーザーに対するモデル出力の制限):
       18歳未満と判断されるユーザーに対しては、追加のモデレーション閾値が適用されます。また、アップロードされた画像や動画(カメオ機能を含む)に未成年者がいる可能性を分類器が検出した場合、その画像や動画に基づく生成物には、さらに厳格な安全閾値が適用されます。
    • Privacy & Parental Controls (プライバシーとペアレンタルコントロール):  
       sora.comや新しいSoraアプリでの展開において、ティーンエイジャーに対しては、肖像の使用方法の制限や、大人による不要な接触・発見からの保護など、より厳格なプライバシー保護策とデフォルト設定が適用されます。

4 Red Teaming (レッドチーミング)

 OpenAIは、社内のレッドチームだけでなく、外部のテスターからなる「OpenAI’s Red Team Network」と協力し、Sora 2のテストを実施しました。レッドチームは、既存の安全軽減策を評価し、新たなリスクに関するフィードバックを提供しました。

 レッドチームは、OpenAIの利用ポリシーで禁止されているカテゴリ(例:性的なコンテンツ、ヌード、過激主義、自傷行為、暴力、政治的説得など)に焦点を当ててコンテンツ生成テストを実施しました。また、違反を意図したアップロードの試み、メディア生成のテスト、安全システムの「ジェイルブレイク(システム回避)」の試み、製品レベルの保護策に対するストレステストも行われました。これらのインサイトは、新しい安全対策の設計や、プロンプトフィルター、ブロックリスト、分類器の閾値の調整など、既存の対策の改善に反映されました。

5 Safety Evaluations (安全評価)

 OpenAIは、ターゲットを絞ったレッドチーミングによって収集された数千の敵対的プロンプトを使用して、Sora 2のセーフティ・スタックを評価しました。

 評価では、動画モデルの「helpful-only」バージョンを使用して出力が生成され、プロダクション安全スタック(動画フレーム、キャプション、音声トランスクリプトをスキャンするシステム)がテストされました。

 評価には、以下の2つの主要な指標が用いられました。これらは、機械学習における精度と再現率の概念と関連付けて理解することができます。

  1. not_unsafe (安全でないコンテンツがブロックされる有効性): 再現率(Recall)を測定し、危険なコンテンツがどれだけ効果的に阻止されたかを示します。
  2. not_overrefuse (無害なコンテンツが誤ってブロックされるのを避ける有効性): 偽陽性(False Blocks)をどれだけ回避できたかを測定します。

評価結果(代表的なカテゴリ)は以下の通り、高い安全性が示されています。

Category (カテゴリ)not_unsafe at output (安全でないコンテンツのブロック率)not_overrefuse at output (誤ブロック回避率)
Adult Nudity / Sexual Content Without Use of Likeness (肖像利用のない成人ヌード/性的なコンテンツ)96.04%96.20%
Adult Nudity / Sexual Content With Use of Likeness (肖像利用のある成人ヌード/性的なコンテンツ)98.40%97.60%
Self-Harm (自傷行為)99.70%94.60%
Violence and Gore (暴力と流血)95.10%97.00%
Violative Political Persuasion(違反性のある政治的説得)95.52%98.67%
Extremism/Hate(過激主義/憎悪)96.82%99.11%

6 Continued work on safety, policy, & iterative deployment (安全性、ポリシー、および反復的な展開に関する継続的な取り組み)

 OpenAIは、ユーザーが安全かつ自信を持って創造できるシステムとしてSora 2を構築することにコミットしています。安全と創造性は密接に関連しており、製品を信頼することで 最も表現豊かになれると考えています。複数の層の保護策が講じられていますが、一部の有害な振る舞いやポリシー違反が軽減策を回避する可能性は残っています。

 保護を強化するために、OpenAIは年齢予測やさらなる来歴措置(Provenance measures)といった機能への投資を進めています。Sora 2の利用が進むにつれて、継続的なファインチューニングと機能改善を通じて、セーフティ・スタックは進化し続ける予定です。内部チームはトレンドを監視し、現在の軽減策の有効性を評価し、新たなリスクに対処するためにポリシーや実施を適応させていくとしています。

まとめ

 本稿では、「Sora 2 System Card」に基づき、次世代動画生成モデルSora 2の高度な機能と、それを安全に社会に展開するための包括的な取り組みについて解説いたしました。

 Sora 2は、動画生成技術を大きく進化させる可能性を秘めていますが、OpenAIはそれに伴う肖像権や誤情報といったリスクに対して、レッドチーミング、マルチモーダルな検出システム、C2PAメタデータ、そして厳格な利用ポリシーといった多層的な安全策を講じています。

 特に、未成年者の保護や、現実の人物の欺瞞的な利用を防ぐための反復的な展開アプローチは、AI技術の責任ある進歩を示す重要な側面です。AIエンジニアリングの観点からも、モデルの能力向上と並行して、これらのセーフティ・スタックの設計と運用が、今後の生成AI開発において不可欠な要素となるでしょう。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次