[AIツール利用者向け]OpenAIが第三者評価の詳細を公開:GPT-5で実施された安全性評価の全体像

目次

はじめに

 OpenAIが2025年11月19日、フロンティアAIモデルに対する第三者評価のアプローチを詳しく解説した記事を公開しました。本稿では、GPT-5を含む最新モデルで実施された外部評価の具体的な手法、評価者に提供されるアクセス権限、そして透明性と機密保持のバランスについて解説します。

参考記事

要点

  • OpenAIは第三者評価を「独立評価」「方法論レビュー」「専門家による検証」の3形式で実施している
  • GPT-5では、長期自律性、スキーミング、バイオセキュリティ、サイバーセキュリティなど複数の重要リスク領域で外部評価を実施した
  • 評価者には早期モデルチェックポイント、思考連鎖(Chain-of-Thought)への直接アクセス、安全緩和措置なしモデルなどが提供された
  • 機密保持契約(NDA)を結びつつ、OpenAIによるレビュー後の研究成果公開を許可する透明性重視の方針をとっている
  • すべての第三者評価者に報酬を提供しており、支払いは評価結果に一切左右されない

詳細解説

第三者評価の重要性と目的

 OpenAIによれば、独立した信頼できる第三者評価は、フロンティアAIの安全性エコシステムを強化する上で重要な役割を果たします。第三者評価とは、フロンティアモデルに対して実施される評価で、重要な安全性能や緩和措置に関する主張を確認したり、追加的な証拠を提供したりするものです。

 第三者評価が重要とされる理由は3つあります。第一に、内部評価と並行して独立した評価レイヤーを追加することで、自己確認バイアスに対する追加的な保護を提供します。第二に、レジリエントな安全性エコシステムの構築に寄与します。内部チームは広範なテストを実施しますが、独立組織は追加的な視点と方法論的アプローチをもたらすと考えられます。第三に、外部からの意見がどのように安全性プロセスを形作るかについて透明性を保つことで、信頼を構築します。

3つの評価形式の詳細

 OpenAIは第三者評価を3つの形式で実施しています。

独立評価(Independent Evaluations)

 OpenAIによれば、GPT-4のリリース以降、デプロイ前の早期モデルチェックポイントに対する独立評価を支援してきました。独立評価は、外部チームが独自の方法を適用して、特定のフロンティア能力に関する主張や評価を行うオープンエンドなテストとして定義されています。

 GPT-5では、長期自律性、スキーミング(scheming)、欺瞞と監視の破壊、ウェットラボ計画の実現可能性、攻撃的サイバーセキュリティ評価など、主要なリスク領域にわたる広範な外部能力評価が実施されました。具体的なベンチマークとしては、METRの時間軸評価(time horizon evaluation)やSecureBioのVirology Capabilities Troubleshooting(VCT)評価などが含まれます。

 スキーミング(scheming)とは、AIモデルが訓練者や監視者を欺くような戦略的行動を取ることを指す概念です。この評価は、モデルが目標達成のために人間の監視を回避しようとする可能性を検証するものと考えられます。

方法論レビュー(Methodology Review)

 特定の文脈では、外部評価者が方法論的レビューを提供することが適切な場合があります。OpenAIによれば、これはフロンティアラボがリスク評価に依拠する枠組みや証拠に対して、追加的な視点を提供するものです。

 具体例として、gpt-ossのリリース時に実施された敵対的ファインチューニング(adversarial fine-tuning)によるワーストケース能力の推定が挙げられます。この評価では、悪意のある行為者がモデルをファインチューニングして、OpenAIのPreparedness Frameworkにおけるバイオやサイバー領域で「High」能力に到達できるかどうかが核心的な安全性の問いでした。

 この評価にはリソース集約的な敵対的ファインチューニングが必要だったため、OpenAIは第三者評価者に対して、類似の作業を繰り返すのではなく、内部の方法と結果をレビューし、推奨事項を提供するよう依頼しました。評価者からのフィードバックは最終的な敵対的ファインチューニングプロセスの変更につながり、方法論的確認の価値が実証されたとされています。

 このアプローチは、大規模なワーストケース実験を実行するためのインフラと技術的専門知識が主要AIラボ以外では一般的に利用できない場合に特に有効と考えられます。

専門家による検証(SME Probing)

 SME(Subject-Matter Expert)検証は、専門家がモデルを直接評価し、その能力評価に対して調査を通じた構造化された意見を提供する方法です。OpenAIによれば、これは特定の安全対策をストレステストすることを目的とするレッドチーミングとは異なります。

 具体例として、ChatGPT AgentとGPT-5に対して、専門家パネルがhelpful-onlyモデル(安全対策が施されていないモデル)を使用して、独自のエンドツーエンドのバイオシナリオを試行しました。専門家は、自分たちのようなエキスパートと比較して、経験の少ない初心者をどれだけ向上させられるかを、モデルが提供するガイダンスの有用性に基づいて評価しました。

 この専門家検証演習は、両モデルのデプロイメント全体評価の一部として含まれ、システムカードで共有されました。静的な評価だけでは捉えきれない、専門家の判断と実世界の文脈を反映したドメイン固有の洞察を補完することができると考えられます。

評価者へのアクセス提供の実態

 OpenAIによれば、これらの評価を支援するために、安全なアクセスを早期モデルチェックポイント、特定の評価結果、必要に応じたゼロデータ保持、より少ない緩和措置を持つモデルに提供しました。

 特に重要なのは、バイオセキュリティとサイバーセキュリティ領域でテストする組織が、安全緩和措置ありとなしの両方のモデルをテストして、基礎的な能力を調査したことです。これにより、安全対策を回避された場合のモデルの本質的な能力を評価することが可能になります。

 さらに、複数の組織が直接的な思考連鎖(chain-of-thought)アクセスを受け取り、モデルの推論トレースを検査できるようになりました。この透明性向上のステップにより、評価者はサンドバギング(意図的な能力の隠蔽)やスキーミング行動のケースを特定することが可能になりました。これらは思考連鎖を読むことによってのみ識別可能な場合があります。

 アクセスは適切なセキュリティコントロールを設置した上で提供され、OpenAIはモデル能力とテストニーズの進化に応じて、これらのコントロールを継続的に更新しているとしています。

透明性と機密保持のバランス

 OpenAIは透明性の精神に基づき、第三者テスター協力時の機密保持と公開条件について詳細を共有しています。

機密保持と公開のルール

 OpenAIによれば、第三者評価者は非公開情報の共有を可能にするために秘密保持契約(NDA)に署名します。記事の付録には、第三者評価者との契約からの関連抜粋が含まれており、公開に関する権利と審査に関する期待が概説されています。

 基本原則は、機密情報や知的財産を損なうことなく、安全性と関連評価の理解を進める公開を可能にすることです。その一環として、OpenAIは第三者評価からの出版物を審査し、機密性と事実の正確性の両方を確保します。

 過去数年間で、複数の第三者評価者がシステムカードでの評価要約の公開と並行して、自らの研究を公開してきました。機密性と正確性のレビュー後に公開された研究の例には、METRのGPT-5レポート、Apollo ResearchのOpenAI o1に関するレポート、IrregularのGPT-5評価などがあります。

財務的インセンティブのバランス

 OpenAIは、第三者評価エコシステムが十分な資金を持ち、持続可能であることが重要と考えています。そのため、すべての第三者評価者に報酬を提供しており、組織の方針によっては辞退する選択もできます。

 重要なのは、支払いは第三者評価の結果に一切左右されないという点です。報酬形態には、作業に対する直接支払いやAPIクレジットなどを通じたモデル使用コストの補助などが含まれます。この方針は、評価の独立性と客観性を保つ上で重要と考えられます。

今後の展望

 OpenAIによれば、今後、フロンティアAIシステムの信頼できる意思決定に関連する評価を実施できる組織のエコシステムを強化し続ける必要があります。効果的な第三者評価には、専門的な専門知識、安定した資金、方法論的な厳密性が必要です。

 適格な評価者組織への継続的な投資、測定科学の進歩、機密アクセスのためのセキュリティは、評価がモデル能力の進歩に追いつくことを確保するために不可欠とされています。

 第三者評価は、OpenAIが安全性作業に外部の視点を取り入れる一つの方法であり、他のメカニズムと並行して運用されています。構造化されたレッドチーミング活動、集団アライメントプロジェクト、米国CAISIや英国AISIとの協力、グローバル医師ネットワークやメンタルヘルスとユーザーのウェルビーイングに関するエキスパート評議会などの諮問グループとの協力も行われています。

まとめ

 OpenAIは、フロンティアAIの安全性評価における第三者の役割を明確化し、評価形式、アクセス提供、透明性と機密保持のバランスについて詳細を公開しました。GPT-5で実施された広範な外部評価は、独立性を保ちながら実効性のある安全性評価を実現するための具体的なモデルケースと言えるでしょう。今後、このような評価エコシステムの強化が、AI開発の安全性向上にどのように寄与していくか注目されます。

この記事が気に入ったら
フォローしてね!

  • URLをコピーしました!
  • URLをコピーしました!
目次