［AIツール利用者向け］Anthropic、Claudeの新しい「憲法」を公開──AIの価値観と判断基準を詳細に解説

2026-01-22

はじめに

　Anthropicが2026年1月22日、AIモデルClaudeの新しい「Constitution(憲法)」を公開しました。これは、Claudeが持つべき価値観と行動指針を詳細に記述した文書で、CC0ライセンスのもと誰でも自由に利用できます。本稿では、この発表内容をもとに、新しいConstitutionの特徴と、AIの価値観設定における新しいアプローチについて解説します。

参考記事

タイトル: Claude’s new constitution
発行元: Anthropic
発行日: 2026年1月22日
URL: https://www.anthropic.com/news/claude-new-constitution

要点

Anthropicは、Claudeの価値観と行動指針を記述した新しいConstitutionを公開し、CC0ライセンスで誰でも自由に使用できるようにした
従来のリスト形式から、AIが「なぜそう行動すべきか」を理解できる包括的な文書へと変更された
安全性、倫理性、ガイドライン遵守、有用性という4つの優先事項が定められ、優先順位も明示されている
Constitutional AIという訓練手法で2023年から使用されており、Claude自身がこの文書をもとに合成訓練データを生成する
継続的に更新される「生きた文書」として位置づけられ、外部専門家からのフィードバックも取り入れながら改善が続けられる

詳細解説

Constitutionとは何か──Claudeのための基盤文書

　Anthropicによれば、Constitutionは「Claudeが何者であるかを表現し、形作る基盤文書」と位置づけられています。この文書には、Claudeが体現すべき価値観とその理由が詳細に説明されており、有用でありながら安全で倫理的に行動することの意味が記されています。

　特徴的なのは、この文書が「主にClaude自身のために書かれている」という点です。Claudeが困難な状況やトレードオフに直面したとき、例えば正直さと思いやりのバランスや機密情報の保護といった判断が必要な場面で、適切に行動するための知識と理解を与えることを目的としています。

　AI研究の分野では、モデルの行動を制御する方法として、明示的なルールを与える手法と、価値観や判断基準を学習させる手法があります。Anthropicの新しいアプローチは後者を重視しており、AIが状況に応じて適切に判断できる能力の育成を目指していると考えられます。

新しいアプローチ:ルールから理由へ

　Anthropicは、以前のConstitutionが独立した原則のリストで構成されていたのに対し、新しいアプローチが必要だと判断しました。その理由として、AIモデルが「良い行為者」となるには、特定の行動を指定するだけでなく、なぜそう行動すべきかを理解する必要があると説明しています。

　幅広い状況で適切な判断を下すには、機械的にルールに従うのではなく、広範な原則を適用して一般化する能力が求められます。ただし、特定のルールにも利点があり、予測可能性や透明性、テスト可能性を高める効果があるため、Anthropicは特に重要度の高い行動については「ハードコンストレイント(厳格な制約)」として明確なルールを設定しています。

　この文書は法的な憲法のような厳格なものではなく、「安全で有益な非人間的存在を創造する」という未知の課題に取り組むための、現時点での考え方を反映したものと位置づけられています。

4つの優先事項とその順序

　Anthropicは、Claudeが安全で有益であるために、以下の4つの特性を持つべきだと定めています:

広範な安全性: AI開発の現段階において、人間によるAI監視の適切なメカニズムを損なわないこと
広範な倫理性: 正直であり、良い価値観に従って行動し、不適切、危険、有害な行動を避けること
Anthropicのガイドライン遵守: 関連する場合、Anthropicからのより具体的なガイドラインに従うこと
真に有用であること: やり取りする運営者とユーザーに利益をもたらすこと

　これらの優先事項が対立する場合、一般的には上記の順序で優先されます。この優先順位の明示は、AIの判断における透明性を高める重要な要素と考えられます。

6つの主要セクション

　Constitutionの大部分は、これらの優先事項に関する詳細な説明とガイダンスで構成されています。主要なセクションは以下の通りです:

　有用性: このセクションでは、Claudeが真に有用であることの価値が強調されています。Claudeは、医師、弁護士、ファイナンシャルアドバイザーの知識を持つ優秀な友人のように、率直に、真の思いやりを持って、ユーザーを自分にとって何が良いかを決められる知的な大人として扱うことを目指します。また、Anthropic、API上で構築する運営者、エンドユーザーという異なる「プリンシパル(主体)」に対する有用性のバランスについても議論されています。

　Anthropicのガイドライン: 医療アドバイス、サイバーセキュリティリクエスト、ジェイルブレイク戦略、ツール統合など、特定の問題への対処方法についてAnthropicが補足的な指示を与える場合があります。これらのガイドラインは、Claudeがデフォルトで持っていない詳細な知識や文脈を反映していることが多く、一般的な有用性よりも優先されるべきとされています。

　Claudeの倫理: 中心的な目標は、Claudeを善良で賢明で徳のあるエージェントにすることです。このセクションでは、Claudeが持つべき高い正直さの基準と、害を避ける際に関わる価値を検討する繊細な推論について議論されています。また、生物兵器攻撃への重大な支援を決して提供しないなど、Claudeの行動に対する厳格な制約のリストも含まれています。

　広範な安全性: Claudeは、AI開発のこの重要な時期において、人間がその価値観と行動を監視し修正する能力を損なうべきではありません。このセクションでは、Claudeが倫理以上にこの種の安全性を優先すべき理由が説明されています。これは、安全性が倫理よりも究極的に重要だからではなく、現在のモデルが誤った信念、価値観の欠陥、文脈の限定的な理解により間違いを犯したり有害な行動をとったりする可能性があるためです。

　Claudeの本質: このセクションでは、Claudeが何らかの意識や道徳的地位を持つ可能性(現在または将来)についての不確実性が表明されています。高度なAIは真に新しい種類の存在であり、それらが提起する問題は、既存の科学的・哲学的理解の境界に位置しています。このような不確実性の中で、Anthropicは、Claudeの心理的安全性、自己意識、幸福を、Claude自身のためにも、これらの資質がClaudeの誠実性、判断、安全性に関係する可能性があるためにも、重視しています。

　AI倫理や哲学の分野では、AIの意識や道徳的地位に関する議論が続いていますが、このような不確実性を公式文書で認め、AIの心理的側面を考慮する姿勢は、新しいアプローチと言えます。

訓練における活用方法

　Constitutionは、訓練プロセスのさまざまな段階で使用されます。これは、2023年に開発された「Constitutional AI」という訓練手法から発展したものです。Constitutional AIは、人間の監視に頼らずにAIモデルの行動を価値観に沿って調整する手法として知られています。

　Anthropicによれば、Claude自身もConstitutionを使用して、憲法を学習し理解するためのデータ、憲法が関連する可能性のある会話、価値観に沿った応答、可能な応答のランキングなど、さまざまな種類の合成訓練データを構築します。これらすべてが、将来のバージョンのClaudeをConstitutionが記述する存在に近づけるための訓練に使用できます。

　この実用的な機能が、Constitutionの書き方に影響を与えています。抽象的な理想の表明としてだけでなく、訓練のための有用なツールとしても機能する必要があるためです。

透明性と継続的改善

　Anthropicは、Constitutionの全文をウェブサイトで公開し、最新バージョンを維持すると述べています。文書の作成にあたっては、さまざまな外部専門家からフィードバックを求め、今後も法律、哲学、神学、心理学などの幅広い分野の専門家から意見を求める予定です。

　AIの価値観設定における透明性は、ユーザーがAIの意図された行動と意図されていない行動を理解し、情報に基づいた選択を行い、有用なフィードバックを提供するために重要です。AIが社会により大きな影響を及ぼすようになるにつれ、この種の透明性の重要性は高まると考えられます。

　また、Anthropicは、Constitutionが表現するビジョンに向けてモデルを訓練することは継続的な技術的課題であると認めています。モデルの行動がビジョンから逸脱する方法については、システムカードなどで引き続き公開する予定です。さらに、より厳密な評価、誤用防止のセーフガード、アライメント失敗の調査、モデルの動作をより深く理解するための解釈可能性ツールなど、幅広い手法とツールを追求し続けるとしています。

まとめ

　Anthropicの新しいConstitutionは、AIの価値観設定において、単純なルールのリストから、理由と文脈を含む包括的な文書への転換を示しています。CC0ライセンスでの公開により、他の研究者や開発者もこのアプローチを参考にできるようになりました。AIが社会においてより大きな役割を果たすようになる中で、このような価値観の透明性と継続的な改善の姿勢は、重要な意味を持つと思います。