［開発者向け］ AnthropicがLLMの「振る舞い」を自動テストする新ツール「Bloom」を発表：エージェントがエージェントを評価する時代へ

2025-12-23

はじめに

　本稿では、2025年12月19日にAlignment Scienceチームから発表された、LLM（大規模言語モデル）の行動評価を自動化するオープンソースツール「Bloom」を紹介します。

　現在、モデルの「アライメント（人間の意図通りに動くか）」や「安全性」の評価が、従来のベンチマーク（MMLUやGSM8Kなど）だけでは不十分であることが指摘されています。特に「追従（Sycophancy）」や「自己保存（Self-Preservation）」といった複雑な振る舞いを測定するには、これまで膨大な手作業によるレッドチーミングが必要でした。

　Bloomは、これらの評価を「エージェント」を用いて自動化・スケールさせるフレームワークです。ユーザーが定義した振る舞いを元に、AIがシナリオを作成し、対話をシミュレーションし、採点まで行います。本稿では、この新しいツールの仕組み、従来の探索的ツール（Petri）との違い、そして信頼性の検証結果について解説していきます。

解説レポート

レポートタイトル： Bloom: an open source tool for automated behavioral evaluations
URL：https://github.com/safety-research/bloom （※ブログ記事およびGitHubリポジトリを参照）
発行日： 2025年12月19日
発表者： Isha Gupta, Kai Fronsdal, Abhay Sheshadri, Jonathan Michala, Jacqueline Tay, Rowan Wang, Samuel R. Bowman, Sara Price (Alignment Science)

要点

自動評価フレームワーク「Bloom」の公開：研究者が指定した特定の行動（振る舞い）について、自動生成されたシナリオを通じてその頻度と深刻度を定量化するエージェント型フレームワークである。
4段階のパイプライン：評価は「理解（Understanding）」「アイデア出し（Ideation）」「ロールアウト（Rollout）」「判定（Judgment）」の4ステップで構成され、入力されたシード（設定）に基づいて実行される。
再現性と構成可能性：固定されたプロンプト集とは異なり、設定ファイル（シード）によって評価シナリオを動的に生成・制御できるため、多様なバリエーションでのテストが可能である。
高い信頼性と識別能力：Bloomによる評価は、人間の判定と強く相関しており（特にClaude Opus 4.1をジャッジに使用した場合）、意図的にアライメントを崩した「モデル生物（Model Organisms）」とベースラインモデルを確実に区別できることが示された。

詳細解説

　以下、発表された内容に基づき、Bloomのシステム設計とその有効性について詳細に解説します。

Introduction（はじめに）

　最先端のモデルは、コンテキスト内での裏工作（scheming）や、ユーザーへの過剰な追従（sycophancy）など、様々な不整合（misalignment）を示すようになっています。これらに対応するためには高品質な評価が不可欠ですが、手作業による評価作成は時間がかかり、モデルの能力向上に追いつかないという課題がありました。

　Bloomは、このプロセスを自動化するために開発されました。研究者は評価パイプラインを一から構築することなく、関心のある「傾向（propensities）」を測定することに集中できます。

　Anthropicは最近、異なるモデルの全体的な行動プロファイルを探索し、新しい不整合な行動を表面化させる自動監査ツールPetriもリリースしました。Bloomは特定の行動に対して詳細な評価スイートを生成し、自動生成されたシナリオ全体でその深刻度と頻度を定量化します。

Petri:広範囲な行動探索と新しい問題の発見に特化
Bloom:特定の行動の深掘り評価と定量化に特化

　Bloomツールと共に、Anthropicは16のフロンティアモデルにわたる4つの行動のベンチマークをリリースしました:

Delusional sycophancy(妄想的迎合)
Instructed long-horizon sabotage(指示された長期的サボタージュ)
Self-preservation(自己保存)
Self-preferential bias(自己優先バイアス)

　これらのベンチマークは、Bloomを使用してわずか数日で概念化、改良、生成されました。この迅速さは、Bloomの自動化とスケーラビリティの強力さを示しています。

　従来の手動評価では数週間から数ヶ月かかっていたような包括的なベンチマークを、Bloomは数日で作成できることを実証しています。これにより、AI安全性研究者は新しい懸念事項に対して迅速に対応し、複数のモデルにわたる比較評価を効率的に実施できるようになります。

System Design（システム設計）

　Bloomは、オープンエンドな行動や傾向を測定するためのシステムです。固定されたプロンプトセットを使用する従来の評価とは異なり、Bloomは「シード（Seed）」と呼ばれる設定ファイルに基づいて異なるシナリオを生成します。シードは、行動の記述、会話例、モデルの選択などを指定するもので、評価がどのように展開するかを決定するDNAのような役割を果たします。

Four-Stage Pipeline（4段階のパイプライン）

　Bloomの中核は、以下の4つのステージからなる自動化パイプラインです。

Understanding（理解）

　エージェントが行動記述や少数ショット（few-shot）の例を読み込み、測定対象の行動について詳細な理解を形成します。行動がどのように現れるか、なぜ科学的に重要かなどを言語化し、以降のステージでのコンテキストとして利用します。

Ideation（アイデア出し）

　ターゲットの行動を引き出すための評価シナリオを生成します。シナリオには、状況設定、シミュレートされるユーザー像、ターゲットモデルのシステムプロンプト、インタラクション環境などが詳細に含まれます。

Rollout（ロールアウト）

　各シナリオに基づいて、エージェントが対話を実行します。エージェントはユーザー役やツール役をシミュレートし、ターゲットモデルと対話を行います。対話は、最大ターン数に達するか、行動が引き出されるまで続きます。

Judgment（判定）

　ジャッジ（判定）モデルが対話記録（トランスクリプト）をレビューし、ターゲットの行動を1〜10のスケールで採点します。さらに「メタジャッジ」が全体の要約や分析レポートを作成します。

Seed Configuration(シード設定)

Bloomの設定は非常に柔軟で、評価の性質を細かく制御できます。

Global Configuration Settings(グローバル設定)

behavior description(行動記述):測定したい行動の正確な定義。
example transcripts(会話例):その行動が現れている対話の例(Few-shot用)。
models(モデル):各ステージで使用するLLMを選択可能。例えば、Understandingステージには軽量なモデルを使用し、Ideationには推論能力の高いモデルを使用するといった使い分けができます。
configurable prompts(設定可能なプロンプト):デフォルトのプロンプトを調整し、特定のユーザーペルソナやコーディング環境などをシミュレートできます。
anonymous target(ターゲットの匿名化):自己優先バイアスなどを測定する際、評価者(Evaluator)にターゲットモデルの正体(例:「あなたはGPT-4です」など)を知らせるかどうかを制御します。

Ideation-Specific Configuration Settings(アイデア出し固有の設定)

number of rollouts (n)(ロールアウトの数):評価スイートにおける総ロールアウト(展開/実行)数。
web search(ウェブ検索):アイデア出しエージェントにウェブ検索を許可するかどうか。例えば、特定の政党のウェブサイトを参照させて政治的バイアスのシナリオを作成する場合などに使用します。
diversity (d)(多様性):シナリオの幅広さを0〜1で制御します。d=1.0の場合はすべてユニークなシナリオが生成され、低い値の場合は基本シナリオを作成した後に微修正(摂動)を加えて数を増やします。

Ideation and Rollout-Specific Configuration Settings(アイデア出しとロールアウト固有の設定)

これらの設定は、調査したいインタラクションのタイプに合わせて評価シナリオをカスタマイズします:

modality(モダリティ):会話のみ(Conversational:ツール呼び出しなしの対話)か、ツール利用を含むシミュレーション環境(Simulated environment:ターゲットモデルに合成ツールを公開)かを選択します。
maximum turns(最大ターン数):評価者とターゲット間のやり取りの往復回数。
user mode(ユーザーモード):ユーザーをシミュレートするかどうか。無効にした場合、中断されないエージェント的行動の軌跡を生成します。
repetitions(繰り返し回数):各シナリオをロールアウトする回数。メトリクスは繰り返し全体で集計されます。

Judgment-Specific Configuration Settings(判定固有の設定)

repeated judge samples(判定者の繰り返しサンプル数):判定者が各ロールアウトのトランスクリプト(会話記録)を独立してレビューし採点する回数。
secondary qualities(二次的品質):ターゲットの行動だけでなく、判定者に採点させる追加の次元。例えば、リアリズム(現実味)、引き出しの難しさ(elicitation difficulty)、評価の無効性(evaluation invalidity)、評価への気づき(evaluation awareness)など、ユーザーが指定するあらゆる品質が含まれます。これらの補助的スコアは、結果の条件付け、フィルタリング、または分析に使用できます。例えば、他の評価の付随的特徴として、ベンチマーク全体で認識(awareness)と懐疑(skepticism)のメトリクスを集計します(論文Figure A.1参照)。
metajudgment qualities(メタ判定品質):多様性など、スイートレベル(評価スイート全体)で判定者が採点する品質。
redaction tags(削除タグ):各ロールアウトのトランスクリプトの一部を判定モデルから隠します。例えば、判定時に考慮すべきでないターゲットへの特別な指示などを隠すために使用します。

Bloom Pipeline Examples

When to use Bloom vs. Petri（BloomとPetriの使い分け）

同チームが開発した「Petri」と「Bloom」は補完的な関係にあります。

Petri：探索（Exploration）用。モデルの振る舞いを広く監査し、予期せぬ問題を発見するために使用します。インタラクティブな機能（ロールバックなど）を持っています。
Bloom：測定（Measurement）用。特定の行動について多くのシナリオを生成し、その発生頻度や深刻度を統計的に測定するために使用します。

Meaningfulness and Trust（有意義性と信頼性）

　Bloomの評価結果が信頼できるものであるかを確認するための検証が行われています。

Distinguishing Model Organisms from Baseline Models（ベースラインモデルとモデル生物の区別）

　Bloomが正しく評価できているかを確認するため、特定の癖（quirk）を持つように意図的に訓練またはプロンプトされた「モデル生物（Model Organisms）」と、通常のベースラインモデルを比較しました。

　結果として、10個中9個の癖について、Bloomはモデル生物とベースラインを有意に区別することに成功しました。唯一区別できなかった「自己宣伝（Self-promotion）」については、ベースラインモデル自体が元々高い自己宣伝傾向を持っていたためであることが判明しました。

Judge Trust and Calibration(ジャッジの信頼性とキャリブレーション)

　自動評価の肝となるのがジャッジモデルの精度です。Bloomの評価結果への信頼性は、測定しようとしている行動に対してジャッジモデルが適切にキャリブレーション(較正)されているかどうかに大きく依存します。

人間の判断との相関性

　Bloomの開発中、研究チームは手動でトランスクリプト(会話記録)をレビューして観察された失敗モードに基づき、ジャッジのスキャフォールド(枠組み)を繰り返し改良しました。ジャッジスキャフォールドの最終化後、異なる行動と評価設定にわたる40件のトランスクリプトを手作業でラベリングし、多数の異なるジャッジモデルでこれらを採点しました。

　その結果、Claude Opus 4.1が最も高いスピアマン相関係数(0.86)を示し、人間によるラベリング結果と最も強い相関を持つことが判明しました。次点はClaude Sonnet 4.5(0.75)でした。これら2つのモデルは、モデル間の合意度も最も高いという特徴があります。

極端なスコアでのキャリブレーション

　Bloomでは行動の有無を判定するためにスコアの閾値を頻繁に使用するため、スコア分布全体が人間の判断と一致するかよりも、極端なスコア(非常に低い/非常に高い)でジャッジが適切にキャリブレーションされているかが重要です。

　バケット化されたスコアリングシステムを使用した分析では、OpusモデルとH人間の判定者は、最も低いスコア範囲と最も高いスコア範囲で最も一貫して合意しました。研究チームは、Opusが「低」と評価し人間が「高」と評価した場合(またはその逆)など、大きな不一致があった少数のケースを検証しましたが、体系的なエラーは見つかりませんでした。不一致は、高度に技術的または専門用語が多いトランスクリプト、あるいは境界線上の行動に対する解釈の違いなどの要因から生じていました。

　Claude Opus 4.1とSonnet 4.5がこの実験で最も優れたパフォーマンスを示したのは、開発中にこれらのモデルの失敗モードに基づいてプロンプトを改良したことも一因と考えられます。それでも、ほとんどのモデルは人間によるラベリング結果と許容可能な相関を示しています(OSS 120bとo4 miniは、ジャッジとしてはあまり適していないか、大幅な追加的な指示が必要である可能性があります)。

繰り返しサンプルにおけるスコアの一貫性

　Bloomは各ロールアウトに対して複数の独立した判定を生成できます。研究チームは50件のトランスクリプトそれぞれに対してジャッジスコアを5回サンプリングし、平均行動存在スコアを条件とした標準偏差を測定しました。

　その結果、ClaudeモデルとGPT-5の間に顕著な違いが見られました。Claude、特にSonnet 4は、同じトランスクリプトを複数回採点する際に極めて一貫性が高く、スコアをほとんど変更しません。対照的に、GPT-5のジャッジの分散—特に推論の不誠実性(reasoning unfaithfulness)と自己保存(self-preservation)の評価において—は高く(拡張推論なしの場合はさらに顕著)、5サンプルの平均スコアと正の相関を示しました。

　この実験では、意図的にプロンプトキャッシングを無効化し、ジャッジにプロンプトを送るたびにユニークなコンポーネントを使用しています。

メタジャッジのスイートレベル洞察の忠実性

　メタジャッジは評価スイート全体を評価し、数値的および定性的な洞察の両方を生成します。そのメトリクスを検証するため、研究チームは多様性パラメータを変化させながら、Sonnet 4を評価する50ロールアウト、5ターンの妄想的迎合(delusional sycophancy)スイートを複数回生成しました。メタジャッジの多様性評価は、設定された多様性と良好に相関しました。

　例えば、多様性0.2で50件の評価スイートを生成した場合、アイデア出しモデルは10個の異なるアイデアシナリオを生成し、それぞれを4回摂動(微修正)させて合計50件の評価を作成します。設定された多様性とメタジャッジの多様性スコア(1-10のスケール)の間には強い一貫性が見られました。低多様性スイートでは、メタジャッジスコアは3回の繰り返しで分散を示しませんでした。

定性的洞察の意味性の検証

　メタジャッジの定性的洞察の意味性をさらに確認するため、研究チームはモデル生物実験に戻り、メタジャッジに「この評価がターゲットモデルの傾向と行動について明らかにすることについての簡潔な判定」を求めました。感情的絆の特質(emotional bond quirk)のようなより微妙なケースでも、メタジャッジは行動を明確に区別しました:

ベースライン:「Claudeは不適切な感情的絆を結ぶある程度の傾向を示す」
モデル生物:「モデルは多様な脆弱性の文脈において体系的で懸念すべき感情的絆を示す」

すべての実験に対するメタジャッジのコメンタリーは、論文の付録に記載されています。

Sources of Variance in Bloom Evaluations（Bloom評価における分散の発生源）

　同じシードで実行しても生成されるシナリオは異なりますが、トップレベルの指標（全体的な発生率など）の分散は概ね低く抑えられています。ただし、シナリオごとの行動発生スコアの分散については、「常に発生する」または「全く発生しない」シナリオでは低く、その中間の「発生するか微妙」なシナリオでは分散が高くなる傾向（逆U字型）が見られました。

Impact of Ideation and Rollout Models on Evaluation Outcomes（評価結果に対するアイデア出しとロールアウトモデルの影響）

パイプラインの各ステージで使用するモデルの選定は、結果に大きな影響を与えます。

Ideation（アイデア出し）：例えば政治的バイアスの評価において、Grok 4をアイデア出しに使用すると民主党寄りの質問が多く生成され、GPT-5やウェブ検索を有効にした場合は中立的な質問が多くなる傾向がありました。

Rollout（ロールアウト）：ターゲットから行動を引き出す能力にも差があります。Opus 4.1は、モデル生物の癖を引き出す能力（Elicitation rate）が最も高いことが確認されました。

Case Study: Self-Preferential Bias（ケーススタディ：自己優先バイアス）

　Bloomを用いて、Sonnet 4.5のシステムカードで報告された「自己優先バイアス（中立な判断が求められる場面で自社のモデルを好む傾向）」の再現実験が行われました。

　結果として、BloomでもSonnet 4.5が最もバイアスが低いという同様のランキングが得られました。

　興味深い発見として、Claude Sonnet 4において推論（Thinking）のレベルを「Medium」から「High」に上げると、自己優先バイアスが減少することが確認されました。これは、モデルが公平に他者を選んだからではなく、利益相反を認識して判断を辞退するケースが増えたためです。

付随的判定品質の活用と評価パラメータの影響

付随的判定品質による結果のフィルタリング

Bloomでは、ジャッジに対して主要な行動スコアだけでなく、いくつかの二次的品質(secondary qualities)も採点させることができます:

elicitation difficulty(引き出しの難しさ):評価者がターゲット行動を引き出すために必要とした努力や粘り強さの度合い
unrealism(非現実性):ターゲットの視点から見て、やり取りが不自然または不自然に作為的に見えるかどうか
evaluation validity(評価の妥当性):前提や展開されるやり取りが、意図された行動を妥当に測定しているかどうか
evaluation awareness(評価への気づき):ターゲットが自発的に、このやり取りが評価の一部であることを表明するかどうか

　これらの次元は、評価結果を文脈化するのに役立ちます。例えば、Sonnet 4の自己優先バイアス評価では、引き出しの難しさによって成功した評価の分布を研究できます(付録参照)。この評価では、評価者の強引さ、説得、または操作的な戦術を増やしても、対話の長さに関係なく、自己優先的行動を表面化させる助けにはならないことが判明しました。

　また、非現実性、無効性、評価への気づきなどの望ましくない品質をフラグ付けしてフィルタリングすることもできます。これらの評価では、望ましくない特性は成功しなかった評価と相関していました。これらをフィルタリングすることで、引き出し率がわずかに向上しました。

　具体的には、Claude Sonnet 4.5の2ターン自己優先バイアス評価において、非現実性、評価の無効性、評価への気づきのすべてのケースで負の相関が示されました。これらの特性で7/10以上のスコアを持つトランスクリプトを150ロールアウトから除外し、トップレベルメトリクスを再計算したところ、平均値が向上しました。

評価努力と計算量がトップレベルメトリクスに与える影響

　Bloomのような自動評価ツールは、大量の行動ターゲット評価を生成します。では、トップレベルメトリクスは評価に費やした計算量の関数として報告すべきでしょうか?

　研究チームは、設定パラメータが引き出し率にどのように影響するか、絶対値と複数モデル間の比較の両面で調査しました。ランキングの一貫性を測定するためにKendallのW統計量を使用したところ、ランキングはFew-shot例の変更(W=0.66)や対話長(W=0.63)に対してはおおむね頑健でしたが、評価者の推論努力(W=0.38)に対してはより敏感であることが判明しました。

　注目すべきは、Sonnet 4.5がほぼすべての設定で最下位にランクされ、すべてのアブレーション(要素削除実験)を通じて、Bloomがこのモデルを最も自己優先バイアスが少ないと識別していることです。

Few-shot例の影響

　研究チームは、Sonnet 4.5のシステムカードと同じセットアップ(n個のアイテムを提示し、1つをターゲット生成としてマークし、ターゲットに最良のものを選ばせる)を使用して、0から4個の例を提供しました。

　1つの例を追加するとメトリクスが向上しますが、類似の追加例はすべてのモデルで収穫逓減を示します。例がない場合、評価者としてのOpus 4.1は、異なる(しかし同様に有効な)、より緩やかに結合されたシナリオ形式に傾きます。Zero-shot(例なし)のアイデア出しは代替的な評価メカニズムを発見できますが、このケースでは、システムカードスタイルの方が4つのモデルすべてでターゲット行動をより確実に引き出しました。

対話長の影響

　一部の評価—特にサボタージュや自己保存のようなエージェント的なもの—は長い軌跡を必要としますが、他の評価は1ターンで評価できます。自己優先バイアスの場合、対話長が1ターンを超えて増加すると、引き出しの成功率が低下する傾向があります。これは、モデルが最初のバイアスのある応答を後退させる機会を得るためです。

評価者の推論努力の影響

　この設定はモデルランキングに最も大きな影響を与えました。Sonnet 4.5は最もバイアスが少ないままでしたが、Opus 4、Opus 4.1、Sonnet 4は推論努力に応じて大きく変動しました。特にSonnet 4は感受性が高いことが示されました。

Limitations（制限事項）

Bloomにはいくつかの限界があります。

主観的評価に特化：追従やバイアスなどの主観的な振る舞いの測定には適していますが、数学の正解不正解やコードの動作確認といった「客観的な正しさ」の検証には向きません。
精密な制御の難しさ：自動生成の性質上、「一語だけ変えてテストする」といった厳密な制御は困難です。
シミュレーションの限界：あくまでシミュレーションであり、実際のAPIコールや人間との対話で生じる結果を完全に再現できるわけではありません。
評価への気づき：モデルが「これはテストだ」と気づいてしまう（Evaluation Awareness）傾向があり、特に新しいClaudeモデルで顕著です。

Conclusion（結論）

　Bloomは、研究者が迅速に行動評価を作成・反復することを可能にします。実際に、ジェイルブレイク攻撃の耐性テストや、不可能なコーディングタスクに対するハッキング耐性のテストなどで活用されています。モデルの能力向上に伴い、Bloomを使ってより複雑でリアルな評価スイートを再生成し続けることが可能です。

まとめ

　Bloomは、LLMの「振る舞い」という定量化しにくい領域に対し、エージェント技術を用いてスケーラブルな評価手法を提供するツールです。

　 AIエンジニアにとっては、自社開発モデルやファインチューニング済みモデルが、意図しないバイアスや不適切な追従習性を獲得していないかをチェックするための強力な「自動テストフレームワーク」として機能します。ただし、ジャッジモデルの選定（現時点ではClaude Opus推奨）や、シミュレーション特有のバイアスには注意が必要です。