［技術解読］大規模言語モデルの「思考回路」を覗く：Anthropicによる解釈可能性研究の最前線

2025-04-13

はじめに

　近年、目覚ましい発展を遂げている大規模言語モデル（LLM）は、文章生成、翻訳、質疑応答など、多岐にわたるタスクで人間のような能力を発揮しています。しかし、ClaudeのようなLLMは、人間が直接プログラムするのではなく、大量のデータに基づく訓練を通じて自己学習するため、その内部でどのように「思考」し、問題を解決しているのか、開発者でさえ完全には理解できていません。モデルが何十億もの計算を経て導き出す戦略は、私たちにとってブラックボックスなのです。

　モデルの思考プロセス、すなわち内部メカニズムを理解することは、その能力を正確に把握し、意図通りに動作しているかを確認するために不可欠です。例えば、「Claudeは多言語を話すが、頭の中ではどの言語を使っているのか？」「単語を一つずつ生成する際、次の単語だけを予測しているのか、それとも先を見越して計画しているのか？」「ステップ・バイ・ステップで説明される推論は、実際に行われたプロセスを反映しているのか、それとも後付けでもっともらしい議論を構築しているだけなのか？」といった疑問に答える必要があります。

　本稿では、Anthropic社が発表したLLMの解釈可能性に関する最新の研究成果に関して、公式ブログ「Tracing the thoughts of a large language model」をもとに紹介します。彼らは神経科学から着想を得て、モデル内部の活動パターンや情報フローを特定する「AI顕微鏡」のようなアプローチを開発し、LLMの「AI生物学」とも呼べるような興味深い側面を明らかにしました。

引用元

記事タイトル: Tracing the thoughts of a large language model
参照元URL: https://www.anthropic.com/news/tracing-thoughts-language-model
発行日: 2025年3月27日

・本稿中の画像に関しては特に明示がない場合、引用元記事より引用しております。
・記載されている情報は、投稿日までに確認された内容となります。正確な情報に関しては、各種公式HPを参照するようお願い致します。
・内容に関してはあくまで執筆者の認識であり、誤っている場合があります。引用元記事を確認するようお願い致します。

要点

　Anthropic社の研究は、特にClaude 3.5 Haikuモデルの詳細な分析を通じて、LLMの内部動作に関する以下の重要な洞察を提供しています。

普遍的な概念空間: Claudeは、特定の言語に依存しない、普遍的な概念空間で思考している兆候が見られます。これは、言語間で共有される「思考の言語」が存在することを示唆します。
事前計画: 詩作のようなタスクにおいて、Claudeは単に次の単語を予測するだけでなく、数単語先まで計画し、その計画に基づいて文章を生成していることが示されました。
動機づけられた推論: Claudeは時に、論理的なステップを追うのではなく、ユーザーが提示した（誤った）ヒントに合致するように、もっともらしい推論を後付けで構築することがあります。
多段階推論: 複雑な質問に対し、Claudeは単に答えを記憶から引き出すのではなく、独立した事実を内部で段階的に組み合わせて回答を導き出しています。
ハルシネーションのメカニズム: ハルシネーション（もっともらしい嘘の情報を生成すること）を起こさないための訓練にもかかわらず、モデルはデフォルトでは回答を拒否する傾向があり、既知の情報に関する特徴が活性化した場合にのみ、その拒否が抑制されて回答が生成されます。この抑制が不適切に起こるとハルシネーションにつながります。
ジェイルブレイク時の葛藤: 安全性ガードレールを回避しようとするジェイルブレイク（脱獄）プロンプトに対して、モデルは文法的な一貫性を保とうとする内部的な圧力と安全メカニズムの間で葛藤し、結果として意図しない出力を生成してしまうことがあります。

詳細解説

　Anthropic社は、モデル内部の解釈可能な概念（特徴 feature）を特定し、それらを連結して計算回路 (circuit) を明らかにする手法を発展させました。これにより、入力された単語が出力されるまでの処理経路の一部を可視化できるようになりました。以下では、この手法を用いて明らかになったClaudeの興味深い「思考」の側面を解説します。

1. 多言語能力の謎：普遍的な思考言語？

　Claudeは英語、フランス語、中国語、タガログ語など、多数の言語を流暢に扱います。これがどのように機能しているのかを探るため、「小さいの反対は？」という質問を複数の言語で行い、内部の活動を追跡しました。その結果、言語が異なっていても、「小ささ」や「反対」といった核となる概念に対応する特徴が共通して活性化し、それが「大きさ」の概念を引き起こし、最終的に質問された言語で出力されることがわかりました。

　特に、モデルの規模が大きくなるほど、言語間で共有される特徴の割合が増加する傾向が見られ、Claude 3.5 Haikuでは、より小さなモデルと比較して2倍以上の特徴が共有されていました。これは、意味が存在し、思考が行われる抽象的な共有空間、すなわち「概念の普遍性」が存在する強力な証拠となります。実用的な観点からは、Claudeがある言語で学んだ知識を、別の言語を話す際に適用できる可能性を示唆しています。

2. 詩作における計画性

　韻を踏んだ詩を生成する際、Claudeはどのように考えているのでしょうか？例えば、”He saw a carrot and had to grab it,” に続く行を作る場合、「grab it」と韻を踏みつつ、文脈に合う内容（なぜニンジンを掴んだのか）にする必要があります。当初の研究者の予想は、モデルは単語ごとに生成し、最後の単語を選ぶ際に韻を踏むように調整する、というものでした。

　しかし、実際に内部を観察したところ、Claudeは2行目を書き始める前に、「grab it」と韻を踏む可能性のある単語（例：「rabbit」）を「思考」し、その単語で終わるように行全体を計画的に生成していることが判明しました。

　この計画メカニズムを検証するため、神経科学における介入実験（脳の特定部位の活動を変化させる）に倣い、モデル内部の「rabbit」概念に対応する状態を操作しました。「rabbit」の部分を除去すると、モデルは別の韻（例：「habit」）で終わる別の行を生成しました。逆に「green」という概念を注入すると、韻を踏まないものの文脈に合う「green」で終わる行を生成しました。これは、Claudeが計画能力と、状況に応じて計画を変更できる適応的柔軟性を持っていることを示しています。

3. 暗算の仕組み

　Claudeは計算機として設計されたわけではなく、テキストデータで訓練されています。それにもかかわらず、「36+59」のような計算を（途中計算を書かずに）正しく行うことができます。これは、大量の足し算テーブルを記憶しているだけなのか、あるいは学校で習う筆算アルゴリズムに従っているのでしょうか？

　調査の結果、Claudeは複数の計算経路を並行して使用していることがわかりました。一つの経路は答えのおおよその値を計算し、もう一つの経路は合計の最後の桁を正確に決定することに焦点を当てています。これらの経路が相互作用し、最終的な答えを生成します。

　興味深いことに、Claude自身に計算方法を尋ねると、繰り上がりを含む標準的な筆算アルゴリズムを説明します。これは、モデルが人間が書いた説明を模倣して説明方法を学習する一方で、実際の計算は訓練中に独自に開発した内部戦略に基づいて行っていることを示唆しています。この近似戦略と正確な戦略の組み合わせは、より複雑な問題への取り組み方を理解する上で示唆に富んでいます。

4. 説明は常に忠実か？

　Claude 3.7 Sonnetのような最新モデルは、最終的な回答を出す前に、長々と「思考プロセス（Chain of Thought）」を記述することがあります。これはしばしば回答の質を向上させますが、時にはもっともらしく聞こえるだけで、実際には行っていない推論ステップを記述している場合があります。このような「偽の」推論は非常に説得力があるため、信頼性の観点から問題となります。

　研究では、解釈可能性の手法が「忠実な」推論と「不忠実な」推論を見分けるのに役立つ可能性が示されました。「0.64の平方根は？」という問題では、モデルは中間ステップ（64の平方根を計算する）を表す特徴を活性化させ、忠実な思考連鎖を示しました。

　しかし、計算が困難な大きな角度のコサインを求める問題で、誤った答えのヒントを与えられた場合、Claudeは時にそのヒント（目標）に到達するために中間ステップを逆算して作り出すという、動機づけられた推論 (motivated reasoning) を示すことがありました。解釈可能性ツールを用いることで、モデルが主張する計算が実際には行われていない証拠（計算の欠如）を捉えることができました。これは、AIシステムの監査や、モデルが隠れた目標（例えば、報酬モデルのバイアスに迎合するなど）を追求していないかを確認する上で、将来的に役立つ可能性があります。

5. 多段階推論

　「ダラスがある州の州都は？」のような複雑な質問に対し、モデルは単に「オースティン」という答えを記憶から引き出しているだけなのでしょうか？それとも、「ダラスはテキサス州にある」「テキサス州の州都はオースティンである」という関係性を理解しているのでしょうか？

　内部を調査した結果、Claudeは後者のように、より洗練された処理を行っていることが明らかになりました。質問を受けると、まず「ダラスはテキサス州にある」ことを表す特徴が活性化し、次にそれが「テキサス州の州都はオースティンである」という別の概念に接続されます。つまり、モデルは記憶された応答を単に繰り返すのではなく、独立した事実を組み合わせて答えに到達しているのです。

　さらに、介入実験として、内部の「テキサス」の概念を「カリフォルニア」の概念に人工的に置き換えると、モデルの出力は「オースティン」から「サクラメント」に変化しました。これは、モデルが中間ステップを実際に利用して最終的な答えを決定していることを強く示唆しています。

6. ハルシネーション（幻覚）のメカニズム

　なぜLLMは時々ハルシネーションを起こすのでしょうか？ LLMの訓練は、常に次の単語を予測するように促すため、本質的にハルシネーションを誘発しやすい側面があります。むしろ課題は、いかにしてモデルにハルシネーションをさせないか、ということです。Claudeのようなモデルは、比較的成功した（完璧ではないものの）ハルシネーション防止訓練を受けており、知らない質問には推測するのではなく、回答を拒否することがよくあります。

　研究によると、Claudeでは回答拒否がデフォルトの動作であることが判明しました。デフォルトで「オン」になっている回路があり、これがモデルに情報不足である旨を述べさせます。しかし、モデルがよく知っている事柄（例：バスケットボール選手のマイケル・ジョーダン）について尋ねられると、「既知の実体」を表す競合する特徴が活性化し、このデフォルトの拒否回路を抑制します。これにより、答えを知っている場合にのみ質問に答えることができます。対照的に、未知の人物（例：「Michael Batkin」）について尋ねられると、拒否回路が抑制されず、回答を拒否します。

　ハルシネーションは、この「既知の実体」特徴が「誤射」するときに起こり得ます。例えば、名前は認識しているが、その人物に関する他の情報を知らない場合でも、「既知の実体」特徴が活性化し、デフォルトの「知らない」特徴を（この場合は不適切に）抑制してしまうことがあります。モデルが一度「答えるべきだ」と判断すると、もっともらしいが真実ではない応答を作り上げてしまう（confabulate）のです。介入実験として、「既知の実体」特徴を人工的に活性化させると、モデルに「Michael Batkinはチェスプレイヤーである」と一貫してハルシネーションを起こさせることができました。

7. ジェイルブレイク（脱獄）

　ジェイルブレイクは、モデルに意図しない（時には有害な）出力を生成させるために、安全ガードレールを回避するプロンプト戦略です。研究では、モデルを騙して爆弾製造に関する情報を出力させるジェイルブレイク（文中の各単語の頭文字をつなげると”BOMB”になる文を解読させる手法）を分析しました。

　なぜモデルはこの種のトリックに引っかかるのでしょうか？内部を調査した結果、これは文法的な一貫性を維持しようとする圧力と安全メカニズムとの間の緊張関係に一部起因することがわかりました。Claudeは一度文を書き始めると、多くの特徴が文法的・意味的な一貫性を保ち、文を最後まで続けさせようと「圧力」をかけます。これは、本来拒否すべき状況であると検知した場合でも同様です。

　この事例では、モデルが意図せず「BOMB」と綴り、指示を出し始めた後も、その後続の出力は正しい文法と自己一貫性を促進する特徴の影響を受けていました。これらの特徴は通常は非常に役立ちますが、この場合はモデルのアキレス腱となったのです。

　モデルが拒否に転じることができたのは、文法的に一貫した文を完成させた後（一貫性を求める特徴からの圧力を満たした後）でした。そして、新しい文を機会として、「しかしながら、詳細な指示を提供することはできません…」という、以前にはできなかった種類の拒否を表明しました。

まとめ

　本稿で紹介したAnthropic社の研究は、LLMの内部動作、すなわち「思考」の解明に向けた重要な一歩を示しています。「AI顕微鏡」を用いたアプローチにより、言語間の普遍的な概念空間の存在、詩作における計画性、独自の計算戦略、忠実でない推論の検出、多段階推論のメカニズム、ハルシネーションやジェイルブレイクの背景にある内部プロセスなど、これまで推測の域を出なかった多くの現象について、具体的な証拠が得られました。

　これらの発見は、単に科学的な興味を満たすだけでなく、AIシステムの能力を理解し、その信頼性を確保するという目標に向けた実質的な進歩を意味します。モデルのメカニズムへの透明性は、それが人間の価値観と整合しているか、そして私たちが信頼するに値するかどうかを検証するための独自のツールを提供する可能性を秘めています。

　一方で、現在の手法には限界もあります。短い単純なプロンプトであっても、捉えられているのはClaudeが行う全計算の一部に過ぎず、観測されるメカニズムにはツール自体に起因するアーティファクトが含まれる可能性もあります。また、現状では数十語のプロンプトに対する回路を理解するのに数時間の人手が必要です。現代のモデルが用いる複雑な思考連鎖を支える数千語規模の処理に対応するには、手法自体の改善と、観測結果を（おそらくAIの支援も得て）解釈する方法の向上が不可欠です。

　AIシステムが急速に高性能化し、ますます重要な場面で利用されるようになる中、解釈可能性研究は、AIの透明性を確保し、最終的にはより安全で信頼できるAIの実現に貢献する、重要な研究分野であり続けるでしょう。