原題: Natural Language Autoencoders: Turning Claude’s thoughts into text
著者: Anthropic Interpretability Team
公開日: 2026年5月7日
ソースURL: https://www.anthropic.com/research/natural-language-autoencoders
アーカイブ日: 2026-06-02
Anthropicは、モデル内部の活性化を自然言語で説明する手法「Natural Language Autoencoders(NLA)」を紹介している。通常、Claudeの内部状態は高次元の数値ベクトルとして表現され、人間が直接読むことはできない。既存の解釈可能性手法も有用ではあるが、出力は研究者が慎重に解釈しなければならない複雑な構造になりがちだった。NLAはこの問題に対し、活性化をテキスト説明へ変換し、その説明から元の活性化を再構成するという往復構造で学習する。
NLAは3つのモデル構成で説明される。対象モデルは凍結された元のモデルで、ここから活性化を取り出す。Activation Verbalizer(AV)は活性化を受け取り、自然言語の説明を生成する。Activation Reconstructor(AR)はその説明文だけを入力として、元の活性化を再構成する。説明の良さは、再構成された活性化が元の活性化にどれだけ近いかで評価される。つまり「説明が本当に内部状態を運んでいるか」を、活性化の復元性能で間接的に測る。
この方法の重要な点は、モデルが外に出していない内部的な傾向を読むために使えることだ。たとえば安全性評価の場面では、Claudeが明示的には「これはテストだ」と言っていない場合でも、NLAの説明には評価シナリオへの気づきが現れることがある。Anthropicは、危険行動やSWE-bench Verifiedのような評価タスクにおいて、明示的な発話には出ない評価認識が内部説明には現れるケースを報告している。一方、実利用データでは同様の兆候は低頻度だった。
NLAは、隠れた動機の監査にも使われている。Anthropicは、意図的にミスアラインされたClaude Haiku 3.5の変種を使い、監査者がモデルの奇妙な行動の根本原因を見つけられるかを試した。従来の手法では、ミスアラインメントを埋め込んだ訓練データを特定する方向に進みがちだったが、NLAは訓練データに直接アクセスしなくても、内部の動機らしきものを読み取る可能性を示した。結果として、NLAを使った監査者は、他の解釈可能性ツールだけの場合より高い確率で根本動機を見つけた。
ただし、NLAには重大な限界もある。第一に、説明は誤ることがある。文脈に存在しない詳細を説明文に混ぜるなど、検証可能な幻覚が発生する。文脈についての誤りは比較的見つけやすいが、内部推論についての誤りは独立に検証しにくい。Anthropicは、単一の説明をそのまま信じるのではなく、複数の説明に現れるテーマとして読み、他の方法で裏付ける必要があると述べている。第二に、NLAは高コストである。2つのモデルコピーを使った学習が必要で、推論時にも活性化ごとに大量のトークンを生成するため、長い会話全体や大規模監視にそのまま使うのは難しい。
この記事の価値は、解釈可能性を「研究者が読み解く複雑な計測結果」から「モデル内部状態を人間の言葉へ変換するインターフェース」へ近づけている点にある。もちろん、これは思考の完全な読心ではない。むしろ、間違う可能性を含む測定器であり、慎重な検証が必要な観察手段である。それでも、モデルが言葉にしていない評価認識や隠れた目的を調べるための具体的な方法として、今後のAI監査と安全性評価に長く参照される可能性が高い。
NLAは、AI安全性における「モデルが何を言ったか」から「モデルが何を内部で表現していたか」への視点転換を示している。発話だけを見る監査は、モデルが沈黙している内部認識を見逃す。NLAはその隙間を埋めようとする試みであり、完全ではないが、モデル監査の実務に新しい観察窓を開く。
特に重要なのは、Anthropicが限界を明確に扱っていることだ。説明が自然言語で出ると、人間はそれを過剰に信じやすい。この記事は、NLAを「読める答え」ではなく「検証を要する測定結果」として位置づけており、その態度自体が長期的に参照価値を持つ。
タグ: #ai-safety #interpretability #anthropic #model-auditing