人类开放源代码工具以追踪大型语言模型的“思维”

Anthropic 研究人员开源了用于追踪大型语言模型推理过程中内部情况的工具,包括可用于任何开源权重模型的“电路追踪”Python 库以及在 Neuropedia 上托管的前端,可通过图形探索库输出。
Anthropic 最初披露时,其揭示语言模型内部行为的方法是用另一个使用跨层 MLP 转码器的稀疏激活特征而非原始神经元的模型来替换实际模型,这些特征常能代表可解释概念,通过修剪不影响所研究输出的所有特征可构建“归因图”
Anthropic 的电路追踪器库能识别替换电路并从给定模型使用预训练转码器生成归因图,可计算每个非零转码器特征、转码器错误节点和输入标记对其他非零转码器特征和输出对数的直接影响。
一位 Anthropic 研究人员在 Hacker News 上指出,该图揭示了模型采样标记的中间计算步骤,可提供有用见解,例如用于操纵转码器特征并观察模型输出的变化。
Anthropic 已使用其电路追踪器研究 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理和多语言表示,如“事实:包含达拉斯的州的首府是”的提示生成的归因图示例。
在 Dwarkesh Patel 主持的冗长播客中,Bricken 解释了 Anthropic 对电路追踪的研究是对语言模型机制可解释性的关键贡献,基于之前使用玩具模型、稀疏自编码器和最终电路的研究。这是一个非常年轻的领域,但对安全使用语言模型越来越关键,尽管不能从根本上证明一切都是安全的,但这是一个有力的令人安心的目标。电路追踪库可从 Anthropic 的教程笔记本轻松运行,也可在Neuronpedia上使用或在本地安装。

阅读 240
0 条评论