人类的“AI 显微镜”探索大型语言模型的内部工作原理

发布于 4 月 12 日

主要观点：Anthropic 的两篇论文旨在揭示大型语言模型内部的过程，探索如何定位可解释概念并与将其转化为语言的计算“电路”相联系，以及如何表征 Claude Haiku 3.5 的关键行为。大型语言模型能力背后的内部机制尚不清楚，Anthropic 开发了“AI 显微镜”方法来探索这一隐藏层的推理。
关键信息：

用替代模型替换研究模型，通过局部替代模型和误差项等处理输出差异，创建归因图描述特征流。
发现 Claude 有某种通用语言用于生成概念后再翻译成特定语言，研究其生成韵律表明有提前规划，还探究了模型产生幻觉的原因及应对机制等。
重要细节：
替代模型中神经元被稀疏活跃的特征替代，局部替代模型能产生与原模型相同输出并尽可能用特征替代计算。
询问 Claude 不同语言中“小的相反”时，相同核心特征被激活触发“大”的概念。
研究 Claude 生成韵律时发现其提前规划，模型产生幻觉是因识别名称但不知其他信息，“已知实体”特征可能抑制默认“不知道”特征而导致错误回答。
“AI 显微镜”尚处于初步阶段，只能捕捉模型计算的一小部分且仅适用于几十字的小提示。

阅读 20