人类的“AI 显微镜”探索大型语言模型的内部工作原理

主要观点:Anthropic 的两篇论文旨在揭示大型语言模型内部的过程,探索如何定位可解释概念并与将其转化为语言的计算“电路”相联系,以及如何表征 Claude Haiku 3.5 的关键行为。大型语言模型能力背后的内部机制尚不清楚,Anthropic 开发了“AI 显微镜”方法来探索这一隐藏层的推理。
关键信息

  • 用替代模型替换研究模型,通过局部替代模型和误差项等处理输出差异,创建归因图描述特征流。
  • 发现 Claude 有某种通用语言用于生成概念后再翻译成特定语言,研究其生成韵律表明有提前规划,还探究了模型产生幻觉的原因及应对机制等。
    重要细节
  • 替代模型中神经元被稀疏活跃的特征替代,局部替代模型能产生与原模型相同输出并尽可能用特征替代计算。
  • 询问 Claude 不同语言中“小的相反”时,相同核心特征被激活触发“大”的概念。
  • 研究 Claude 生成韵律时发现其提前规划,模型产生幻觉是因识别名称但不知其他信息,“已知实体”特征可能抑制默认“不知道”特征而导致错误回答。
  • “AI 显微镜”尚处于初步阶段,只能捕捉模型计算的一小部分且仅适用于几十字的小提示。
阅读 9
0 条评论