为什么大型语言模型会编造东西?新研究深入探究其内部机制。

主要观点:使用大型语言模型时,其编造信息的倾向令人沮丧,新研究揭示了帮助语言模型决定何时回答及何时拒绝的内部神经网络“电路”,尽管对其内部“决策”过程的理解仍不精确,但这类研究有助于解决 AI 编造问题。
关键信息

  • Anthropic 用稀疏自编码器系统揭示 Claude LLM 遇到内部概念时激活的人工神经元组。
  • 新研究追踪这些特征如何影响 Claude 响应中的计算决策“电路”。
  • 大型语言模型设计用于预测后续文本,在提示文本与训练数据匹配时有用,在处理“相对晦涩的事实或主题”时易猜测。
  • 微调可减轻问题,创建不同的人工神经元组,激活“已知实体”特征时模型更易回答,激活“不熟悉名称”特征时倾向于“不能回答”。
  • 研究发现人工增加“已知答案”特征的神经元权重会导致 Claude 编造信息,且模型对所知和不知的建模并不精细。
    重要细节
  • 新研究详细解释了 Claude 的“实体识别和幻觉”过程,包括不同特征和电路在关于体育明星的提示中的交互。
  • 举例说明询问关于 AI 研究者 Andrej Karpathy 和 Anthropic 数学家 Josh Batson 的论文时模型的不同反应。
  • 研究人员推测 Karpathy 幻觉可能是因为模型识别了其名字但缺乏具体论文信息。
  • 目前研究仅捕获 Claude 总计算的一部分,理解相关电路和特征仍需大量人力。
阅读 8
0 条评论