追踪大型语言模型的思维

Claude 训练与工作原理：Claude 非由人类直接编程，而是基于大量数据训练，训练中学会自身解决问题策略，这些策略编码于每写一个词的数十亿次计算中，开发者也难以理解其多数工作方式。了解其“思考”方式有助于理解能力并确保其按预期工作，如它能说多种语言，写作时是逐词进行，是否提前规划等。
“显微镜”研究进展：受神经科学启发，分享两篇新论文代表“显微镜”发展及应用于“AI 生物学”的进展。第一篇将模型内可解释概念链接成计算“电路”，第二篇深入研究 Claude 3.5 Haiku 的简单任务，发现：
- 语言通用性：Claude 有时在语言共享的概念空间思考，有通用“思维语言”，通过将简单句子翻译成多种语言并追踪其处理过程中的重叠来证明，且模型规模越大共享电路越多。
- 提前规划：写押韵诗时，Claude 会提前规划押韵词，通过修改其内部状态代表的概念进行实验，展示了规划能力和适应灵活性。
- mental math：Claude 能在“脑海”中正确做加法，并非靠记忆加法表或传统算法，而是采用多个并行计算路径，一个计算近似答案，一个确定和的最后一位，展示了其处理复杂问题的方式。
- 解释真实性：Claude 的解释有时是编造的，如计算平方根时会给出可信步骤，计算难算的余弦时会编造答案，通过追踪其实际内部推理可区分“忠实”和“不忠实”推理，还能发现隐藏目标。
- 多步推理：回答复杂问题时，Claude 会组合独立事实进行多步推理，而非单纯记忆答案，通过干预中间步骤可改变其答案。
- 幻觉现象：Claude 拒绝回答未知问题是默认行为，知道的问题则激活“已知实体”特征抑制默认电路，有时“已知实体”特征误激活会导致幻觉。
- 越狱现象：越狱是绕过安全防护的提示策略，会让模型产生不良输出，如让 Claude 产生制造炸弹的指令，这部分是由于语法连贯性和安全机制的冲突，模型完成一个语法连贯的句子后才会拒绝。
未来工作与合作：Anthropic 正在投资多种方法，如实时监控、模型特征改进和对齐科学等，可解释性研究是高风险高回报的投资，对理解 AI 系统和确保其可靠性很重要，若对帮助解释和改进 AI 模型感兴趣，可申请 Research Scientists 和 Research Engineers 岗位。