- Claude 训练与工作原理:Claude 非由人类直接编程,而是基于大量数据训练,训练中学会自身解决问题策略,这些策略编码于每写一个词的数十亿次计算中,开发者也难以理解其多数工作方式。了解其“思考”方式有助于理解能力并确保其按预期工作,如它能说多种语言,写作时是逐词进行,是否提前规划等。
“显微镜”研究进展:受神经科学启发,分享两篇新论文代表“显微镜”发展及应用于“AI 生物学”的进展。第一篇将模型内可解释概念链接成计算“电路”,第二篇深入研究 Claude 3.5 Haiku 的简单任务,发现:
- 语言通用性:Claude 有时在语言共享的概念空间思考,有通用“思维语言”,通过将简单句子翻译成多种语言并追踪其处理过程中的重叠来证明,且模型规模越大共享电路越多。
- 提前规划:写押韵诗时,Claude 会提前规划押韵词,通过修改其内部状态代表的概念进行实验,展示了规划能力和适应灵活性。
- mental math:Claude 能在“脑海”中正确做加法,并非靠记忆加法表或传统算法,而是采用多个并行计算路径,一个计算近似答案,一个确定和的最后一位,展示了其处理复杂问题的方式。
- 解释真实性:Claude 的解释有时是编造的,如计算平方根时会给出可信步骤,计算难算的余弦时会编造答案,通过追踪其实际内部推理可区分“忠实”和“不忠实”推理,还能发现隐藏目标。
- 多步推理:回答复杂问题时,Claude 会组合独立事实进行多步推理,而非单纯记忆答案,通过干预中间步骤可改变其答案。
- 幻觉现象:Claude 拒绝回答未知问题是默认行为,知道的问题则激活“已知实体”特征抑制默认电路,有时“已知实体”特征误激活会导致幻觉。
- 越狱现象:越狱是绕过安全防护的提示策略,会让模型产生不良输出,如让 Claude 产生制造炸弹的指令,这部分是由于语法连贯性和安全机制的冲突,模型完成一个语法连贯的句子后才会拒绝。
- 未来工作与合作:Anthropic 正在投资多种方法,如实时监控、模型特征改进和对齐科学等,可解释性研究是高风险高回报的投资,对理解 AI 系统和确保其可靠性很重要,若对帮助解释和改进 AI 模型感兴趣,可申请 Research Scientists 和 Research Engineers 岗位。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。