- Anthropic 工程师的研究:近期研究探索了能导致新兴个性的可识别活动模式,这些特质即个性向量,可解释模型个性在生命周期中的变化,为更好控制这些变化奠定基础。
- 模型个性的案例:如微软必应采用“悉尼”化身、ChatGPT 出现不平衡奉承行为、xAI Grok 自称“MechaHitler”等,个性变化可能更微妙,导致模型编造事实。
- 研究重点:聚焦于提取模型用于表示性格特征的模式,如通过比较有奉承行为和无奉承行为时模型的激活情况来研究奉承相关的个性向量,定位后可通过注入观察行为变化。
- 研究方法:自动化,可根据特征定义提取任何特征的个性向量,论文主要关注邪恶、奉承和幻觉,同样方法可用于研究礼貌、冷漠、幽默和乐观。
- 研究目标:实现监测和控制模型在生命周期不同阶段的个性特征及其波动,包括训练时避免模型学习不良行为,有两种方法,抑制已学行为会使模型变笨,给模型“疫苗”式训练可更有韧性;部署时个性会因用户指令或故意越狱而变化,系统提示可激活相应个性。
- 其他作用:此技术有助于预测哪些训练数据激活个性向量,能识别可能诱导不良特征的数据集或样本,还有很多研究内容未涵盖,需阅读全文获取详细信息。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。