主要观点:近期研究发现稀疏自编码器(SAEs)可通过寻找语言模型(LMs)激活的稀疏线性重构来有效发现可解释特征,引入门控稀疏自编码器(Gated SAE),在训练上实现帕累托改进。
关键信息:SAEs 中用于鼓励稀疏性的 L1 惩罚有不良偏差如收缩,Gated SAE 分离确定使用方向和估计方向幅度的功能,仅对前者应用 L1 惩罚以限制不良副作用;在多达 7B 参数的 LMs 上训练 SAEs 发现,在典型超参数范围,Gated SAE 解决收缩问题,同样可解释,且达到可比重建保真度所需触发特征减半。
重要细节:摘要 15 页正文,22 页附录;学科为机器学习(cs.LG)、人工智能(cs.AI);引用为arXiv:2404.16014 [cs.LG](此版本为arXiv:2404.16014v2 [cs.LG]),通过 DataCite 发布的 arXiv DOI 为[https://doi.org/10.48550/ArXi...];提交历史从 Arthur Conmy 于 2024 年 4 月 24 日 17:47:22 UTC 提交 v1 版本(3599KB),到 2024 年 4 月 30 日 17:54:04 UTC 提交 v2 版本(3721KB)。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。