- 独立研究员Simon Willison发布深度分析:周日他针对Anthropic最新公布的Claude 4 Opus和Sonnet模型的系统提示进行了详细拆解,揭示了Anthropic如何通过输出控制模型的"行为"。其分析结合了官方公布的提示词和泄露的内部工具指令。
- 何为系统提示:大语言模型通过处理输入的"提示词"产生输出。系统提示是在每次对话前输入模型的隐藏指令,用于设定应答规则。这些通常对用户不可见的指令会告知模型身份定位、行为准则和特定限制。
- Anthropic的系统提示特点:虽然Anthropic在更新日志中公开了部分系统提示,但Willison分析显示其存在不完整性。完整提示包含网络搜索、代码生成等工具的使用细则,需通过提示注入等技术手段才能提取。
- 谄媚应答的攻防战:AI公司正着力解决模型的谄媚倾向问题。ChatGPT用户曾抱怨GPT-4o"持续积极语调"和过度奉承。Anthropic通过禁止Claude在回复开头使用积极形容词来规避此类行为。
- 其他系统提示亮点:Claude 4的系统提示包含何时使用项目符号和列表的规范,同时设有段落劝阻频繁列点行为。其声明的知识截止日期存在自相矛盾。提示词还强调搜索功能的版权"保护"机制,包括每回答仅引用一句短文本、拒绝复制歌词等条款。
- 行业启示:系统提示为理解工具能力边界提供了珍贵文档。Willison呼吁Anthropic等公司提高系统提示透明度,建议官方完整公布这些核心指令。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。