隐藏的 AI 指令揭示了 Anthropic 如何控制 Claude 4

发布于 5 月 28 日

独立研究员Simon Willison发布深度分析：周日他针对Anthropic最新公布的Claude 4 Opus和Sonnet模型的系统提示进行了详细拆解，揭示了Anthropic如何通过输出控制模型的"行为"。其分析结合了官方公布的提示词和泄露的内部工具指令。
何为系统提示：大语言模型通过处理输入的"提示词"产生输出。系统提示是在每次对话前输入模型的隐藏指令，用于设定应答规则。这些通常对用户不可见的指令会告知模型身份定位、行为准则和特定限制。
Anthropic的系统提示特点：虽然Anthropic在更新日志中公开了部分系统提示，但Willison分析显示其存在不完整性。完整提示包含网络搜索、代码生成等工具的使用细则，需通过提示注入等技术手段才能提取。
谄媚应答的攻防战：AI公司正着力解决模型的谄媚倾向问题。ChatGPT用户曾抱怨GPT-4o"持续积极语调"和过度奉承。Anthropic通过禁止Claude在回复开头使用积极形容词来规避此类行为。
其他系统提示亮点：Claude 4的系统提示包含何时使用项目符号和列表的规范，同时设有段落劝阻频繁列点行为。其声明的知识截止日期存在自相矛盾。提示词还强调搜索功能的版权"保护"机制，包括每回答仅引用一句短文本、拒绝复制歌词等条款。
行业启示：系统提示为理解工具能力边界提供了珍贵文档。Willison呼吁Anthropic等公司提高系统提示透明度，建议官方完整公布这些核心指令。

阅读 441