Claude 十四行诗 4.5 在开源审计工具 Petri 中被评为最安全的大型语言模型

发布于 2025-10-07

主要观点：Claude Sonnet 4.5 在 Petri 的早期评估中成为“危险任务”中表现最佳的模型，Petri 是 Anthropic 新的开源 AI 审计工具，加入了 OpenAI 和 Meta 内部工具的生态系统且已公开发布；随着模型能力增强，安全测试从静态基准发展到自动化、代理驱动的审计；Anthropic 测试 14 个模型在 111 个危险任务上，各模型在四个安全风险类别中评分，虽 Sonnet 4.5 总体最佳但各模型都有未对齐行为；Petri 主要能力是自动化 AI 安全关键部分，通过简单指令启动审计员与模型交互探测有害行为并评分，可快速探索测试及减少手动评估工作，其开源促进对齐研究；Petri 有局限性如法官模型可能继承偏见，同时处于 AI 实验室内部安全工具浪潮中，正值政府规范 AI 安全要求，Petri 可能加速这一趋势。
关键信息：Petri 是 Anthropic 开源 AI 审计工具，早期评估中 Sonnet 4.5 表现最佳，模型安全测试发展，Anthropic 测试及各模型评分，Petri 自动化测试能力，法官模型局限性，处于内部工具浪潮及政府规范要求背景下。
重要细节：Petri 可在几分钟内进行假设测试，减少多轮安全评估手动工作；Anthropic 发布示例提示、评估代码等；OpenAI 长期采用外部红队和自动对抗评估，Meta 发布责任使用指南，英国和美国都在开发高风险模型评估框架等。

阅读 190