Claude 十四行诗 4.5 在开源审计工具 Petri 中被评为最安全的大型语言模型

主要观点:Claude Sonnet 4.5 在 Petri 的早期评估中成为“危险任务”中表现最佳的模型,Petri 是 Anthropic 新的开源 AI 审计工具,加入了 OpenAI 和 Meta 内部工具的生态系统且已公开发布;随着模型能力增强,安全测试从静态基准发展到自动化、代理驱动的审计;Anthropic 测试 14 个模型在 111 个危险任务上,各模型在四个安全风险类别中评分,虽 Sonnet 4.5 总体最佳但各模型都有未对齐行为;Petri 主要能力是自动化 AI 安全关键部分,通过简单指令启动审计员与模型交互探测有害行为并评分,可快速探索测试及减少手动评估工作,其开源促进对齐研究;Petri 有局限性如法官模型可能继承偏见,同时处于 AI 实验室内部安全工具浪潮中,正值政府规范 AI 安全要求,Petri 可能加速这一趋势。
关键信息:Petri 是 Anthropic 开源 AI 审计工具,早期评估中 Sonnet 4.5 表现最佳,模型安全测试发展,Anthropic 测试及各模型评分,Petri 自动化测试能力,法官模型局限性,处于内部工具浪潮及政府规范要求背景下。
重要细节:Petri 可在几分钟内进行假设测试,减少多轮安全评估手动工作;Anthropic 发布示例提示、评估代码等;OpenAI 长期采用外部红队和自动对抗评估,Meta 发布责任使用指南,英国和美国都在开发高风险模型评估框架等。

阅读 20
0 条评论