用于生成式人工智能应用的亚马逊 Bedrock 护栏

发布于 2025-10-28

主要观点：Amazon Bedrock Guardrails 可为生成式 AI 应用实施安全措施和执行负责任的 AI 政策，可创建多个定制配置并应用于不同基础模型，确保一致用户体验和标准化安全控制。它能配置拒绝主题、内容过滤器、单词过滤器和敏感信息过滤器等政策来避免不良或有害内容，还可创建多个版本进行迭代修改，直接应用于基础模型，能测试和添加到代理中。
关键信息：

可通过 Amazon Bedrock 控制台创建 Guardrails，包括提供细节、设置消息等步骤。
支持内容过滤器检测和过滤有害的用户输入和模型生成输出，有不同的配置选项。
能添加拒绝主题、单词过滤器和敏感信息过滤器，可根据具体需求进行配置。
有上下文基础检查评估幻觉，包括接地和相关性阈值设置。
可在测试窗口中测试 Guardrail，查看输入输出被处理的情况，还可添加到代理中并测试。
重要细节：
在创建 Guardrail 时，可设置消息返回给用户，如检测到被阻止内容时。
内容过滤依赖于用户输入和模型响应在六个有害类别上的置信度分类。
单词过滤器有多种添加方式，敏感信息过滤器可选择屏蔽或阻止 PII 类型。
测试时可通过更改用户提示来触发不同条件，查看最终响应生成的影响。
添加 Guardrail 到代理时需在 Agent Builder 中进行选择和保存。

阅读 202