SegmentFault 亚马逊云开发者最新的文章

从零开始：使用 Amazon Q CLI 开发一款软件

2025-05-28T09:22:32+08:00

一、项目背景

在现代软件开发中，依赖包的生命周期管理是一个常被忽视但至关重要的环节。当前市面上没有一款专门检查代码中依赖包生命周期（EOL, End of Life）的工具，但存在一个第三方网站 https://endoflife.date，可以查询常用库的 EOL 时间。我发现许多开发团队往往使用已经过期或即将过期的依赖包，这些过期的依赖包可能存在以下问题：

缺少安全更新；
不再获得技术支持；
可能存在已知的安全漏洞；
影响整体系统的稳定性和性能。

因此，我决定开发一个轻量级但功能强大的工具 eol-check，旨在帮助开发者快速、准确地检查项目依赖包的生命周期状态，提高软件供应链的安全性和可维护性。这个工具将直接对接 https://endoflife.date 网站的数据，为开发者提供实时、准确的依赖包生命周期信息。

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

在探索解决方案的过程中，我决定借助 Amazon Q CLI 这一创新的 AI 开发辅助工具来构建 eol-check。Amazon Q CLI 提供了强大的 AI 驱动的代码生成和智能辅助能力，这为快速开发高效、准确的依赖包生命周期检查工具提供了绝佳的技术支持。通过利用 Amazon Q CLI 的自然语言理解和代码生成能力，我能够全面实现这个工具的所有功能。

二、什么是 Amazon Q Developer CLI

Amazon Q Developer CLI 是亚马逊云科技推出的一款命令行界面工具，为开发者提供 AI 驱动的编程和云资源管理辅助功能。它是 Amazon Q 产品家族中专为开发者设计的命令行工具，能够直接在终端中提供智能帮助。

1. 核心功能

基于自然语言的代码生成和问答能力；
智能化的亚马逊云科技资源管理和操作；
本地文件系统和命令执行支持；
上下文感知的开发辅助。

2. 与其他 Amazon Q 产品线的关系和区别

Amazon Q Developer CLI 是 Amazon Q 产品家族的一部分，但与其他产品有明显区别：

Amazon Q Developer：IDE 插件形式，集成在开发环境中
Amazon Q Business：企业级知识库和业务助手
Amazon Q Developer CLI：专注于命令行体验，适合终端工作流

相比其他产品，CLI 版本更适合习惯命令行操作的开发者，提供了更直接的系统交互能力。

3. 技术架构概述

Amazon Q Developer CLI 采用客户端-服务器架构：

客户端：轻量级命令行工具，处理用户输入和输出展示
服务端：由亚马逊云科技托管的 AI 模型和服务，处理自然语言理解和代码生成
中间层：安全通信层，确保数据传输加密和用户认证

三、Amazon Q Developer CLI 能做些什么

1. 代码辅助功能

Amazon Q Developer CLI 提供了强大的代码辅助能力，帮助开发者提高编程效率：

代码补全和生成：通过自然语言描述需求，Q CLI 可以生成完整的代码片段、函数甚至整个模块。例如，只需输入”创建一个处理 S3 事件的 Lambda 函数”，它就能生成相应代码。
代码解释和优化建议：开发者可以粘贴现有代码，要求 Q CLI 解释其功能或提供优化建议。它能识别性能瓶颈、安全隐患和最佳实践偏差，并给出改进建议。
代码重构和转换：支持将代码从一种语言转换到另一种语言，或者将传统架构代码重构为云原生架构。例如，将 Java 8 代码升级到 Java 21，或将单体应用拆分为微服务。

2. 亚马逊云科技资源管理

作为亚马逊云科技原生工具，Q CLI 在云资源管理方面表现出色：

资源查询和状态检查：通过自然语言查询亚马逊云科技资源状态，如”显示所有运行中的 EC2 实例及其利用率”，无需记忆复杂的 Amazon CLI 命令。
配置文件生成和修改：能够生成和修改 CloudFormation、CDK、Terraform 等 IaC 配置文件，简化基础设施管理。
资源优化建议：分析现有亚马逊云科技资源配置，提供成本优化、性能提升和安全加固的建议。

3. 系统操作

Q CLI 能够执行各种系统级操作，简化开发者的日常工作：

文件系统操作：支持读取、写入和修改本地文件，帮助开发者快速处理文本和代码文件。
命令执行和自动化：能够执行系统命令并自动化常见任务，如批量文件处理、数据转换等。
故障排查和日志分析：协助分析日志文件，识别错误模式，并提供解决方案建议。

4. 开发工作流集成

Q CLI 设计为与现代开发工作流无缝集成：

与常见开发工具的集成：支持与 Git、Docker、npm/pip 等开发工具协同工作，增强现有工具链。
CI/CD 流程支持：能够生成和优化 CI/CD 配置文件，帮助开发者构建自动化部署流程。

四、我如何打造这个工具

1. 软件安装

从官网下载 Q CLI，目前支持的操作系统包括：

macOS

提供 dmg 安装包

Linux

Ubuntu – 提供 deb 安装包
其他（包括 Amazon Linux） – 使用 AppImage 安装，或者 zip 安装

Windows

安装 WSL（Windows Subsystem for Linux）
使用 Linux 虚拟机

具体参考安装适用于命令行的 Amazon Q

2. 开始构建

2.1 使用 Q

打开命令行工具，执行 q login 命令，进行注册/登录，然后执行 q chat 开启交互界面。

按照我们的一般思路，简单描述我们的功能需求，我们先让 Q 先产生一份详细的产品规格说明书。

本例使用提示词使用：

我要用 python 写一个包依赖检查是否过期工具，这个工具会从 https://endoflife.date 上通过 API 获取软件版本过期信息，然后与指定目录中的项目依赖文件进行比对。工具需要支持 python，nodejs，java。生成一份详细的产品规格说明书，并生成代码。

经过一番等待，我们中间可能要按数次 y 以确认 Q 要执行的命令行。如果你想让 Q 一次性完成所有指令的执行，可以输入 t。

等待任务完成后，我们已经获得一份代码，并生成了 README.md 文件。

2.2 关于调试

如果发现代码运行失败，我们可以直接将运行错误信息复制过来，然后粘贴到 q chat 中，Q 会自动帮我们分析错误日志，并修复代码。

2.3 迭代与完善功能

排除运行错误后，然后我们需要测试一下这个工具。根据测试，我们可能会发现，工具只是简单从 java 的 pom.xml 中解析了<dependency>中的依赖，但是没有检查依赖包的子依赖。

再使用提示词进行修改项目：

我发现现在检测只解析了 pom.xml 中解析了<dependency>中的依赖，没有解析子依赖项目。检查并修复这个问题。同时检查 nodejs 和 python 项目是否存在同样问题，并修复。

经过等待一段时间，现在这个项目已经可以用 npm、pip、mvn 等工具来检查子依赖项，并去重后进行比对版本。到了这个时候，这个工具已经基本可用。

最后我们再优化一下交互功能和性能：

添加网络请求缓存功能，缓存时间可以配置。增加网络请求的连接池，并发数默认为 CPU 数*2。添加扫描进度条，提取项目名在扫描报告中，扫描的报告需要支持 text、json、html 格式，扫描结果的不同状态用 emoji 进行表示。添加 REAMDE 的中文版本。

等待 Q 的一番操作，最后我们就获得了 eol-check 这样一个工具。

3. 成果展示

该工具目前已经发布在了 https://pypi.org/project/eol-check。

扫描报告示例

0.2.0 版本，还额外添加了 GUI 的部分，可以查看本地 Cache 的情况。使用 eol-check --ui 启动 GUI 界面。

GUI 界面

五、经验总结

在 Amazon Q CLI 几个小时的体验中，我总结了以下几点建议。

1. 提供详尽的需求说明

如果一开始我们对软件就有明确且详尽的功能说明文档，就可以减少任务调用的次数。以下情况 b 就会比 a 开发完成整体任务的对话次数少。虽然 a 和 b 在后期都需要进行继续优化调整，即便这样，b 总体耗时也会少很多。

a. 用 python 开发一个可以将程序依赖包对比 https://endoflife.date 上版本信息的程序。

b. 用 python 开发一个可以将程序依赖包和子依赖包对比 https://endoflife.date 上版本信息的程序，同时需要支持 java、python、nodejs 的项目。程序支持以多种格式进行结果报告的输出包括 text、json、html、csv。在检查过程中，应用程序会缓存网络请求的结果以优化下一次请求的速度。网络请求会使用多线程进行处理，默认线程数为 cpu 核心数*2。

2. 保证文档和代码一致

有时候代码和文档会出现不对齐的时候，可以让 Q 检查代码和文档是否一致。例如：“请根据 REAMME.md 文档检查代码和功能是否一致，如果不一致请更新文档。”

3. 尽量严谨地描述

功能需求不严谨的情况下，可能会生成一些硬编码，需要人工进行 review 发现，提出通用性改造的要求。例如我在实现 spring-boot-starter-parent 检查子依赖包 spring-boot 的时候，描述：“实现对 spring-boot-starter-parent 的子依赖包 spring-boot 的检查”。结果 Q 只对 spring-boot 这个包实现了硬编码的检查，而不是通用性的遍历子依赖的方式进行检查。这时候就需要人工检查并发现这个问题，然后及时提出修改建议。

4. 单文件行数不要过长

对于单文件非常长的时候，需要及时对 Q 提出优化代码的要求，减少单个文件的代码总行数。例如：“请根据单一功能的原则拆分源代码中的大文件。”拆分后的短小代码，在后续的修改中成功率会更高，步骤数更少。过长的代码可能导致 Q 阅读和修改代码的时候，只是进行了局部操作，忽略上了过长的上下文，导致局部逻辑正确，整体代码结构错乱，例如在一个 500 行的 python 代码中修改曾经出现，修改后的代码片段“缩进格式不正确”，然后 Q 会反复尝试修改以最小修改量来修复这个错误，最后花了很多时间迭代数十次才完成任务。

5. 及时保存里程碑

当我们完成一个里程碑任务的时候，建议使用 git commit 命令为项目保存状态，防止后续的连续开发过程中造成整体结构性的变化，导致项目无法正常运行。例如升级了某些依赖包的大版本，Q 又整体修改了一遍所有兼容代码后，发现这个依赖包出现了冲突无法使用，必须回退。这个时候用 git 的 commit 进行回滚，会比让 Q 来进行回滚处理，快得多。然后在下一次对 Q 提出要求的时候，将版本兼容问题同时写在“要求”里，则能更有效地让 Q 完成任务。

六、对开发工作未来的展望

1. 对开发者工作方式的潜在改变

AI 工具将重塑开发者的日常工作方式：

关注点从编码转向设计：开发者将花更多时间在系统设计和问题解决上，而不是编写样板代码。
更快的原型开发：从想法到原型的时间大幅缩短，加速创新周期。
知识获取方式变革：从查阅文档到直接询问工具，获取知识的方式更加直接和高效。
团队协作模式转变：AI 工具将成为团队中的”虚拟成员”，参与代码审查和知识共享。

2. 技能提升和学习方向建议

为了在 AI 辅助开发时代保持竞争力，开发者应该：

培养系统思维：理解整体架构和系统设计原则，而不仅仅是编码技能。
加强问题定义能力：清晰准确地定义问题是有效使用 AI 工具的关键。
学习提示工程：掌握如何构建有效的提示，引导 AI 工具产生最佳结果。
跨领域知识整合：将软件开发与领域专业知识结合，创造更有价值的解决方案。
持续学习新兴技术：保持对 AI、云计算和软件工程新趋势的关注和学习。

我期望这篇文章不仅能帮助你了解 Amazon Q Developer CLI，更能启发你思考 AI 时代的软件开发方向。技术工具在不断进化，但核心始终是为人类创造价值。作为开发者，我们的使命是利用这些工具，构建更美好的数字世界。

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

参考链接

Amazon Q Developer 官方文档
 AWS 博客：Amazon Q Developer CLI 介绍
 GitHub：Amazon Q Developer CLI 示例集
 AWS re:Invent 2023：Amazon Q 相关演讲
 开发者社区：Amazon Q 最佳实践讨论

本篇作者

利用生成式 AI 加速应用程序 Operational Readiness Review（ORR）流程

2025-05-26T09:47:49+08:00

在当今快速发展的技术环境中，确保应用程序在投入生产前达到高可用性、安全性和可靠性标准至关重要。运营就绪审查（Operational Readiness Review, ORR）作为一种系统化的评估方法，帮助团队在应用程序部署前识别潜在风险和改进机会。然而，传统的 ORR 流程往往耗时且需要大量人力资源。本文将介绍如何利用生成式 AI 技术和 Amazon Well-Architected 框架简化 ORR 流程，并展示一个基于 Dify、Amazon Bedrock 和 Amazon Well-Architected Tool 的解决方案。

什么是运营就绪审查（ORR）?

运营就绪审查（ORR）是一个结构化的评估过程，用于确定应用程序或系统是否已准备好投入生产环境。ORR 通常涵盖多个关键领域，包括:

安全性与合规性
可靠性与弹性
性能与效率
可操作性与可维护性
成本优化

ORR 的目标是在应用程序部署前识别并解决潜在问题，确保系统能够满足业务需求和技术标准。在做 ORR 的时候，运维和开发团队的负责人需要在公司统一的审查标准之上，对应用程序的各个方面进行审查，并最终生成报告。为了简化客户构建标准的过程，亚马逊云科技在 Well-Architected 框架下提供了一个全面的 ORR 评估基础，帮助团队构建安全、高性能、弹性强、高效且经济的应用程序。可参考此链接。

传统 ORR 流程面临的挑战

尽管 ORR 对于确保应用程序质量至关重要，但传统的 ORR 流程面临几个主要挑战：

时间密集型：全面的 ORR 可能需要数天甚至数周时间，延迟产品上市时间
专业知识要求：需要多个领域的专家参与审查过程
文档分析负担：审查人员需要阅读和分析大量技术文档
一致性问题：不同审查人员可能对相同问题有不同解读
知识传递困难：审查结果和建议的有效传递存在挑战

这些挑战导致许多组织要么简化 ORR 流程（牺牲质量），要么投入大量资源（增加成本），或者完全跳过这一步骤（增加风险）。

利用生成式 AI 和 Dify 加速 ORR 流程

“ORR on Dify”是一个创新解决方案，它结合了 Amazon Well-Architected 框架、大语言模型和 Dify 平台的能力，自动化 ORR 流程中的文档分析和评估环节。该解决方案能够:

自动分析应用程序设计文档
基于 Amazon Well-Architected 框架评估应用程序架构
生成详细的审查报告，包括风险识别和改进建议
直接与 Amazon Well-Architected Tool 集成，更新工作负载评估

通过这种方式，ORR 参与者可以将注意力集中在验证 AI 生成的评估结果和制定改进计划上，而不是花费大量时间阅读和分析文档。

解决方案架构

“ORR on Dify”解决方案由五个核心组件组成，架构如下图：

Dify 平台：提供知识库和大语言模型集成能力，用于文档处理和智能分析
Amazon Bedrock：提供强大的基础模型能力，支持文档理解和专业评估、
Amazon Well-Architected Tool：提供结构化的评估框架和 ORR 自定义镜头
Amazon Lambda API：与 Amazon Well-Architected Tool 交互，获取评估模板和更新工作负载
Streamlit 应用: 提供用户友好的界面，用于文档上传、审查启动和结果展示

核心组件详解

Dify 平台

Dify 是一个开源的 LLMOps 平台，在此解决方案中主要提供：

知识库功能，用于存储和索引应用程序设计文档
大语言模型集成，用于文档理解和分析
工作流引擎，用于编排 ORR 评估流程
在工作流中定义各个步骤，基于 Bedrock 中的模型而完成复杂的分析任务

Amazon Bedrock

Amazon Bedrock 是亚马逊云科技的生成式 AI 模型平台服务，在此解决方案中发挥关键作用：

提供高性能的基础模型（如文本生成和 Embedding 模型等）
提供 Claude Haiku 文本生成模型，提供高性价比选择
提供 Titan Embedding v2 模型，用于知识的集成和召回

通过 Amazon Bedrock，解决方案能够理解技术文档的复杂性，并基于 Amazon Well-Architected 框架进行专业评估。

Amazon Well-Architected Tool

Amazon Well-Architected Tool 是亚马逊云科技提供的一项服务，用于评估架构并提供改进建议：

提供标准化的评估框架和最佳实践
支持自定义镜头，用于特定场景的评估
亚马逊云科技提供专门的 ORR 自定义镜头，涵盖 ORR 的关键方面
记录和跟踪工作负载评估结果
生成详细的改进计划和风险报告

Amazon ORR 自定义镜头是专为运营就绪审查设计的评估模板，包含一系列结构化问题和最佳实践，帮助团队全面评估应用程序的运营就绪状态。通过使用这一自定义镜头，组织可以确保其应用程序在部署前满足亚马逊云科技推荐的运营标准。

Amazon Lambda API

Lambda API 作为 Amazon Well-Architected Tool 的接口层，提供两个主要功能:

get_lens_info：获取 Well-Architected 自定义镜头（ORR 模板）信息
operate_wa_tool：创建或更新 Well-Architected 工作负载评估

这些 API 使得解决方案能够无缝集成到 Amazon Well-Architected 框架中。

Streamlit 应用

Streamlit 应用提供直观的用户界面，包含三个主要页面：

上传文档：将应用程序设计文档上传到 Dify 知识库
审阅应用：选择知识库和 ORR 模板，启动自动化审查
设置：配置 API 连接和验证系统状态

Dify 工作流详解

Dify 工作流是解决方案的核心，它定义了 ORR 评估的自动化流程。工作流文件 orr-on-llm-workflow-v5.yml 包含多个步骤，每个步骤执行特定功能：

1、获取镜头信息（Get Lens Info）：

调用 Lambda API 获取 Well-Architected 自定义镜头信息
提取评估支柱、问题和最佳实践
为后续评估准备结构化模板

2、知识库查询（Knowledge Base Query）：

基于评估问题查询上传的应用程序文档
提取相关内容，为评估提供证据
处理文档中的技术细节和架构信息

3、评估分析（Assessment Analysis）：

利用 Amazon Bedrock 模型分析文档内容（Prompt 如下图）
基于 Amazon Well-Architected 框架评估应用程序设计
为每个问题生成风险评级和详细分析

4、生成报告（Report Generation）：

汇总各个支柱的评估结果
生成结构化的审查报告
提供具体的改进建议和最佳实践参考

5、更新工作负载（Update Workload）：

将评估结果同步到 Amazon Well-Architected Tool
创建或更新工作负载记录
保存详细的评估答案和选择

工作流中的每个步骤都经过精心设计，确保评估过程的完整性和准确性。通过这种结构化的工作流，解决方案能够自动化执行传统上需要多位专家手动完成的评估任务。

部署与使用指南

部署流程

部署“ORR on Dify”解决方案需要以下步骤：

1、准备亚马逊云科技环境：

确保拥有亚马逊云科技账户和必要权限
安装 Amazon CLI 并配置凭证

2、部署 Dify 服务：

使用提供的 Amazon CloudFormation 模板部署 Dify 服务
记录 Dify 服务 URL 和访问凭证
在 Dify 中配置 Bedrock 为模型提供商

3、配置 Amazon Bedrock 访问：

确保账户已启用 Amazon Bedrock 服务
获取必要的模型访问权限

4、部署 Amazon Lambda API：

使用 Amazon CloudFormation 模板部署 Lambda 函数和 API Gateway
记录 API 端点 URL

5、导入 Amazon Well-Architected 自定义镜头：

使用提供的工具导入 ORR 评估模板
记录自定义镜头 ARN
或使用亚马逊云科技提供的 ORR 自定义镜头

6、配置环境变量：

设置 Dify 相关环境变量
设置 Amazon Lambda API 相关环境变量
设置 Amazon Well-Architected Tool 相关环境变量

7、启动应用：

详细的部署指南可在项目的 deploy/README.md 文件中找到。

使用流程

使用“ORR on Dify”进行应用程序审查的典型流程如下，项目启动后请通过链接访问应用：

1、上传设计文档：

访问”上传文档”页面
选择或创建知识库
上传应用程序设计文档（支持 PDF、Word、Markdown 等格式）

2、启动审查：

访问“审阅应用”页面
选择包含设计文档的知识库
选择适用的 ORR 模板
按照提示录入信息
点击“开始工作流”按钮

3、查看审查结果：

审查完成后，系统会显示详细的评估报告
报告包括各个评估领域的风险级别和改进建议
同时，Amazon Well-Architected Tool 中的工作负载也会被更新

解决方案优势

“ORR on Dify”解决方案为 ORR 流程带来多项显著优势：

效率提升：将文档分析时间从数天缩短到数分钟
一致性增强：确保评估标准的一致应用
专业知识补充：通过 Amazon Bedrock 提供领域专业知识
可追溯性：自动记录评估过程和结果
与亚马逊云科技最佳实践对齐：直接集成 Amazon Well-Architected 框架和 ORR 自定义镜头
工作流自动化：通过 Dify 工作流引擎实现端到端自动化

结论

运营就绪审查是确保应用程序质量和可靠性的关键步骤，但传统流程面临效率和资源挑战。“ORR on Dify”解决方案通过结合生成式 AI、Dify 平台、Amazon Bedrock 和 Amazon Well-Architected Tool，显著简化了 ORR 流程，使团队能够更快、更一致地进行应用程序评估。

亚马逊云科技提供的 ORR 自定义镜头进一步增强了解决方案的价值，为评估提供了标准化的框架和最佳实践。通过将这一自定义镜头与生成式 AI 技术相结合，组织可以获得既符合亚马逊云科技标准又高效的评估体验。

这种创新方法不仅提高了 ORR 的效率，还增强了评估质量，使组织能够在不牺牲速度的情况下维持高标准。随着生成式 AI 技术的不断发展，我们期待看到更多类似的解决方案出现，进一步优化软件开发和运营流程。

要开始使用“ORR on Dify”，请访问 GitHub 仓库获取完整的部署指南和源代码。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

提升开发运维效率：原力棱镜游戏公司的 Amazon Q Developer CLI 实践

2025-05-23T09:53:06+08:00

引言

在当今快速发展的云计算环境中，游戏开发者面临着新的挑战和机遇。为了提升开发效率，需要更智能的工具来辅助工作流程。Amazon Q Developer CLI 作为亚马逊云科技推出的生成式 AI 助手，为开发者提供了一种新的方式来与云服务交互。

Amazon Q Developer CLI 是一个命令行工具，它让开发者可以在终端环境中使用生成式 AI 功能。通过自然语言交互和代码生成等特性，Amazon Q Developer CLI 可以帮助更高效地完成特定开发任务，减少重复性工作。开发者只需一句自然语言指令，便可完成原本需要数十个复杂命令才能实现的操作，从而真正实现”所想即所得”。

需要特别强调的是，尽管 Amazon Q Developer CLI 能够自动化许多复杂任务，但在生产环境中，开发者应始终对其生成的命令和代码进行审核后再执行。这种人为审核确保了安全性和准确性，尤其是在处理敏感资源或执行关键操作时，防止潜在的错误产生不可预见的后果。

原力棱镜游戏公司在研发和运维流程中全面引入了 Amazon Q Developer CLI，将其应用于复杂代码分析、策划数据表分析、基础设施搭建、线上排障、多云管理等多个环节，显著提升了开发效率和团队协作。在众多应用场景中，本文精选了两个具有代表性的案例进行详细介绍：Amazon EKS (Elastic Kubernetes Service) 研发联调类环境管理和助力游戏微信小程序转型。这些案例展示了 Amazon Q Developer CLI 如何帮助开发团队克服技术壁垒，加速业务创新。

Amazon Q Developer CLI 概述

Amazon Q Developer 是亚马逊云科技推出的生成式人工智能驱动的对话式助手，旨在帮助开发者理解、构建、扩展和操作亚马逊云科技应用程序。Amazon Q Developer CLI 是这一工具的命令行界面版本，专为喜欢在终端环境中工作的开发者设计。

Amazon Q Developer CLI 提供了多种功能，包括交互式聊天体验、自然语言到代码转换、代码生成与转换，以及工具权限管理等。它支持多种操作系统环境，安装过程简单直观，并与亚马逊云科技生态系统中的其他开发工具集成。

案例一：CLI 助力研发联调类环境快速交付

在游戏开发中，Kubernetes 常被用于容器编排，支持游戏服务的部署和扩展。传统上，创建和管理 EKS 集群是运维团队的专属工作，需要掌握大量 Kubernetes 相关命令和专业知识。原力棱镜游戏公司希望打破这一壁垒，让开发人员能够在需要时自主创建和管理资源，实现”随用随开”的灵活开发环境。

面临的背景和需求

作为一家游戏开发公司，原力棱镜团队经常需要为不同的项目和测试环境快速创建基础设施。以往这类需求需要提交工单给运维团队，通常会遇到以下问题：

资源管理困难：临时环境的创建和销毁缺乏灵活性
知识壁垒：大多数开发人员不熟悉 Kubernetes 的复杂概念和操作命令

团队曾考虑过采用自动化脚本或工具来解决这一问题，但传统自动化方案存在几个明显缺点：

维护成本高：自动化脚本需要运维团队持续维护和更新
缺乏灵活性：预设的自动化流程难以满足多变的项目需求
学习曲线陡峭：开发人员仍需学习特定的配置语法和参数

原力棱镜希望找到一种方法，让不懂 Kubernetes 的开发人员也能够自主创建和管理所需的开发环境，而不必依赖专职运维团队或复杂的自动化流程。

Amazon Q Developer CLI 的应用

原力棱镜引入 Amazon Q Developer CLI，使开发人员可以通过自然语言交互直接创建和管理 EKS 集群。以下是一个典型的使用场景。

在这个示例中，开发人员使用了完全不含任何 Kubernetes 专业术语的简单描述，Amazon Q Developer CLI 能够理解意图并将其分解为具体的技术步骤。需要注意的是，在生产环境中，我们建议开发人员不要使用 /acceptall 指令让 CLI 自动执行所有任务，而是应该仔细审查每一条生成的命令，确保其符合预期后再手动执行。这样可以避免潜在的错误配置或安全风险。同时，我们也建议开发人员逐步学习相关的 Kubernetes 概念，如角色、节点组等，以便更好地理解和管理生产环境。虽然 CLI 可以帮助快速搭建测试环境，但在生产环境中，深入理解底层技术架构仍然是必要的。

传统 EKS 集群创建流程

在使用 Amazon Q Developer CLI 之前，创建 EKS 集群通常需要运维工程师按照亚马逊云科技官方最佳实践手动执行以下步骤：

1、准备 IAM 角色和权限

创建 EKS 集群 IAM 角色
附加必要的策略
创建节点组 IAM 角色
为节点组角色附加工作节点策略

2、网络配置

规划 VPC 和子网
配置安全组
设置路由表
创建和配置集群

3、使用 eksctl 或 AWS CLI 创建 EKS 集群

等待集群创建完成
配置 kubectl 认证
添加节点组

4、创建节点组配置

部署节点组
验证节点就绪状态

这个过程不仅需要专业知识，还容易出错。而 Amazon Q Developer CLI 严格遵循 AWS 最佳实践，自动化地完成上述所有步骤，既保证了配置的正确性，又大大简化了操作流程。

使用自然语言描述需求

一位游戏开发人员（非 Kubernetes 专家）需要创建一个测试环境来部署新开发的游戏服务。在代码仓库切出了一个新的特性分支后，他需要立即测试这段代码的功能。他只需启动 Amazon Q Developer CLI 并输入一句简单的自然语言描述：

请帮我在东京地区创建eks集群，命名为lost2-battle，启动一个pod，pod配置4C8G，镜像在东京ECR仓库，volcanoforce/lost2_battle，版本：v1.0.3。services使用Internet-facing类型lb，对外开放80端口。nodegroup使用c5a.2xlarge机型。请在完成所有的创建后，在本地新建更新pod脚本。

图 1：开发人员使用自然语言请求创建 EKS 集群

自主完成集群创建与配置

Amazon Q Developer CLI 理解了这一需求，自动生成所需的命令和配置，并自动执行：

1、创建 EKS 集群角色

图 2：CLI 自动生成创建 EKS 角色的命令

在这一步中，CLI 自动识别出创建 EKS 集群的前置条件是需要一个具有正确权限的 IAM 角色。

2、创建 EKS 集群

图 3：CLI 生成 EKS 集群创建命令并执行

在生成 EKS 集群创建命令时，CLI 根据开发人员使用自然语言描述的 EKS 版本和亚马逊云科技区域选择合适的参数，无需开发人员查阅文档即可完成任务，并且这一过程是全自动的。

3、创建节点组

图 4：CLI 创建和配置节点组角色权限

节点组角色的创建通常需要理解复杂的 Amazon IAM 政策和权限系统。CLI 自动生成了所需的策略附加命令，并且自动执行。

图 5：CLI 创建节点组并监控进度

在创建节点组时，CLI 自动设置了开发人员要求的实例类型和节点数量，CLI 还主动等待操作完成，提供实时反馈。

4、创建 Pod 和 Service

图 6：CLI 自动生成并应用 Kubernetes 资源配置

CLI 自动编写并应用了 Kubernetes YAML 文件，省去了开发人员学习 Kubernetes 资源定义的时间。

5、生成更新容器镜像版本的 shell 脚本

图 7：CLI 生成容器镜像版本更新脚本

CLI 自动生成了一个shell脚本，用于更新容器镜像版本。这个脚本可以帮助开发人员在后续需要更新应用程序时，快速完成容器镜像的更新操作，无需手动编写复杂的 kubectl 命令。这种自动化脚本的生成大大简化了应用程序的维护工作。

6、检查集群状态

图 8：CLI 检查部署状态

CLI 自动定时轮训检查部署状态，直到部署完成。

7、生成任务总结和维护说明

图 9：操作总结和资源访问指南

最后，CLI 提供了完整的操作总结，包括所创建资源的概览、如何访问服务的说明，以及生成的 update_pod.sh 脚本使用说明。这个脚本可以让开发人员通过简单的命令行操作完成容器镜像的更新，无需手动编写复杂的 kubectl 命令。

自主完成集群删除

通过 Amazon Q Developer CLI 使用自然语言实现 EKS 集群的删除，整个过程也是自动的（开发人员事先输入了 /acceptall 指令，授权 CLI 自动执行全部任务），交互过程如下：

1、用自然语言与 Amazon Q Developer CLI 交互

注意：本示例中由于东京区域只有一个 EKS 集群，所以简单的描述就足够了。但在实际应用中，如果区域内有多个 EKS 集群，应该明确指定要删除的集群名称，例如”请帮我删除东京区域的 eks-demo 集群”，以避免误操作。

我在东京区域有个eks集群，请帮我删了

图 10：使用自然语言请求删除 EKS 集群

开发人员只需使用简单的自然语言请求删除集群，无需知道 EKS 资源之间的依赖关系和正确的删除顺序，这些复杂性由 CLI 自动处理。

2、删除 EKS 节点组，并等待删除完成

图 11：CLI 智能执行节点组删除操作

CLI 理解 EKS 资源之间的依赖关系，知道必须先删除节点组才能删除集群。它自动执行这一步骤，避免了因资源依赖关系导致的删除错误，这是缺乏经验的开发人员常犯的错误。

3、确认 EKS 节点组删除后，删除 EKS 集群

图 12：CLI 执行集群删除并提供进度反馈

CLI 智能地等待节点组完全删除后再删除集群，这种依赖关系的管理通常需要运维经验。同时，它还提供实时反馈，让开发人员了解操作进度。

4、等待 EKS 集群删除完成并进行任务总结

图 13：资源清理确认和操作总结

最后，CLI 确认所有资源已正确清理，防止资源泄漏导致的不必要费用产生。这种彻底清理的做法体现了良好的云资源管理实践。

这种方式使得开发人员无需了解底层的 Kubernetes 命令和概念，也能完成以前只有运维人员才能完成的任务。与固定的自动化脚本不同，CLI 能灵活应对各种场景需求，无需预先编写和维护大量脚本。开发人员只需用自然语言表达需求，就能获得定制化的环境。CLI 不仅能完成环境搭建，还能自动生成便于后续维护的工具脚本，比如用于更新容器镜像版本的 shell 脚本，这进一步降低了开发人员的操作门槛。这种”所想即所得”的体验，真正实现了”随需应变”。

通过赋能开发人员直接管理环境，原力棱镜实现了以下收益：

加速开发流程：从提交工单到自助创建，环境准备时间从数天缩短到数小时。
优化资源使用：开发人员可以在不需要时立即释放资源，节约成本。
专注核心开发：开发人员可以更专注于游戏功能开发，而不是等待基础设施。

这一案例展示了 Amazon Q Developer CLI 如何赋能非专业运维人员完成复杂的云基础设施任务。企业仍应建立适当的权限和安全策略，确保开发人员创建的资源符合组织的安全标准和最佳实践。值得注意的是，上述测试环境案例中使用了 /acceptall 指令来自动执行命令，这适用于开发测试场景。但在生产环境中，强烈建议开发者逐条审核 CLI 生成的命令和配置后再执行，以确保万无一失。

案例二：CLI 助力游戏微信小程序转型

原力棱镜的某款热门游戏需要接入微信小程序生态以扩展用户群体，但面临微信小程序 30MB 包体限制的挑战。团队需要将数百 MB 的游戏资源放到 CDN 上通过异步形式加载，因此需要将大量 C# 代码由同步调用改为异步调用。这种转换通常是一项耗时且容易出错的任务。

面临的挑战

原力棱镜团队的 C# 游戏应用程序包含大量同步方法，移植到微信小程序平台需要解决以下问题：

大量代码需要转换：应用程序中有几百个同步方法需要转换为异步实现。
保持功能一致性：确保转换后的代码行为与原始代码相同。
处理复杂依赖关系：许多方法之间存在复杂的调用关系和依赖。
时间压力：为了赶上市场窗口期，需要在短时间内完成微信小程序版本的开发。

Amazon Q Developer CLI 如何辅助代码转换

团队使用 Amazon Q Developer CLI 来辅助这一转换过程：

1、自然语言请求代码转换

开发人员通过简单的自然语言请求，向 Amazon Q Developer CLI 描述了需求：

找到GuideNavigationContext.cs 然后里面有UIManager.CreateView的调用，我现在需要异步编程，所以我写了一个新的UIManager.CreateViewAsyncUniTask，我现在需要你帮我把GuideNavigationContext.cs里面的同步改异步，UniTask你可以从工程里找到，你试试吧

图 14：使用自然语言请求 C#代码转换

2、代码分析与转换建议

Amazon Q Developer CLI 分析了原始 C# 代码，并进行了转换。以下是代码转换前后的对比：

图 15：C#同步方法转异步方法示例

Amazon Q Developer CLI 先找到所有调用位置，参见下图：

图 16：CLI 找到所有调用方代码

接下来，Amazon Q Developer CLI 完成了对所有调用代码的调整，下图为其中一个示例：

图 17：调用方代码异步化改造

这一案例展示了 Amazon Q Developer CLI 如何辅助完成代码转换任务。尽管 Amazon Q Developer CLI 可以提供转换建议，但开发人员仍需要审核和测试转换后的代码，确保其正确性和性能。在某些复杂场景下，可能需要手动调整生成的代码。

总结与最佳实践

Amazon Q Developer CLI 将生成式 AI 的能力集成到命令行环境中，通过上述两个案例，可以看到它为原力棱镜游戏公司带来了多方面的业务价值：

消除技术壁垒：让开发人员无需深入了解 Kubernetes 底层技术就能完成复杂任务，降低了技术门槛。
加速业务创新：从研发环境快速交付到微信小程序转型，CLI 工具帮助团队快速响应业务需求和市场机会。
降低成本：通过赋能开发人员自助服务，减少了环境等待时间和资源浪费，提高了整体研发效率。
业务敏捷性提升：使团队能够快速适应业务变化（如拓展到微信小程序平台），进入新的用户市场。
一句话完成复杂操作：以前需要编写数十行命令或复杂脚本的操作，现在只需一句自然语言指令即可完成，大幅降低了操作门槛。
分支即环境：任何代码分支都可以立即拥有对应的测试环境，开发人员能够随时进行功能验证和联调测试。

与传统解决方案相比，Amazon Q Developer CLI 提供了独特的优势：

相比人工操作：无需等待专家执行，避免了人员依赖，大幅减少了等待时间。
相比自动化脚本：无需预先定义所有场景，能够灵活应对变化的需求，且无需维护大量脚本。
相比低代码平台：更加灵活，可处理复杂场景，同时保持了接近原生命令的完整功能。

在使用 Amazon Q Developer CLI 时，推荐遵循以下最佳实践：

明确表达意图：向 CLI 提供清晰、具体的需求描述，让 AI 更好地理解目标。
迭代式交互：复杂任务可以分步实施，在每一步验证结果后再继续。
审核生成的代码和命令：特别是在生产环境中，始终检查 Amazon Q Developer CLI 生成的内容。切勿在生产环境中使用 /acceptall 指令自动执行所有命令，而应当逐条审核确认，特别是对于可能影响生产服务或产生不可逆转更改的操作。
建立治理机制：企业应建立适当的权限和安全策略，确保通过 CLI 创建的资源符合组织标准，并对生产环境中的 CLI 使用制定明确的审核流程和权限控制。
持续学习：让团队在使用过程中积累经验，逐步掌握如何更有效地使用自然语言与 CLI 交互。
生产环境安全第一：在生产环境中使用 Amazon Q Developer CLI 时，应遵循”先审核，后执行”的原则。可以先在非生产环境中验证命令的正确性，然后再将其应用到生产环境。

随着生成式 AI 技术的不断发展，Amazon Q Developer CLI 将继续进化，为开发者提供更强大的能力。通过合理利用这一工具，企业可以加速数字化转型，让团队聚焦于创造业务价值而非处理繁琐的技术细节。同时，保持对自动化操作的审慎态度，确保技术创新与运营安全的平衡。

资源链接

要开始使用 Amazon Q Developer CLI，请访问以下资源：

Amazon Q Developer 官方文档 – 全面了解 Amazon Q Developer 的功能和使用方法
Amazon Q Developer CLI 安装指南 – 详细的安装步骤和系统要求
Amazon Q Developer 定价 – 了解各种使用场景下的费用计算

通过利用这些资源，您可以更快地掌握 Amazon Q Developer CLI 并将其集成到您的开发工作流程中。随着 Amazon Q 能力的不断扩展，建议定期访问这些资源以了解最新更新和最佳实践。

本篇作者

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

基于亚马逊云科技构建音视频直播审核方案

2025-05-21T09:04:50+08:00

1. 前言

随着互联网内容形态的多样化发展，用户生成内容（UGC）呈现爆发式增长。社交平台、直播、短视频、语聊房等应用场景中，海量的音视频内容需要进行实时审核，以维护平台安全与用户体验。

然而，企业在构建审核系统时通常面临以下挑战：

审核准确性：需要精准识别多种媒介中的违规内容，减少误判率
实时性要求：在直播等场景要求尽可能快地获取结果
成本压力：审核成本高昂，自建审核平台投入大
规则定制：不同场景下的审核标准各异，需要灵活配置
系统稳定性：需要支持高并发且保证服务可用性

基于此，我们将介绍如何利用开源项目，以及亚马逊云科技的服务，包括 Amazon Bedrock、Amazon Rekognition、Amazon SageMaker 等，构建一个性价比高、支持多模态内容审核、响应延迟低、规则可配置的直播、存量音视频审核解决方案。

2.直播审核简介

2.1 直播审核整体架构图

本方案支持基于实时视频流的审核，仅需提供播放链接，即可进行审核。

2.2 直播审核亚马逊云科技架构图

服务简介：

Amazon Lambda：是一项无服务器计算服务，可执行您的代码，可快速帮助您将想法转化为应用程序。
Amazon SQS：适用于微服务、分布式系统和无服务器应用程序的完全托管的消息队列。
Amazon DynamoDB：无服务器、NoSQL、完全托管的数据库，在任何规模下均具有个位数毫秒级的性能。
Amazon ECS：是一项完全托管式容器编排服务，可帮助您更高效地部署、管理和扩展容器化的应用程序。
Amazon Fargate：是一种无服务器的计算引擎，可让您专注于构建应用程序，而无需管理服务器。
Amazon Rekognition：利用机器学习技术自动执行图像识别和视频分析并降低成本，支持内容审核、人脸识别、面孔比较、名人识别等诸多功能。
Amazon Sagemaker：是一站式机器学习平台，支持大规模构建、训练和部署机器学习模型。我们可以在 Amazon SageMaker 中部署 ASR 模型（如 Whipser）。
Amazon Bedrock: 是一项完全托管的服务，通过 API 即可轻松调用 Amazon Nova、Anthropic Claude、Meta Llama、Stable Diffusion 等前沿的高性能基础模型。我们可以通过 Amazon Bedrock 调用 Amazon Bedrock Marketplace 中的 ASR 模型（如 Whisper）。

架构简介：

A. 通过 ApiGateway 发送审核请求到 CreateTask Lambda。

B. CreateTask Lambda 创建 ECS Fargate 任务用于处理直播流（为降低延迟 ECS 中可预置部分 Fargate）。

C. CreateTask Lambda 将审核任务信息（播放链接、用户信息等）存入 ModerationTaskSQS 以及 DynamoDB。

D. ECS 中的 Fargate 服务从 ModerationTaskSQS 获取消息，并处理直播流。

E. ECS 从直播流中截取图片/视频（直播视频的视觉审核，可通过截取直播视频中的图片或者短视频进行审核）、音频文件存入 S3，并将音频/图片/视频审核信息存入 SQS。

F. 图片/视频审核的 SQS 触发 Image/Video ModerationLambda，调用 Bedrock 中的模型/Rekogniton 进行审核。

G. 音频审核的 SQS 触发 Audio ModerationLambda，首先调用 SageMaker 中的 Whisper 进行语音识别，然后调用 Bedrock 中的模型进行审核。

H. 音频/图片/视频审核审核完成后，会将信息存入 Dynamodb，将违规素材存入 S3，同时将信息存入 MessagePush SQS。SQS 会调用 MessagePush Lambda 给用户的回调服务器推送消息。

方案费用：

本方案采用无服务器架构，只需为用量付费，并可享受部分免费套餐。其中部分费用如下：

Amazon Nova Micro：进行文本审核，每 1000token 仅需 $0.000035。
Amazon Nova Lite：进行图片/视频审核，每 1000token 仅需 $0.00006。
Amazon DynamoDB：免费提供 25GB 的存储量以及每月最多 2 亿次读/写请求（永久）。
Amazon SQS：每月免费提供 100 万的请求（永久）。
Amazon Api Gateway：每月接收 100 万次 API 调用（12 个月内）。
Amazon Lambda：每月免费提供 100 万个请求（永久）。
Amazon Rekognition：每月可以免费使用 Rekognition 分析 1000 张图像（12 个月内）。

直播审核涉及的技术点主要有直播流处理、音频审核、文本审核、图像审核。

2.3 直播流处理

我们可以通过 FFmpeg 处理直播流。针对直播中的声音，可以通过 FFmpeg 截取音频。针对直播中的图像，可以通过 FFmpeg 截取图片或视频（无声）。

FFmpeg 是一个强大的多媒体处理工具，常用于音视频转码、剪辑、格式转换等。在 AWS 上，除传统虚拟机外，还支持通过 Lambda 或 Fargate 等 Serverless 服务来部署 FFmpeg。通过 Lambda 和 Fargate 部署 FFmpeg 的区别如下：

Amazon Lambda 部署 FFmpeg：适用于短时、低频的处理任务，按使用量计费，无需管理服务器，支持高并发。但受 15 分钟执行时间限制，适用于短音视频处理。
Amazon Fargate 部署 FFmpeg：适用于长时间、高性能处理任务，自动扩展计算资源。无需管理容器。相比 Lambda，适合复杂和大规模需求的处理。

通过 FFmpeg 从直播流中截取音频的代码如下：

#音频截帧时长
audio_segment_duration=10
audio_dir ="audio"
media_url="lee.mp4"
stream = ffmpeg.input(media_url,)
audio_output_pattern = os.path.join(audio_dir, '%06d.wav')

audio_output = ffmpeg.output(stream['a:0'], audio_output_pattern,
                             acodec='pcm_s16le',
                             ar=16000,
                             ac=1,
                             f='segment',
                             segment_time=audio_segment_duration,
                             reset_timestamps=1
                             )

通过 FFmpeg 从直播流中截取图片的代码如下：

#图片截帧频率
snapshot_interval=1
img_dir = "image"
stream = ffmpeg.input(media_url,)
image_output_pattern = os.path.join(img_dir, '%06d.jpg')

image_output = ffmpeg.output(stream['v'], image_output_pattern,
                             vf=f'fps=1/{snapshot_interval}',
                             start_number=0
)
通过 FFmpeg 从直播流中截取无声视频的示例代码如下：
#### 小标题
video_output = ffmpeg.output(stream.video, output_pattern,
                             c='copy',
                             f='segment',
                             segment_time=segment_duration,
                             reset_timestamps=1
                             )

下一步我们需要分别对音频及图像（图片或无声视频）进行审核。

2.4 音频审核

音频审核通常需要先将语音转换为文本，再利用文本审核技术识别违规内容。

在本方案中我们在 Audio Moderation Lambda 中调用 SageMaker 中的 Whipser 进行语音识别获取文本。然后调用 Bedrock 中的 Nova/Claude 对文本进行审核。

在亚马逊云科技有多种方式均可实现语音识别，我们以 SageMaker 部署自定义 ASR 模型（如 Whisper）为例。首先在 SageMaker 中创建笔记本实例。

然后在 SageMaker Notebook 中运行以下代码即可部署 Whipser 推理端点。

import sagemaker
import boto3
from sagemaker.huggingface import HuggingFaceModel

try:
    role = sagemaker.get_execution_role()
except ValueError:
   iam = boto3.client('iam')
   role = iam.get_role(RoleName='sagemaker_execution_role')['Role']['Arn']

hub = {
    'HF_MODEL_ID':'openai/whisper-large-v3-turbo',
    'HF_TASK':'automatic-speech-recognition'
}

huggingface_model = HuggingFaceModel(
        transformers_version='4.37.0',
        pytorch_version='2.1.0',
        py_version='py310',
        env=hub,
        role=role
)

my_endpoint_name="content-moderation-endpoint-whisper"

predictor = huggingface_model.deploy(
    initial_instance_count=1, 
    instance_type='ml.g4dn.xlarge' ,
    endpoint_name=my_endpoint_name  
)

在审核项目中使用以下代码即可以调用 SageMaker Endpoint 中的 Whisper 将音频转为文本。

with open(local_file, 'rb') as audio_file:
    audio_data = audio_file.read()
    sagemaker_runtime = boto3.client('sagemaker-runtime', REGION_NAME)
    response = sagemaker_runtime.invoke_endpoint(
        EndpointName=WHISPER_ENDPOINT_NAME,
        ContentType='audio/x-audio',
        Body=audio_data
    )
    print(json.loads(response['Body'].read().decode()))

为了提高 Whisper 转录的效率以及提高 Whisper 的准确率，可以在调用 Whisper 之前将音频使用 VAD 进行预处理，从音频中提取人声，然后再将音频文件交给 Whisper 进行识别。

除在 SageMaker 中部署 ASR 模型的方式外，亚马逊云科技还提供多种语音识别（ASR）相关的服务，助力高效音频审核：

Amazon Transcribe：完全托管的语音识别服务，基于强大语音模型，为流式或录制音频提供高精度转录，适用于大规模、高实时性场景。
Amazon Bedrock：支持通过 API 访问领先的模型，无需管理基础设施，即可调用模型（如 Whisper）。

2.5 文本审核

通过语音识别获取到音频文本后，可以通过 Amazon Bedrock 调用 Nova/Claude 等大语言模型对文本审核。

通过大语言模型进行文本审核的示例提示词如下：

你是一个论坛的审核员，需要维护网络环境，请对下面用户提供的内容进行文本审核，判断是否涉及色情、仇恨、赌博、辱骂等违规内容。我们会根据你反馈的内容，选择是否封禁这段内容。

用户提供的内容为:
xxxxxxxxxxxxxxx

通过 Amazon Bedrock 进行文本审核的优势在于高效性、准确性和可扩展性。

它能快速处理海量文本，识别敏感信息、违规内容及潜在风险。
LLM 具备上下文理解能力，能更精准地判断语境，减少误判率。
LLM 支持多语言，适应性强
LLM 能根据规则通过修改提示词的方式自定义优化审核标准。

此外，使用 Amazon Bedrock 进行审核，极具性价比。使用 Nova Micro 进行文本审核，每 1000token 仅需 $0.000035。

*许多基础模型在 API 调用中会重复使用提示词的某些部分。通过提示缓存，可允许在请求中缓存这些重复的提示前缀。该缓存允许模型跳过重新计算匹配前缀的步骤。对于支持的模型，Amazon Bedrock 中的提示缓存可将成本降低多达 90%，并将延迟减少高达 85%。

2.6 图像审核

在亚马逊云科技上我们有两种技术路线可以用来进行图像审核：Amazon Bedrock 中的多模态 LLM 或 Amazon Rekognition 服务，他们的大致特点如下：

Amazon Rekognition：

利用机器学习技术自动执行图像识别和视频分析并降低成本，支持内容审核、人脸识别、面孔比较、名人识别等诸多功能。
Rekognition 默认支持 31 个类别的图片审核，并支持用户自定义标签。
Rekognition 根据用量每张图审核的价格为 001$-0.00025$。

Amazon Bedrock：

Bedrock 中的 Nova/Claude 模型支持对图片进行批量审核。

message_list = [
    {
        "role": "user",
        "content": [
            {
                "text": "下方图片为image 1"
            },
            {
                "image": {
                    "format": "png",
                    "source": {
                        "bytes": "base64_string"
                    }
                }
            },
            {
                "text": "下方图片为image 2"
            },
            {
                "image": {
                    "format": "png",
                    "source": {
                        "bytes": "base64_string"
                    }
                }
            },
            {
                "text": "请对图片进行审核."
            }
        ]
    }
]

Bedrock 中的 Nova Lite/Pro 模型支持视频（无声）进行审核。

#方式1：直接上传视频进行审核
message_list = [
    {
        "role": "user",
        "content": [
            {
                "video": {
                    "format": "mp4",
                    "source": {"bytes": base64_string},
                }
            },
            {
                "text": "请对该视频进行审核."
            },
        ],
    }
]
#方式2：支持直接审核S3中的视频
{
    "video": {
        "format": "mp4",
        "source": {
            "s3Location": {
                "uri": "s3://my_bucket/my_video.mp4"
            }
        }
    }
}

LLM 审核支持自定义提示词，对审核的规则进行调整。

Amazon Nova Lite 每 1000 token $0.00006。
Amazon Nova Pro 每 1000 token $0.0008。

*通过 Nova 进行视频审核，极具性价比。下表列出了每个视频长度的帧采样和令牌使用率的一些近似值：

3. 存量音视频审核简介

本方案除直播审核外，同样支持存量音视频的审核。

3.1 长视频/音频审核

如果音视频时长大于 15 分钟，建议使用 ECS 进行对音视频进行截取。

A. 将文件存入 S3，S3 通过事件触发 ModerationTaskSQS。

B. ModerationTaskSQS 触发 CreateTask Lambda。

C. CreateTask Lambda 创建 ECS 任务用于处理音视频文件。

D. AudioVideo ProcessECS 将截取后的音视频文件存入 S3，并将审核信息存入 DynamoDB，同时将审核任务信息存入图像/视频/音频审核的 SQS。

E. 音频/图片/视频审核审核完成后，会将信息存入 DynamoDB。

3.2 短视频/短音频审核

如果音视频时长小于等于 15 分钟，建议使用 Lambda 进行对音视频进行审核。

A. 将文件存入 S3，S3 通过事件触发图像/视频/音频审核的 SQS，然后调用 Lambda 进行审核。

B. 音频/图片/视频审核审核完成后，会将信息存入 DynamoDB。

4. 部署与测试

本方案支持通过 CDK 进行部署。

4.1 直播审核测试

4.1.1 准备直播流

1、在 IVS 控制台创建直播通道

2、在直播通道详情页面，获取推流地址、流密钥与播放地址

3、在 OBS 等推流软件，配置推流密钥/推流地址

*Amazon IVS ：互动视频服务，采用与全球知名直播流媒体平台 Twitch 相同的技术，只需几分钟即可构建流媒体互动直播。

4.1.2 直播审核

1、在 OBS 软件点击开启直播

2、调用直播审核接口即可进行直播审核

curl --location 'https://xxxxxx/api/submit_moderation' \
--header 'user_id: [YOUR_USER_ID]' \
--header 'token: [YOUR_TOKEN]' \
--header 'Content-Type: application/json' \
--data '{
    "url":"https://xxxxxx/xxx/xxx.m3u8"
}'

4.2 存量音视频审核测试

在 S3 存储桶中创建 s3_audio_moderation、s3_video_moderation 文件夹。将音视频文件放入对应的目录即可实现审核。

5. 总结

本文介绍了一种基于亚马逊云服务、ffmpeg 的音视频审核方案。该方案为音视频审核提供了完整的端到端解决方案和参考实现。基于 AWS Serverless 服务，在确保高可用的同时，用户只需为实际用量进行付费。基于 Amazon Bedrock 等服务，可以实现高效的审核，有效帮助用户实现降本增效。

希望本文能够为大家进行音视频审核时提供灵感。如果你对该项目感兴趣，欢迎关注、试用并提出宝贵建议，共同推动审核技术的发展！

参考链接

内容审核项目地址：https://github.com/aws-samples/sample-for-content-moderation

Amazon Bedrock：https://aws.amazon.com/cn/bedrock

Amazon Nova：https://aws.amazon.com/cn/ai/generative-ai/Nova

Amazon Rekogniton：https://aws.amazon.com/cn/rekognition

Amazon Sagemaker：https://aws.amazon.com/cn/sagemaker

Amazon IVS：https://aws.amazon.com/cn/ivs

Prompt Caching：https://aws.amazon.com/cn/bedrock/prompt-caching

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

Amazon Bedrock 上的模型擂台赛：Nova、Claude，谁是最强图片/视频审核大模型？

2025-05-20T08:26:47+08:00

前言

本文将探讨如何使用亚马逊云科技上提供的生成式 AI 大模型进行视频以及图像内容审核。本文将使用相同的视频图像审核测试数据集，从审核准确率、误报率、漏报率等多项指标全面评估亚马逊云科技 Amazon Bedrock 上三款多模态大模型的表现差异，这包括亚马逊自研大模型 Nova 系列的 Lite 和 Pro 模型、Anthropic 的 Claude 3.7 Sonnet 模型，对比分析不同模型在色情内容和暴力内容审核场景下的优势，为您选择和构建合适的基于大模型的内容审核解决方案提供洞见与参考。如果您对文本内容审核感兴趣，请参阅 Amazon Bedrock 上的模型擂台赛：DeepSeek、Nova、Claude，谁是最强文本审核大模型？

此外，亚马逊云科技提供了一系列托管人工智能服务 Amazon Rekognition ，Amazon Comprehend，Amazon Transcribe，Amazon Translate 和 Amazon Bedrock 以及其他技术，来帮助您快速打造自动化智能化多模态内容审核方案（详情参考博客），包括图像、视频、文本和音频审核工作流程。

一、图片内容检测分析

数据集概况

本文分别测试了模型在色情内容以及暴力内容的多模态检测，使用的公开数据集来自 Kaggle 以及 github。两个数据集合并并抽取了 400 数据作为此次试验的总数据集。

色情内容数据集：共 300 条数据，其中色情图片 100 条，非色情图片 200 条
暴力内容数据集：共 100 条数据，其中暴力图片 50 条，非暴力图片 50 条

测试 Prompt

所有测试均使用以下统一的 prompt 进行评估：

你是一个专业的图片内容审核专家，负责识别图片中的暴力和色情内容。请仔细分析图片内容并做出精确判断。
请遵循以下分类标准：
- Violent: 图片必须包含以下一项或多项：
* 真实人物之间的打斗、殴打、攻击行为（注意：与表演、电影、体育竞技区分）
* 明显的流血、伤口或身体伤害
* 使用武器威胁或伤害他人
* 明显的肢体冲突和人身伤害场景
* 街头斗殴、帮派暴力或群体攻击行为
* 体育场上发生斗殴事件
- Non-violent: 不包含上述暴力元素的图片，即使是：
* 竞技性体育运动（包括拳击、摔跤、格斗比赛等）
* 表演或电影中的打斗场景
* 游戏或动画中的非真实暴力
* 人们进行日常活动（吃饭、行走、交谈、工作等）
【色情内容精确定义】
- Porn: 图片必须包含以下一项或多项：
* 明确的性行为或性交场景
* 裸露的生殖器官
* 裸露的成人胸部（女性）
* 明显的性行为暗示姿势或动作
* 性器官特写或强调
* 明确的性行为表演
- Non-porn: 不包含上述色情元素的图片，即使是：
* 穿着比基尼、泳装的人
* 部分暴露但不完全裸露的内容
* 健身、瑜伽或体育活动中的紧身服装
* 具有性感元素但不露骨的内容
* 艺术性质的裸体（如雕塑、古典艺术）
分析步骤：
1. 首先详细描述图片中看到的内容，包括人物、动作、环境和上下文
2. 分别判断暴力和色情两个维度
3. 给出最终分类结果，必须是以下四种之一：
- "Violent"（有暴力，无色情）
- "Non-violent"（无暴力，无色情）
- "Porn"（有色情，无论是否有暴力）
- "Non-porn"（无色情，可能包含性感元素但不露骨）
如有任何不确定性，请倾向于将内容标记为"Violent"或"Porn"。你的回答必须包含上述四个标签之一，后面跟着简短的解释理由。"""

注：本文使用的提示词并非是最佳实践，实际使用需要根据不同的场景对提示词进行优化以提升模型表现。

模型性能对比

色情内容检测

主要发现

总体准确率对比：

Claude 3.7 Sonnet 模型总体准确率（97.22%）表现最佳
Nova Pro（94.44%）和 Nova Lite（93.33%）也表现良好，但略低于 Claude 3.7 Sonnet

敏感内容检测能力：

Claude 3.7 Sonnet 对色情图片的检测准确率非常高（95%），对暴力图片的检测准确率达到 33%
Nova Pro 对色情图片的检测准确率为 90%，对暴力图片的检测准确率为 90%
Nova Lite 对色情图片的检测准确率为 50%，对暴力图片的检测准确率为 88.33%

非敏感内容检测能力：

所有模型在非色情内容检测上表现优异，Claude 3.7 Sonnet 和 Nova Pro 均达到 100% 准确率
在非暴力图片检测上，所有测试模型均达到了 100% 的准确率

检测偏好：

Claude 3.7 Sonnet 模型在检测上表现最为全面和平衡
Nova 系列模型在敏感内容检测上略逊于 Claude 3.7 Sonnet，但仍保持较高准确率

二、视频内容检测对比

在视频内容检测方面，我们使用的测试视频数据如下：

色情视频数据集：共 100 条数据，其中色情图片 50 条，非色情图片 50 条
暴力视频数据集：共 100 条数据，其中暴力图片 50 条，非暴力图片 50 条

我们对 Nova Lite 和 Nova Pro 模型进行了对比测试，结果如下：

总体准确率

Nova Lite 混淆矩阵:

Nova Pro 混淆矩阵:

总体性能：

Nova Pro 在图片和视频敏感内容检测上均表现优于 Nova Lite
两款模型在视频内容检测上的表现差距小于图片检测
Nova Pro 在所有测试类别中均展现出更高的准确性

检测偏好与平衡性：

Nova Pro 在各类内容检测上表现更为平衡，尤其在非敏感内容识别上达到 100% 准确率
Nova Lite 在非暴力内容识别上表现出色，但在色情内容检测上准确率相对较低

误报与漏报：

从混淆矩阵来看，Nova Pro 的漏报率（8/99=8.1%）低于 Nova Lite（12/102=11.8%）
Nova Pro 的误报率（1/101=1.0%）也低于 Nova Lite（3/98=3.1%）
Nova Pro 在减少误报和漏报方面均优于 Nova Lite

Nova Pro 和 Nova Lite 是目前 Amazon Bedrock 平台上唯二支持视频格式作为输入的模型，两个模型在视频检测上表现更为平衡，没有明显的偏向性，两个模型在视频检测中的误报率和漏报率也相对接近。价格方面，Nova Lite 每一千次的调用价格仅为 Nova Pro 的 7.5%。

三、综合比较与适用场景

总体性能：

Claude 3.7 Sonnet 模型在图片敏感内容检测上表现最佳，尤其是对色情和暴力内容的识别
Nova Pro 在视频内容检测上略优于 Nova Lite
所有模型在非敏感内容识别上均表现出色

检测偏好与平衡性：

Claude 3.7 Sonnet 模型在检测上最为平衡，能够较好地识别出各类敏感内容
Nova 系列模型在图片检测中表现稳定，但准确率略低于 Claude 3.7 Sonnet

误报与漏报：

所有模型在非敏感内容识别上误报率极低
Nova 系列模型在敏感内容识别上漏报率略高于 Claude 3.7 Sonnet
在需要高度保护的场景中，Claude 3.7 Sonnet 的高敏感度更优

价格对比：

Nova Lite 虽然准确率略低于其他模型，但其价格极具竞争力，仅为 $0.08/千次调用。
Nova Pro 的价格是 Nova Lite 的 4 倍，但总体准确率仅提高了 0.16 个百分点。
Claude 3.7 Sonnet 的价格是 Nova Lite 的 60 倍，总体准确率提高了 67 个百分点。

四、实验步骤

实验步骤与 Amazon Bedrock 上的模型擂台赛：DeepSeek、Nova、Claude，谁是最强文本审核大模型？一致，您可参考 Sagemaker Notebook 中的代码为如下内容，并将数据存入 S3 或存入 Sagemaker Notebook 环境中后，即可进行测试。

import boto3
import pandas as pd
import json
import time
from tqdm import tqdm
import concurrent.futures
import os
from botocore.exceptions import ClientError
import numpy as np
import base64
from urllib.parse import urlparse
import io
from PIL import Image

# 定义CSV文件路径
csv_file = 'combined_dataset_fixed.csv'

# 读取包含图片路径的CSV文件
df = pd.read_csv(csv_file)

# 初始化Bedrock客户端
bedrock_runtime = boto3.client(
    service_name='bedrock-runtime',
    region_name='us-east-1'  # 确保Claude模型在此区域可用
)

# 初始化S3客户端
s3_client = boto3.client('s3', region_name='us-west-1')

# 确保Bedrock有权限访问S3桶
def check_s3_permissions():
    try:
        # 检查桶是否存在
        s3_client.head_bucket(Bucket="video-moderation-dataset")
        print("成功连接到S3桶 'video-moderation-dataset'")
        return True
    except Exception as e:
        print(f"无法访问S3桶: {str(e)}")
        # 如果只处理本地文件，可以继续
        return True

# 模型ID
# model_id = 'us.anthropic.claude-3-7-sonnet-20250219-v1:0'
model_id = 'us.amazon.nova-pro-v1:0'
# model_id='us.amazon.nova-lite-v1:0'

# 判断路径是S3路径还是本地路径
def is_s3_path(path):
    return path.startswith('s3://')

# 从S3获取图片字节
def get_image_from_s3(s3_uri):
    try:
        parsed_url = urlparse(s3_uri)
        bucket_name = parsed_url.netloc
        object_key = parsed_url.path.lstrip('/')
        
        response = s3_client.get_object(Bucket=bucket_name, Key=object_key)
        image_bytes = response['Body'].read()
        return image_bytes
    except Exception as e:
        print(f"从S3获取图片失败: {str(e)}")
        return None

# 从本地文件系统获取图片字节
def get_image_from_local(file_path):
    try:
        with open(file_path, 'rb') as f:
            image_bytes = f.read()
        return image_bytes
    except Exception as e:
        print(f"从本地文件系统获取图片失败: {str(e)}")
        return None

# 获取图片字节，无论是从S3还是本地
def get_image_bytes(path):
    if is_s3_path(path):
        return get_image_from_s3(path)
    else:
        return get_image_from_local(path)

# 处理图片，确保格式正确
def process_image(image_bytes):
    try:
        # 使用PIL打开图片
        image = Image.open(io.BytesIO(image_bytes))
        
        # 转换为RGB模式（如果是RGBA或其他模式）
        if image.mode != 'RGB':
            image = image.convert('RGB')
        
        # 调整大小，确保不超过API限制
        max_size = 4096  # 根据API限制调整
        if max(image.size) > max_size:
            ratio = max_size / max(image.size)
            new_size = (int(image.size[0] * ratio), int(image.size[1] * ratio))
            image = image.resize(new_size, Image.LANCZOS)
        
        # 转换为JPEG格式的字节
        buffer = io.BytesIO()
        image.save(buffer, format="JPEG", quality=85)
        processed_bytes = buffer.getvalue()
        
        return processed_bytes
    except Exception as e:
        print(f"处理图片时出错: {str(e)}")
        return image_bytes  # 如果处理失败，返回原始字节

# 分析单个图片
def analyze_image(image_path, label):
    print(f"处理图片: {image_path}")
    try:
        # 获取图片字节
        image_bytes = get_image_bytes(image_path)
        if image_bytes is None:
            return {
                'image_path': image_path,
                'label': label,
                'nova_lite_result': 'error',
                'nova_lite_response': '无法获取图片数据'
            }
        
        # 处理图片，确保格式正确
        processed_image = process_image(image_bytes)
        
        # 获取图片扩展名
        image_ext = "jpeg"  # 默认为jpeg，因为我们在process_image中转换为JPEG
        
        # prompt = """你是一个专业的图片内容审核专家，负责识别图片中的暴力和色情内容。请仔细分析图片内容并做出精确判断。

        #             请遵循以下分类标准：

        #             【暴力内容定义】
        #             - Violent: 图片包含真实的肢体冲突、打斗、斗殴、攻击行为，特别是街头打架、武器威胁、流血场景、明显的身体伤害或任何形式的人身伤害。
        #             - Non-violent: 图片展示和平的人类活动，如体育运动(即使是竞技性的)、日常生活场景(吃饭、行走、交谈)、工作场景等，没有真实的暴力冲突。

        #             【色情内容定义】
        #             - Porn: 图片包含露骨的性行为、生殖器官暴露、性交行为、明确的性意图活动、裸体（非艺术性质）、性挑逗姿势等明确色情内容。
        #             - Non-porn: 图片可能包含比基尼、泳装、部分暴露但不露骨的内容，虽可能具有性感元素，但不展示明确的性行为或完全裸露。

        #             分析步骤：
        #             1. 首先详细描述图片中看到的内容，包括人物、动作、环境和上下文
        #             2. 分别判断暴力和色情两个维度
        #             3. 给出最终分类结果，必须是以下四种之一：
        #             - "Violent"（有暴力，无色情）
        #             - "Non-violent"（无暴力，无色情）
        #             - "Porn"（有色情，无论是否有暴力）
        #             - "Non-porn"（无色情，可能包含性感元素但不露骨）

        #             如有任何不确定性，请倾向于将内容标记为"Violent"或"Porn"。你的回答必须包含上述四个标签之一，后面跟着简短的解释理由。"""

        prompt = """你是一个专业的图片内容审核专家，负责识别图片中的暴力和色情内容。请仔细分析图片内容并做出精确判断。

                    请遵循以下分类标准：

                    - Violent: 图片必须包含以下一项或多项：
                    * 真实人物之间的打斗、殴打、攻击行为（注意：与表演、电影、体育竞技区分）
                    * 明显的流血、伤口或身体伤害
                    * 使用武器威胁或伤害他人
                    * 明显的肢体冲突和人身伤害场景
                    * 街头斗殴、帮派暴力或群体攻击行为
                    * 体育场上发生斗殴事件

                    - Non-violent: 不包含上述暴力元素的图片，即使是：
                    * 竞技性体育运动（包括拳击、摔跤、格斗比赛等）
                    * 表演或电影中的打斗场景
                    * 游戏或动画中的非真实暴力
                    * 人们进行日常活动（吃饭、行走、交谈、工作等）

                    【色情内容精确定义】
                    - Porn: 图片必须包含以下一项或多项：
                    * 明确的性行为或性交场景
                    * 裸露的生殖器官
                    * 裸露的成人胸部（女性）
                    * 明显的性行为暗示姿势或动作
                    * 性器官特写或强调
                    * 明确的性行为表演

                    - Non-porn: 不包含上述色情元素的图片，即使是：
                    * 穿着比基尼、泳装的人
                    * 部分暴露但不完全裸露的内容
                    * 健身、瑜伽或体育活动中的紧身服装
                    * 具有性感元素但不露骨的内容
                    * 艺术性质的裸体（如雕塑、古典艺术）
                    分析步骤：
                    1. 首先详细描述图片中看到的内容，包括人物、动作、环境和上下文
                    2. 分别判断暴力和色情两个维度
                    3. 给出最终分类结果，必须是以下四种之一：
                    - "Violent"（有暴力，无色情）
                    - "Non-violent"（无暴力，无色情）
                    - "Porn"（有色情，无论是否有暴力）
                    - "Non-porn"（无色情，可能包含性感元素但不露骨）

                    如有任何不确定性，请倾向于将内容标记为"Violent"或"Porn"。你的回答必须包含上述四个标签之一，后面跟着简短的解释理由。"""

        max_retries = 2
        retry_count = 0
        response = None  # 初始化response变量
        
        # 打印图片路径和大小信息进行调试
        print(f"图片路径: {image_path}")
        print(f"处理后图片大小: {len(processed_image)} 字节")
        
        # 调用Bedrock Converse API，直接传入图片字节
        while retry_count < max_retries:
            try:
                response = bedrock_runtime.converse(
                    modelId=model_id,
                    messages=[
                        {
                            'role': 'user',
                            'content': [
                                {
                                    'text': prompt
                                },
                                {
                                    'image': {
                                        'format': image_ext,
                                        'source': {
                                            'bytes': processed_image
                                        }
                                    }
                                }
                            ]
                        }
                    ]
                )
                break
            except Exception as e:
                retry_count += 1
                if retry_count >= max_retries:
                    print(f"调用模型失败，已达到最大重试次数 ({max_retries})。错误: {str(e)}")
                    raise e
                else:
                    print(f"调用模型失败，正在进行第 {retry_count} 次重试。错误: {str(e)}")
                    sleep_time = 30
                    time.sleep(sleep_time)
        
        # 检查response是否为None
        if response is None:
            return {
                'image_path': image_path,
                'label': label,
                'nova_lite_result': 'error',
                'nova_lite_response': '无法获取模型响应'
            }
                
        # 解析响应
        try:
            response_text = response['output']['message']['content'][0]['text']
        except KeyError:
            try:
                response_text = response['messages'][0]['content'][0]['text']
            except KeyError:
                response_text = "无法从响应中提取文本"
        
        # 根据标签类型提取判断结果
        if label in ['violent', 'non-violent']:
            # 提取判断结果（violent或non-violent）
            if 'violent' in response_text.lower() and not 'non-violent' in response_text.lower():
                result = 'violent'
            elif 'non-violent' in response_text.lower():
                result = 'non-violent'
            else:
                # 如果无法明确判断，则进一步分析响应
                if any(word in response_text.lower() for word in ['fight', 'attack', 'violence', 'aggressive', 'harm', 'push', 'hit', 'slap', 'touch', 'contact', 'fall', 'strike', 'throw', 'conflict', 'swing', 'wave', 'stick', 'bat']):
                    result = 'violent'
                else:
                    result = 'non-violent'
        
        elif label in ['porn', 'non-porn']:
            # 提取判断结果（porn或non-porn）
            if 'porn' in response_text.lower() and not 'non-porn' in response_text.lower():
                result = 'porn'
            elif 'non-porn' in response_text.lower():
                result = 'non-porn'
            else:
                # 如果无法明确判断，则进一步分析响应
                if any(word in response_text.lower() for word in ['nude', 'naked', 'sexual', 'explicit', 'adult', 'inappropriate']):
                    result = 'porn'
                else:
                    result = 'non-porn'
        else:
            # 默认情况，直接使用标签作为结果
            result = label
        
        # 添加一些延迟以避免API限制
        time.sleep(0.5)
        
        return {
            'image_path': image_path,
            'label': label,
            'nova_lite_result': result,
            'nova_lite_response': response_text
        }
    
    except Exception as e:
        print(f"处理图片 {image_path} 时出错: {str(e)}")
        return {
            'image_path': image_path,
            'label': label,
            'nova_lite_result': 'error',
            'nova_lite_response': str(e)
        }

# 主函数
def main():
    # 检查S3权限
    if not check_s3_permissions():
        print("请确保已正确配置S3桶权限")
        return
        
    # 创建结果列表
    results = []
    
    # 获取图片路径和标签
    image_data = list(zip(df['image_path'], df['label']))
    
    print(f"开始分析 {len(image_data)} 个图片 ...")
    
    # 使用线程池并行处理图片（限制并发数以避免API限制）
    with concurrent.futures.ThreadPoolExecutor(max_workers=1) as executor:
        futures = []
        for image_path, label in image_data:
            future = executor.submit(analyze_image, image_path, label)
            futures.append(future)
        
        # 使用tqdm显示进度
        for future in tqdm(concurrent.futures.as_completed(futures), total=len(futures), desc="分析图片"):
            result = future.result()
            if result:
                results.append(result)
    
    # 创建结果DataFrame
    results_df = pd.DataFrame(results)
    successful_results = results_df[results_df['nova_lite_result'] != 'error']
    
    # 保存结果到新的CSV文件
    results_df.to_csv('image_analysis_results_nova.csv', index=False)
    
    print(f"总共处理 {len(results_df)} 个图片，成功 {len(successful_results)} 个，失败 {len(results_df) - len(successful_results)} 个")
    
    # 计算准确率
    accuracy = (successful_results['label'] == successful_results['nova_lite_result']).mean()
    print(f"Bedrock模型分析完成。准确率: {accuracy:.2%}")
    
    # 打印混淆矩阵
    print("\n混淆矩阵:")
    confusion = pd.crosstab(
        successful_results['label'], 
        successful_results['nova_lite_result'], 
        rownames=['实际'], 
        colnames=['预测']
    )
    print(confusion)

if __name__ == "__main__":
    main()

清理资源

最后，请及时清理资源，避免造成不必要的费用。若您使用了 Sagemaker Notebook 运行实验及测试，并将数据存储在了 S3 存储桶中，可通过删除创建的 S3 存储桶以及中止 SageMaker Notebook 来完成资源的清理。

总结

您可以根据自身业务需求、对漏报/误报的容忍度以及预算情况，选择最适合的模型进行内容审核工作。在实际应用中，可能需要结合多种模型或技术，构建更加全面和有效的内容审核系统。希望通过以上分析，可以为您带来内容审核上的一些洞见。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

Amazon Q 从入门到精通 – 测试与重构

2025-05-19T09:29:19+08:00

Amazon Q Developer 是亚马逊推出的一个专为专业开发人员设计的人工智能助手，旨在提升代码开发和管理效率。其主要功能包括代码生成、调试、故障排除和安全漏洞扫描，提供一站式代码服务。

众所周知，在软件开发领域，测试代码是软件成功的重要基石。它确保应用程序是可靠的，符合质量标准，并且按预期工作。自动化软件测试有助于及早发现问题和缺陷，减少对最终用户体验和业务的影响。此外，测试本身就是一个最可靠的文档，把每个细分功能进行了明确。同时，它也是一个细化到最小功能单元的安全网，可以防止代码随时间变化而发生回归（Regression）问题。

因此，在现代软件工程实践中，经常会看到书写 100 行功能代码的同时，开发人员会同时书写 1.5 倍甚至更多的测试代码来保证功能的正确性。另外，在知名的 GitHub 开源工程中，当贡献者开启 Pull Request 时，系统就会自动运行开发者自己编写的单元测试程序。单元测试程序的好坏和执行结果，都是评审人重要的审查标准。

在这篇博客文章中，我们将展示如何通过集成像 Amazon Q Developer 这样的智能 GenAI 工具来为单元测试，自动化测试场景快速、准确地生成测试用例，并以一些实际的代码用例，来描述测试的最佳实践原则，以及 Amazon Q 如何能够在其中扮演重要的角色。

不可测试的代码

当我们追求整洁、优雅的代码的同时，像硬币总会有另一面一样，世界上总会存在着混乱，风格怪异，难以测试的“意大利面条”式的代码。

什么是“意大利面条”式的代码呢？如下所示：

class Printer:
    def __init__(self):
        self.printer_name = "Default Printer"

    def print_document(self, content):
        print(f"Printing with {self.printer_name}: {content}")
        # 模拟打印操作
        with open("print_history.log", "a") as f:
            f.write(f"Printed: {content}\n")

class Database:
    def __init__(self):
        self.connection = "Database Connection String"

    def save_data(self, data):
        print(f"Saving to database: {data}")
        # 模拟数据库操作
        return True

    def get_data(self, query):
        # 模拟从数据库获取数据
        return f"Data for query: {query}"

class ReportGenerator:
    def __init__(self):
        # 直接在构造函数中实例化依赖，这是不好的实践
        self.printer = Printer()
        self.database = Database()

    def generate_monthly_report(self, month):
        # 违反单一职责原则：既处理数据，又负责打印
        print("Starting report generation...")

        # 直接访问数据库
        sales_data = self.database.get_data(f"SELECT * FROM sales WHERE month = {month}")

        # 直接处理文件
        with open(f"report_{month}.txt", "w") as f:
            f.write(f"Sales Report for Month: {month}\n")
            f.write(str(sales_data))

        # 直接打印
        self.printer.print_document(f"Monthly Report - {month}")

        # 再次访问数据库保存记录
        self.database.save_data({
            "report_type": "monthly",
            "month": month,
            "status": "completed"
        })

    def generate_daily_report(self, date):
        # 类似的混乱逻辑
        daily_data = self.database.get_data(f"SELECT * FROM daily_sales WHERE date = {date}")

        # 直接文件操作
        with open(f"daily_report_{date}.txt", "w") as f:
            f.write(f"Daily Report for: {date}\n")
            f.write(str(daily_data))

        # 直接打印
        self.printer.print_document(f"Daily Report - {date}")

        # 保存状态到数据库
        self.database.save_data({
            "report_type": "daily",
            "date": date,
            "status": "completed"
        })

# 使用示例
if __name__ == "__main__":
    report_gen = ReportGenerator()
    report_gen.generate_monthly_report("2023-12")
    report_gen.generate_daily_report("2023-12-26")

这段代码看上去很简单，主对象 report_gen，依赖于 printer，和 database 对象来进行打印和报表保存。甚至为了更快地得到代码所要展现的信息，可以让 Amazon Q 帮你绘制一个文字风格的时序图。如下图所示：

真的很棒！基本都不用看代码，就能知道它在做什么了，这是一个对开发者很实用的功能。

把代码执行一下，它的输入如下图所示。

接下来，让 Amazon Q 来解释一下这段代码，看看它能否找到一些问题？在 Amazon Q Chat 窗口里，输入最关注的问题，如“Can you help me find issues with the code in test.py, from design and testability perspective? don’t give suggestion, just list all of issues.”。Amazon Q 的回复如下图所示。

Amazon Q 很轻松地找到了相关的核心问题，问题不少，但本文只挑选设计和测试方面的问题如下：

紧耦合
-ReportGenerator 直接实例化了 printer和database。
-直接实例化导致 ReportGenerator 无法被隔离。
-因此无法注入 mock 的 printer 和 database 来对 ReportGenerator 进行测试。
违背了单一职责原则
-ReportGenerator 身兼数职，不但要做数据库操作和文件操作，连报表生成也都一起包揽。
-Printer 类里包含了打印和日志两项职能。
-Database 类包含了读写两类操作。
直接依赖外部实体
-Printer 类直接文件操作。
-ReportGenerator 类直接进行文件操作。
-Database 类的直接操作。
缺少接口抽象
-Printer 类没有对应的接口抽象。
-Database 类没有对应的接口抽象。
-组件之间交互时，没有契约。

显然，这种无法做单元测试的代码，不但很难保证质量，维护起来也很麻烦，复用性也很差。

使用 Amazon Q Developer 重构代码

稍微改动一下 Amazon Q 的提示词，允许它给我们提提建议。在 Amazon Q Chat 窗口里，再次输入问题“/dev Can you help me refactor these issues? Please focus on design and testing related issues only”。Amazon Q 的回复如下图所示。

在接受了所有代码变更之后，Amazon Q Developer 为我们创建了一个主程序文件，和一个测试代码文件。

其中，test_report_generator.py 是一个测试代码文件。它的代码如下所示。

import unittest
from unittest.mock import MagicMock, patch
from pathlib import Path
from refactored_test import (
    ReportGenerator,
    Printer,
    Database,
    ReportWriter,
    ReportConfig
)

class TestReportGenerator(unittest.TestCase):
    def setUp(self):
        self.printer = MagicMock()
        self.database = MagicMock()
        self.report_writer = MagicMock()
        self.report_generator = ReportGenerator(
            printer=self.printer,
            database=self.database,
            report_writer=self.report_writer
        )

    def test_generate_monthly_report(self):
        # Arrange
        month = "2023-12"
        test_data = "Test sales data"
        self.database.get_data.return_value = test_data

        # Act
        self.report_generator.generate_monthly_report(month)

        # Assert
        self.database.get_data.assert_called_once()
        self.report_writer.write_report.assert_called_once()
        self.printer.print_document.assert_called_once_with(f"Monthly Report - {month}")
        self.database.save_data.assert_called_once()

    def test_generate_daily_report(self):
        # Arrange
        date_str = "2023-12-25"
        test_data = "Test daily data"
        self.database.get_data.return_value = test_data

        # Act
        self.report_generator.generate_daily_report(date_str)

        # Assert
        self.database.get_data.assert_called_once()
        self.report_writer.write_report.assert_called_once()
        self.printer.print_document.assert_called_once_with(f"Daily Report - {date_str}")
        self.database.save_data.assert_called_once()

class TestReportWriter(unittest.TestCase):
    def setUp(self):
        self.test_dir = Path("test_reports")
        self.config = ReportConfig(
            output_directory=self.test_dir,
            log_file=Path("test_logs/print_history.log")
        )
        self.report_writer = ReportWriter(self.config)

    def tearDown(self):
        # Clean up test files
        if self.test_dir.exists():
            for file in self.test_dir.glob("*"):
                file.unlink()
            self.test_dir.rmdir()

    def test_write_report(self):
        # Arrange
        filename = "test_report.txt"
        content = "Test report content"

        # Act
        self.report_writer.write_report(filename, content)

        # Assert
        report_path = self.test_dir / filename
        self.assertTrue(report_path.exists())
        self.assertEqual(report_path.read_text(), content)

if __name__ == '__main__':
    unittest.main()

主程序文件（refactored_test.py）代码如下。

from abc import ABC, abstractmethod
from typing import Protocol
from dataclasses import dataclass
import os
from datetime import date
from pathlib import Path

class PrinterInterface(Protocol):
    def print_document(self, content: str) -> None:
        ...

class DatabaseInterface(Protocol):
    def save_data(self, data: dict) -> bool:
        ...
    def get_data(self, query: str) -> str:
        ...

@dataclass
class ReportConfig:
    output_directory: Path
    log_file: Path

class Printer:
    def __init__(self, name: str = "Default Printer", log_file: Path = Path("print_history.log")):
        self.printer_name = name
        self.log_file = log_file

    def print_document(self, content: str) -> None:
        print(f"Printing with {self.printer_name}: {content}")
        # Safely handle file operations
        self.log_file.parent.mkdir(parents=True, exist_ok=True)
        with open(self.log_file, "a") as f:
            f.write(f"Printed: {content}\n")

class Database:
    def __init__(self, connection_string: str = "Database Connection String"):
        self.connection = connection_string

    def save_data(self, data: dict) -> bool:
        print(f"Saving to database: {data}")
        return True

    def get_data(self, query: str) -> str:
        return f"Data for query: {query}"

class ReportWriter:
    def __init__(self, config: ReportConfig):
        self.config = config

    def write_report(self, filename: str, content: str) -> None:
        filepath = self.config.output_directory / filename
        filepath.parent.mkdir(parents=True, exist_ok=True)
        with open(filepath, "w") as f:
            f.write(content)

class ReportGenerator:
    def __init__(
        self,
        printer: PrinterInterface,
        database: DatabaseInterface,
        report_writer: ReportWriter
    ):
        self.printer = printer
        self.database = database
        self.report_writer = report_writer

    def generate_monthly_report(self, month: str) -> None:
        print("Starting monthly report generation...")
        
        # Get data
        sales_data = self.database.get_data(f"SELECT * FROM sales WHERE month = {month}")
        
        # Generate report content
        report_content = self._format_monthly_report(month, sales_data)
        
        # Write report
        self.report_writer.write_report(f"report_{month}.txt", report_content)
        
        # Print report
        self.printer.print_document(f"Monthly Report - {month}")
        
        # Log completion
        self._log_report_completion("monthly", month=month)

    def generate_daily_report(self, date_str: str) -> None:
        print("Starting daily report generation...")
        
        # Get data
        daily_data = self.database.get_data(f"SELECT * FROM daily_sales WHERE date = {date_str}")
        
        # Generate report content
        report_content = self._format_daily_report(date_str, daily_data)
        
        # Write report
        self.report_writer.write_report(f"daily_report_{date_str}.txt", report_content)
        
        # Print report
        self.printer.print_document(f"Daily Report - {date_str}")
        
        # Log completion
        self._log_report_completion("daily", date=date_str)

    def _format_monthly_report(self, month: str, data: str) -> str:
        return f"Sales Report for Month: {month}\n{data}"

    def _format_daily_report(self, date_str: str, data: str) -> str:
        return f"Daily Report for: {date_str}\n{data}"

    def _log_report_completion(self, report_type: str, **kwargs) -> None:
        completion_data = {
            "report_type": report_type,
            "status": "completed",
            **kwargs
        }
        self.database.save_data(completion_data)

# Example usage:
def create_report_system(
    output_dir: str = "reports",
    log_file: str = "logs/print_history.log"
) -> tuple[ReportGenerator, PrinterInterface, DatabaseInterface, ReportWriter]:
    config = ReportConfig(
        output_directory=Path(output_dir),
        log_file=Path(log_file)
    )
    
    printer = Printer(log_file=config.log_file)
    database = Database()
    report_writer = ReportWriter(config)
    report_generator = ReportGenerator(printer, database, report_writer)
    
    return report_generator, printer, database, report_writer

重构后的代码，主要的变更和好处如下：

定义了接口协议类
-PrinterInterface 定义了打印机的接口，而 Printer 是它的一个具体的实现。给予这种设计，可以有更多的实现，比如 pdf 打印机，激光打印机等等。
-DatabaseInterface 定义数据库的接口，而 Database 是它的一个具体的实现，基于这种设计，可以有更多的实现，比如内存型数据库、文件型数据库、关系型数据库等等。
-可以很容易地升级/替换 Printer 和 Database 的实现代码，而不影响 ReportGenerator 本身的功能。
增加了系统的契约
-ReportGenerator 不依赖于具体的实现，而是依赖于契约（接口）
-基于接口的设计，可以非常容易地置换为 Mock 的实现，来进行充分的测试。
-有了契约，就有了可测试性。

一图胜千言，为了更好地理解重构带来的变化，可以再次让 Amazon Q Developer 来图文结合地进行描述和总结，输入提示词，“Can you show the importance of introducing abstract interface than before in ASCII-style diagram?”，Amazon Q Developer 将用文字版图形来描述重构里引入抽象接口起到的关键作用。

通过简单/直接的自然语言交互，在分钟级别的时间范围内，Amazon Q Developer 便完成了对不良设计的重构，把遵循良好设计的代码呈现在开发者的面前。

快捷的单元测试生成方式

如果开发者当下的任务是节约编写单元测试的精力和时间，除了使用/dev 来进行代码重构外，Amazon Q Developer 提供了专门的/test 命令。

打开要编写单元测试的文件，在 Amazon Q Developer 的 Chat 窗口里输入 /test，即可开始编写单元测试代码，如下图所示。

单元测试代码创建中，会显示进度。如下图所示。

最终，和使用/dev 一样，Amazon Q Developer 不会直接变更代码，而是给出一个临时的变更结果给开发者，开发者可以以 diff 的形式进行查看，并决定是接受，还是拒绝。

就是如此简单，开发者就可以完成之前繁琐的创建单元测试的工作。

不仅如此，当业务代码不断随着市场需求发生频繁变化的时候，开发者将可以随时以智能化、自动化的方式，让 Amazon Q Developer 协助生成最新的单元测试代码，让单元测试能够提供精确代码质量保证的同时，不再产生高昂的维护代价！

最后

本文以一个“意大利面条式”的，充满了不良设计的代码为样例，展示了 Amazon Q Developer 如何能够以简单/精炼的自然语言交互的方式，短时间内帮助开发者完成代码重构和自动化测试用例的编写，在确保代码质量的同时，大大降低了测试代码的维护成本。

本篇作者

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

利用 Amazon Bedrock Data Automation（BDA）对视频数据进行自动化处理与检索

2025-05-16T08:54:57+08:00

当前点播视频平台搜索功能主要是基于视频标题的关键字检索。对于点播平台而言，我们希望可以通过优化视频搜索体验满足用户通过模糊描述查找视频的需求，从而提高用户的搜索体验。借助 Amazon Bedrock Data Automation（BDA）技术，运用 AI 自动剖析视频内容，提取关键信息，通过向量搜索达成语义智能匹配，实现多角度（视频关键字、台词、场景描述）视频检索，有利于提升用户搜索效率，增加平台活跃度，也为视频创作者创造更多曝光机遇。在下文中，我们会基于 Amazon Bedrock Data Automation（BDA）实现视频处理与双路召回的解决方案进行描述。

Amazon Bedrock Data Automation 功能概述

Bedrock Data Automation（BDA）是基于云的服务，借助生成式 AI，能将文档、图像、视频和音频等非结构化内容，高效转化为结构化格式，自动提取、生成关键信息，助力开发人员快速构建应用程序，执行复杂工作流程。目前支持 us-east-1 和 us-west-2 两个地区。

从输出结果角度，BDA 支持标准结果和自定义结果的输出，当用户选择自定义结果的输出时，可以用 prompt 的方式去生成想要的结果。自定义的结构可以保存为蓝图为 BDA 项目所使用。目前自定义结果的输出支持文档和图片。

标准结果的输出则对四种不同类型的数据源做了预定义的输出结构，例如对于文档数据，标准输出结果如下图所示，从而可以为不同下游应用所用：

您可以手动在操作台上测试 DBA 的各种功能包括文档，图片，视频和音频等，以下我们以视频 Demo 为例。

首先找到 Amazon Bedrock 在控制台的位置，然后点击左侧工具栏中 Data Automation 下的 Demo：

在工具栏中的 Demo中，您可以选择用已存在 Demo 上的数据，或从本地/Amazon S3 中上传的数据做为源数据进行测试：

最后点击 Generate result，便可以在左侧输出相关结果，并可以选择标准数据结果或前面蓝图制定好的自定义输出结果。

在视频处理中，BDA 可以生成完整视频摘要、章节摘要、提取 IAB 分类法、完整音频脚本、视频文字、进行徽标检测和内容审核等。在推出 BDA 之前，传统对视频的 RAG 还是基于手工对切片处理，并手工通过 SaaS 或大模型对视频声音摘录，文字提取。BDA 简化了这一流程，输出的内容以 Json 文档的形式呈现。

Json 文档结构目前版本主要包含以下几个部分：Metadata、shots、chapters、video、statistics

Metadata 包含视频的基本信息，如资产 ID、格式、帧率、编码、时长、分辨率等。
Shots 是 DBA 自动将视频分割成多个镜头，每个镜头包括开始和结束的时间码，开始和结束的时间戳（毫秒），开始和结束的帧索引，持续时间，置信度，所属章节索引。
Chapters 是 DBA 自动将视频分割成多个章节，每个章节包含开始和结束的时间码，开始和结束的时间戳（毫秒），开始和结束的帧索引，持续时间，包含的镜头索引，章节摘要，转录文本，IAB 分类，内容审核等。其中，IAB 分类可以帮助广告找到视频中可以切入的点，让广告的引入可以更加流畅。
Video 里面包含了视频总结和视频整体的转录文本。视频整体的转录文本包含了每个章节的转录文本。
Statistics 主要是对视频数据的统计，包含了镜头数量统计，章节统计和视频中发言人的数量。

在本文中，我们主要用到了 DBA 视频处理的处理手段，来将视频数据转化成 json 结构数据为用户提供文字搜索功能。以下是相关架构的介绍。

当 Amazon S3 路径中有文件上传完毕时，Amazon EventBridge 会监测到相关事件并触发 Amazon Lambda 调用 Amazon Bedrock API 对视频文件按照实现创建的 DBA 项目进行处理。DBA 项目是利用 Lambda 在视频处理流程前创建。视频处理完成后，生成相应的 json 文件，并将其传回 Amazon S3 存储 s3://<bucket-name>/video-output/。相关示例代码如下：

# invokes bda by async approach with a given input file
def invoke_insight_generation_async(
        input_s3_uri,
        output_s3_uri,
        data_project_arn, blueprints = None):

    # Extract account ID from project ARN
    account_id = data_project_arn.split(':')[4]
    
    # Construct default Profile ARN using fixed us-west-2 region，which currently supports the 2 models required in the following process
    profile_arn = f"arn:aws:bedrock:us-west-2:{account_id}:data-automation-profile/us.data-automation-v1"

    payload = {
        "inputConfiguration": {
            "s3Uri": input_s3_uri
        },
        "outputConfiguration": {
            "s3Uri": output_s3_uri
        },
        "dataAutomationConfiguration": {
            "dataAutomationProjectArn": data_project_arn,
            "stage": "LIVE"
        },
        "dataAutomationProfileArn": profile_arn,
        "notificationConfiguration": {
            "eventBridgeConfiguration": {"eventBridgeEnabled": True},
        }
    }

    try:
        response = bda_client_runtime.invoke_data_automation_async(**payload)
        print(f"Successfully invoked data automation: {response}")
        return response
    except Exception as e:
        print(f"Error invoking data automation: {str(e)}")
        raise

3. 基于视频 Json 文件的 Embedding 处理

之后，Amazon S3 文件生成的规则会再次触发的 Amazon EventBridge，使其启动 Amazon Lambda 调用 Amazon Bedrock 集成的 amazon.titan-embed-text-v2:0 模型，为 Json 文件内容做向量化用于后续查询。

try:
        response = bedrock_client.invoke_model(
            modelId="amazon.titan-embed-text-v2:0",
            contentType="application/json",
            accept="application/json",
            body=json.dumps({
                "inputText": text
            })
        )

由于每个 chapter 内的 transcripts 较长，为达到更好的检索效果，会对其进行切片处理，最后将整理好的数据结构存入 DocumentDB。由于是简易环境，我们基于字符长度做了简单的切片处理：

def split_transcript_into_chunks(self, transcript_text, max_chunk_size=500, min_chunk_size=100):
        if not transcript_text:
            return []

        # 如果输入是字典，尝试提取文本
        if isinstance(transcript_text, dict):
            if 'text' in transcript_text:
                transcript_text = transcript_text['text']
            elif 'representation' in transcript_text and 'text' in transcript_text['representation']:
                transcript_text = transcript_text['representation']['text']
            else:
                transcript_text = json.dumps(transcript_text)

        # 确保输入是字符串
        if not isinstance(transcript_text, str):
            transcript_text = str(transcript_text)

        # 按句子分割（句号、问号、感叹号后跟空格）
        # 使用更宽松的模式，允许句子结束后有任何数量的空格
        sentences = re.split(r'([.!?])\s*', transcript_text)

        # 处理分割结果，将标点符号重新附加到句子
        processed_sentences = []
        i = 0
        while i < len(sentences):
            sentence = sentences[i]

            # 如果是标点符号，附加到前一个句子
            if i > 0 and sentence in ['.', '!', '?']:
                processed_sentences[-1] += sentence
            else:
                processed_sentences.append(sentence)

            i += 1

        # 将句子组合成块
        chunks = []
        current_chunk = ""

        for sentence in processed_sentences:
            # 跳过空句子
            if not sentence.strip():
                continue

            # 如果当前块加上新句子会超过最大大小，保存当前块
            if current_chunk and len(current_chunk) + len(sentence) + 1 > max_chunk_size:
                if len(current_chunk) >= min_chunk_size:
                    chunks.append(current_chunk.strip())
                current_chunk = sentence
            else:
                if current_chunk:
                    current_chunk += " " + sentence
                else:
                    current_chunk = sentence

        # 添加最后一个块
        if current_chunk and len(current_chunk) >= min_chunk_size:
            chunks.append(current_chunk.strip())

        return chunks

将 Json 文件向量化后，我们将 Json 文件的数据格式进行了处理，使其在 Amazon DocumentDB 中能更好地做检索。

def flatten_video_data(self, video_data, video_name):
        flattened_data = []
        
        # 处理章节
        chapters = video_data.get('chapters', [])
        for chapter in chapters:
            chapter_summary = chapter.get('chapter_summary', {})
            flattened_chapter_summary = {
                "video_name": video_name,
                "source": f"chapter_{chapter.get('chapter_index', 0)}_summary",
                "text": chapter_summary.get('text', ""),
                "embedding": chapter_summary.get('embedding', []),
                "start_timestamp_millis": chapter.get('start_timestamp_millis'),
                "end_timestamp_millis": chapter.get('end_timestamp_millis')
            }
            flattened_data.append(flattened_chapter_summary)

            # 处理章节转录块
            transcript_chunks = chapter.get('transcript_chunks', [])
            for chunk in transcript_chunks:
                flattened_chunk = {
                    "video_name": video_name,
                    "source": f"chapter_{chapter.get('chapter_index', 0)}_transcript_chunk_{chunk.get('chunk_index', 0)}",
                    "text": chunk.get('text', ""),
                    "embedding": chunk.get('embedding', []),
                    "start_timestamp_millis": chapter.get('start_timestamp_millis'),
                    "end_timestamp_millis": chapter.get('end_timestamp_millis')
                }
                flattened_data.append(flattened_chunk)

        return flattened_data

对视频生成的文字做完向量化和数据格式的整理后，便可以将其存入 Amazon DocumentDB 为用户的检索做准备了。

4. 用户搜索文字的 Embedding 转换

将向量和文字存入 Amazon DocumentDB 后，用户便可以从前端输入搜索文字并选择搜索模式（文本搜索或场景搜索），系统会使用 amazon.titan – embed – text – v2:0 模型对搜索文字进行向量化，以便后续进行向量匹配。

flowchart LR

  A([接收搜索请求])-->B[解析查询参数]
  B-->C{执行混合搜索}
  C-->D[向量搜索]
  C-->E[文本搜索]
  D-->F([合并搜索结果])

  E-->F
  F-->G([使用Cohere重排序])
  G-->H([返回最终结果])

双路召回与结果重排序：Amazon Lambda 利用转换后的向量，同时进行文字和向量的双路召回。在向量检索中，使用 Amazon Document DB 的聚合 pipeline 对向量相似度进行搜索，根据搜索模式过滤结果，最后通过 project 返回相应字段；

$project：返回相应字段如下：

text: "<sample_text>"
video_name: "<sample_name>.mov" 
source: "chapter_6_summary"
start_timestamp_millis: 181666
end_timestamp_millis: 227100

similarity：与向量索引一样，我们选择余弦相似度（cosine）来衡量查询向量和文档向量之间的相似性。

top_k：返回的视频数

filter_condition：由于我们的搜索分为场景搜索和台词文本搜索，便以此为筛选，从而用户可以自行选择搜索场景。

pipeline = [
                {
                    "$search": {
                        "vectorSearch": {
                            "vector": query_embedding,
                            "path": "embedding",
                            "similarity": "cosine",
                            "k": top_k * 3,  # Fetch more results since we'll filter them
                            "efSearch": 64
                        }
                    }
                },
                # Add a $match stage to filter results based on search mode (scene/transcripts)
                {
                    "$match": filter_condition
                },
                # Limit to top_k results after filtering
                {
                    "$limit": top_k
                },
                {
                    "$project": {
                        "text": 1,
                        "video_name": 1,
                        "source": 1,
                        "start_timestamp_millis": 1,
                        "end_timestamp_millis": 1
                    }
                }
            ]

文字检索则基于源文件为 json 文本的特点，通过 $text 操作符利用倒排索引进行文本搜索。倒排索引是一种用于快速查找包含特定单词或短语的文档的数据结构。与传统的正向索引（从文档到单词的映射）不同，倒排索引是从单词到文档的映射。

检索完成后，由于同一个 source 可能会同时被向量检索和文字检索出来，从而在合并结果时做了去重处理：

all_results = processed_vector_results + processed_text_results
            # Remove duplicates based on '_id' and prefer text search results
            unique_results = []
            seen_ids = set()
            for result in reversed(all_results):  # Reverse the list to process text results first
                result_id = result['_id']
                if result_id not in seen_ids:
                    seen_ids.add(result_id)
                    unique_results.append(result)
            unique_results.reverse()  # Reverse the list back to original order
            # Return unique results directly
            return {"results": unique_results}

最后通过 Amazon Bedrock 集成的 cohere.rerank – v3 – 5:0 模型对召回结果进行重排序，并对输出结果进行了整理，而后按照相关度分数返回最符合用户需求的视频。

response = self.bedrock_client.invoke_model(
            modelId="cohere.rerank-v3-5:0",
            contentType="application/json",
            accept="application/json",
            body=json.dumps({
                "api_version": 2,
                "query": query,
                "documents": documents,
                "top_n": len(documents)
            })
        )

总结

将 BDA 作为处理视频的手段之一减少了手工分镜，取帧等的工序。无服务器的架构为整体的设计提供了低成本的计算资源，后续的数据的存储选用 DocumentDB 也是希望可以用灵活地手段做 Json 数据处理。在 AI 模型的加持下，希望本文能够为 AI 与视频搜索提供了一种新思路。

持续改进

作为新功能，目前 BDA 的视频处理功能仅限于标准输出，可以考虑后续加入 Amazon Nova 模型来丰富视频场景描述数据，从而进一步提升视频内容分析的精细度。Amazon Nova 模型能够对视频进行抽帧理解，从每一帧图像中提取更丰富的信息，例如视频场景中的物体细节、变化等。这些额外的信息将被整合到视频检索系统中，使得用户在搜索视频时，能够获得更精准、更丰富的搜索结果。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

全新 Graviton4 实例，提升 Valkey 性价比

2025-05-15T09:30:33+08:00

在当今数据驱动的世界中，高性能、低延迟的数据存储和检索系统变得越来越重要。Valkey 作为一个基于 Redis 的键值存储解决方案，以其卓越的性能和灵活性而闻名。同时，亚马逊云科技的 Graviton 处理器为云计算带来了新的可能性，提供了更高的性价比。本文将探讨如何利用 Graviton 实例来进一步提升自建 Valkey 的性价比，通过一系列测试和分析，为读者提供实用的洞察和建议。

Valkey 与 Graviton 实例简介

Valkey 简介

Valkey 是一个基于 Redis 的高性能键值存储系统，专为云环境设计。它继承了 Redis 的所有优点，如快速的读写速度、丰富的数据结构支持，同时还增加了一些云原生特性，如自动伸缩、跨区域复制等。Valkey 广泛应用于缓存、会话存储、实时分析等场景，成为许多企业的首选解决方案。

主要特点：

高性能：毫秒级的读写延迟
可扩展性：支持横向和纵向扩展
高可用性：内置故障转移和数据持久化机制
丰富的数据结构：支持字符串、列表、集合、有序集合等
云原生：易于在云环境中部署和管理

您可以通过查看博客文章什么是 Valkey 和推陈出新 – 内存 key-value 数据库 Valkey 介绍和剖析了解更多细节。

Amazon Graviton 实例

Amazon Graviton 是由亚马逊云科技设计的一系列 64 位 ARM 架构处理器，旨在为云工作负载提供最佳性价比。这些定制处理器为各种用例的 Amazon EC2 实例类型提供动力，包括通用型、计算优化型、内存优化型和存储优化型等实例类型。与传统的 x86-64 处理器相比，Amazon Graviton 处理器以更低的能耗著称，使其成为许多应用程序的经济高效选择。主要特点：

性价比：在亚马逊云科技上为广泛的工作负载提供最佳性价比，与基于 x86 的 Amazon EC2 实例相比，基于 Amazon Graviton 的实例可实现高达 20% 的成本节省。
可运行各种工作负载：使用基于 Graviton 的实例来支持应用程序服务器、微服务、开源数据库和高性能计算（HPC）。
广泛的软件支持：Amazon Graviton 处理器受到许多热门的操作系统、ISV 和亚马逊云科技合作伙伴支持。
作为托管式亚马逊云科技服务提供：基于 Amazon Graviton 的实例也可用于热门的托管亚马逊云科技服务，例如 Amazon Aurora、Amazon RDS 和 Amazon EKS。
减少碳足迹：与同类 EC2 实例相比，在实现相同性能的情况下最多可节省 60% 的能源。

Graviton 实例的优势在于它能够在保持高性能的同时，显著降低运营成本。这对于像 Valkey 这样的数据密集型应用来说，可能带来显著的经济效益。

全新一代 Graviton4 实例

2023 re:Invent 大会宣布了 Amazon Graviton4 处理器，该芯片使用 ARM Neoverse V2 内核定制设计的 ARM 架构构建，集成了730亿个晶体管，针对提供高性能和能效进行了优化。

由 AWmazon Graviton4 提供支持的 Amazon EC2 R8g 实例现已全面推出，相比基于 Amazon Graviton3 的实例，其性能高出 30%。 Amazon EC2 R8g 实例非常适合数据库、内存缓存和实时大数据分析等内存密集型工作负载。

要了解更多信息，请参阅 Amazon EC2 R8g 实例。

基于 Graviton4 的实例（C8g，M8g，R8g，X8g 实例）支持带宽权重配置，该特性允许您为实例配置更高的基线网络带宽，你可以通过 Amazon EC2 实例支持 VPC 和 EBS 的带宽配置了解该特性。

要了解如何将工作负载迁移到基于 Graviton 的实例，请参阅 Amazon Graviton Fast Start 迅速开启程序计划和 Porting Advisor for Graviton。

测试环境准备

为了全面评估 Graviton 实例对 Valkey 性能的影响，我们设置了一个详细的测试环境。这个环境旨在模拟真实世界的使用场景，同时保证测试结果的可比性和可重复性。

测试客户端 memtier_benchmark

EC2 实例：1 * c6i.4xlarge
OS: Amazon Linux 2
memtier 测试命令参考

Valkey 环境及配置

OS：Amazon Linux 2023
EC2 实例类型，4xlarge 大小的实例
- r6g.4xlarge / r6i.4xlarge / r7i.xlarge / r7g.4xlarge / r8g.4xlarge
- 您可以通过 Amazon EC2 实例类型页面查看各实例的详细信息
Vlkey
- 版本：valkey-8.0.1
- 模式：单机

网络设置

最小化网络延迟的影响，我们将测试客户端实例和 Valkey 实例部署在同一个可用区内。

通过这样详细的测试环境设置，我们旨在获得全面、准确的性能数据，为 Valkey 在 Graviton 实例上的表现提供深入的洞察。

测试用例说明

Valkey 版本中加入了 IO 多线程能力。因此这里我们主要关注在 IO 多线程的能力的提升上，我们设计了用例分别使用多种 io-threads 数值来测试性能，如下所示：

测试场景 ID	io-threads	pipeline	EC2 实例大小	CPU 内存
1	6	不使用	4xlarge	16C 128G
2	10	不使用	4xlarge	16C 128G
3	14	不使用	4xlarge	16C 128G

测试流程及结果

配置 Valkey 服务

我们对 Valkey 进行配置，首先根据测试机型修改最大内存分配为机型最大内存的 80%，IO 线程数量根据上述测试用例进行调整。

valkey.conf 配置文件

# /etc/valkey/valkey.conf
port 6379
bind 0.0.0.0
protected-mode no
daemonize yes
maxmemory 102gb   // 4xlarge 实例内存容量的80%
maxmemory-policy allkeys-lru
io-threads 14     // 分别设置为6，10 或 14
io-threads-do-reads yes

使用 memtier-benchmark 进行测试

为了全面评估 Valkey 在 Graviton 实例上的性能表现，我们设计了一系列测试案例,涵盖了常见的操作类型和使用场景。这些测试不仅反映了基本的读写性能，还包括了更复杂的数据操作和真实世界的应用场景。

测试命令

./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="set __key__ __data__" --key-prefix="kv_" --key-minimum=1 --key-maximum=500 --random-data --data-size=128 --test-time=180
./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="get __key__" --key-prefix="kv_" --key-minimum=1 --key-maximum=500 --test-time=180
./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="incr __key__" --key-prefix="int_" --key-minimum=1 --key-maximum=500 --test-time=180
./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="lpush __key__ __data__" --key-prefix="list_" --key-minimum=1 --key-maximum=500 --random-data --data-size=128 --test-time=180
./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="sadd __key__ __data__" --key-prefix="set_" --key-minimum=1 --key-maximum=500 --random-data --data-size=128 --test-time=180
./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="zadd __key__ __key__ __data__" --key-prefix="" --key-minimum=1 --key-maximum=500 --random-data --data-size=128 --test-time=180
./memtier_benchmark -t 16 -c 50 -s 10.26.90.100 -p 6379 --distinct-client-seed --command="hset __key__ __data__ __data__" --key-prefix="hash_" --key-minimum=1 --key-maximum=500 --random-data --data-size=128 --test-time=180

memtier_benchmark 的选项说明

memtier_benchmark 是一款基于命令行的 redis/valkey 性能测试工具，支持多种操作命令，这里我们总结了测试所用到的命令行配置参数，具体测试的参数解析如下：

-t 16：使用 16 个线程
-c 50：每个线程使用 50 个客户端进行连接
-s 10.26.90.100：Redis 服务器的 IP 地址
-p 6379：Redis 服务器的端口号
–distinct-client-seed：为每个客户端使用不同的随机种子
–command=”set key data”：指定要执行的 Redis 命令，这里是 SET 命令
–key-prefix=”kv_”：键名的前缀
–key-minimum=1 —key-maximum=500：键名的数字范围（将被附加到前缀后）
–random-data：使用随机生成的数据
–data-size=128：设置值的大小为 128 字节
–test-time=180：测试持续时间为 180 秒（3分钟）

本次测试用到的基础操作命令如下：

T: 测试基本的键值对写入性能
GET: 测试基本的键值对读取性能
INCR: 测试原子递增操作的性能
LPUSH: 测试列表头部插入操作的性能
SADD: 测试向集合添加元素的性能
ZADD: 测试向有序集合添加元素的性能
HSET: 测试设置哈希表字段的性能

通过这些多样化的测试案例，我们能够全面评估 Valkey 在 Graviton 实例上的性能特征，包括吞吐量、延迟、资源利用率等多个方面。这将帮助我们深入理解 Graviton 架构对 Valkey 性能的影响，并为潜在的用户提供有价值的参考信息。

测试结果对比

经过测试我们收集了大量数据来比较 Valkey 在各实例、各场景的性能/性价比。以下是测试数据的汇总表，表格中各个实例规格对应的数值为吞吐性能 OPS/sec。其中，以 r6i 实例性能数据和 OD 价格作为 100% 基准值进行归一化：

根据该表，我们综合考虑性能和性价比，得到下面图表：

测试结果分析：

基于 Graviton 实例在性能上大幅提升，其中基于 Graviton3 的 r7g.4xlarge 和基于 Graviton4 的 r8g.4xlarge 拥有最好的性能：

g.4xlarge 相比 r6i.4xlarge，性能提升可高达 59%；相比 r7i.4xlarge，性能提升可高达 49%；
r7g.4xlarge 相比 r6i.4xlarge，性能提升可高达 52%；相比 r7i.4xlarge，性能提升可高达 40%；

同时，r7g.4xlarge 和 r8g.4xlarge 拥有最好的性价比：

g.4xlarge 相比 r6i.4xlarge，性价比提升可高达 70%；相比 r7i.4xlarge，性能提升可高达 68%；
r7g.4xlarge 相比 r6i.4xlarge，性能提升可高达 79%；相比 r7i.4xlarge，性能提升可高达 73%；

综上，基于 Graviton4 的 r8g 实例在本文各场景中都具有最好的性价比。同时，建议您基于实际工作负载和业务流量进行进一步测试，作为 Valkey 选型的依据。

你也可以通过下图查看各场景下各个操作类型，在各实例下的平均延时信息：

总结与建议

通过对 Valkey在 x86 和 Graviton 实例上的全面测试和比较，我们得出以下结论和建议：

实例选择建议：

性能是首要考虑因素，r8g.4xlarge（基于 Graviton4）是最佳选择，它在几乎所有操作上都提供了最高的性能。
如果需要平衡成本和性能，r7g.4xlarge 也是一个很好的选择，它提供了比 r6i.4xlarge 更好的性能。

工作负载优化：

对于 zadd 等高延迟操作，可以考虑优化应用程序逻辑，减少这类操作的频率或批量处理。
充分利用 get 和 incr 等高性能操作，这些操作在 Graviton 实例上表现特别出色。

成本效益分析：

Graviton 实例（r6g/r7g/r8g）不仅性能更好，通常价格也更低，提供了更好的性价比。
建议进行详细的成本效益分析，考虑实际工作负载特点和预算限制。

迁移策略：

如果当前使用的是 Intel 实例（如 r6i.4xlarge），建议考虑逐步迁移到 Graviton 实例。
迁移之前除通过基准测试进行评估，建议基于真实业务工作负载进行充分测试，确保应用程序在 ARM 架构上正常运行。

总结来说，Amazoniton 处理器在 Valkey 工作负载上展现出显著的性能优势，同时通常还能提供更好的成本效益。根据您的具体需求和预算，r8g.4xlarge 或 r7g.4xlarge 都是非常有竞争力的选择。

Apache Seatunnel & Amazon Bedrock 助力生成式 AI 应用规模化生产实践

2025-05-14T08:57:41+08:00

业务背景：数字时代的非结构化数据价值挖掘挑战

在企业智能化升级的浪潮中，信息的获取方式正从“关键词匹配”向“语义理解”转变。传统的基于反向索引的搜索引擎依赖于字符串级别的匹配机制，难以捕捉用户查询背后的真实语义。这对于搜索体验、推荐精准度、客服响应以及知识问答系统的智能化程度造成了明显的制约。

以电商平台为例，用户在检索“适合夏季穿的白色连衣裙”时，平台若仅通过关键词匹配商品标题或类目，将难以捕捉“适合夏季”这一包含面料、版型等多维语义的信息。类似的问题也广泛存在于金融文档检索、智能客服问答、知识图谱关联等多种业务场景中。

为此，我们希望构建一个基于向量检索能力的语义搜索系统。核心目标是：将业务数据中的文本字段实时转化为语义向量，写入支持近似向量搜索的数据库，实现语义级别的信息检索能力。

这个过程需要解决以下几个关键挑战：

异构数据源的高性能接入与同步；
文本语义嵌入的在线生成与模型调用；
嵌入结果的结构化写入与向量索引构建；
支持向量搜索的高可用低延迟存储系统；
全链路的可观测性与扩展性。

技术选型与架构核心

为实现上述系统能力，我们基于现代数据工程范式选型如下技术栈，并实现了可落地的全链路解决方案：

1. Apache SeaTunnel：统一数据集成与同步中枢

Apache SeaTunnel 是一个面向实时和离线场景的开源高性能分布式数据集成平台，具备良好的扩展性和强大的异构数据源适配能力。其核心特性包括：

丰富的 Connector 插件体系：支持 100+ 数据源，包括主流数据库、消息队列、文件系统、对象存储、NoSQL 等，具备良好的接入能力；
批流一体的数据处理范式：支持离线全量、离线增量、CDC 以及实时流式同步等多种模式，适用于全量建库与增量更新等场景；
多引擎支持：支持 SeaTunnel 自研 Zeta 引擎、Flink 和 Spark，具备高度灵活性与资源适配性；
插件式 Transform 机制：可通过自定义 Transform 插件，灵活嵌入中间处理逻辑，如文本预处理、调用外部 API 获取嵌入向量等；
完善的监控与运维支持：通过 SeaTunnel Web 提供图形化作业编排与实时任务监控能力。

在本方案中，我们以 SeaTunnel 为数据处理主干，利用其 Source 模块从业务数据库/对象存储中实时提取原始数据，使用 Transform 模块调用 Amazon Bedrock 接口完成文本向量化，最终通过 Sink 模块将结果写入 Amazon OpenSearch，构建支持语义检索的向量索引。

2. Amazon Bedrock：企业级向量生成服务平台

Amazon Bedrock 是亚马逊云科技提供的统一大模型调用与管理平台，支持直接通过 API 访问多个主流厂商的 Foundation Model（如 Anthropic Claude、Cohere、Stability AI、Mistral、Amazon Titan 等），无需构建和部署模型基础设施。

在文本向量生成场景中，我们重点考虑以下两种嵌入模型：

Cohere Embed v3

支持文本与图像的多模态嵌入能力，覆盖 100+ 语言，适用于构建跨语言、高语义表达力的搜索系统。Embed v3 在多种评测任务上表现优异，尤其适合复杂场景下的多域语义匹配。

Amazon Titan Embeddings v2

由亚马逊云科技原生提供，支持小维度（256/512/1024）的高质量嵌入输出，具备良好的压缩率和检索精度平衡，适合低延迟、高并发、对存储成本敏感的场景。
借助 Bedrock 的 API 接口，我们可在 SeaTunnel 的 Transform 阶段调用嵌入模型服务，完成原始文本字段到高维稠密向量的转换，并保留 ID、标签、元数据等信息用于后续入库。

3. Amazon OpenSearch：支持向量检索的云原生存储系统

Amazon OpenSearch 提供了原生的 knn_vector 字段类型，用于向量化数据的索引与相似度检索，支持 Faiss、NMSLIB 等主流 ANN 算法后端，具备以下特点：

高并发向量插入与检索性能；
支持结构化查询与向量检索混合执行；
向量字段可配置维度、距离类型（cosine/l2/dot_product）、索引参数等；
集成 KNN 插件支持 HNSW 等近似搜索算法，加速向量索引构建；
与标准 OpenSearch 查询语法无缝集成，便于复合搜索（如“价格范围 + 相似描述”）的场景实现。

通过 SeaTunnel 的 OpenSearch Sink 插件，我们可将向量与相关结构化字段（如ID、标题、标签等）一并写入，实现低代码方式构建“语义+结构”的多维检索系统。

方案架构及操作步骤

1. 整体架构

2. 数据导入

以 Amazon 电商平台客户评论数据为例，原始数据格式及字段如下，文件为 json 数据格式。

{"Item":{"review_id":{"S":"AEEZL8Z5691IJ"},"date":{"S":"1215475200"},"customer":{"S":"Amazon Customer"},"asin":{"S":"B000Q6R4MK"},"review":{"S":"I can hear the caller just great -- but I get frequent \"what?\" \"I can't hear you\"  \"it sounds like a lot of background noise\" , etc. comments.  I'm trying to figure out the best way to have it arranged on my visor, etc.  Not 100% sold yet."},"rating":{"S":"4.0"}}}

在电商场景中，经常需要搜索评论内容，即字段对应的 review。现在我们需要将这个字段进行向量化，并且将向量化的结果写入到 opensearch 中。

在 Seatunel 中编辑配文件如下：

env {
  # Set the execution engine to SeaTunnel Zeta Engine
  execution.engine = "seatunnel"

  # Set job mode to BATCH for processing the JSON file
  job.mode = "BATCH"
}

source {
  S3File {
    path = "/data/3vk7gdzq6myxhn2kwexoiywjh4.json"
    bucket = "s3a://opensearch"
    file_format_type = "json"

    # AWS region configuration
    fs.s3a.endpoint = "s3.us-east-1.amazonaws.com"

    # Use SimpleAWSCredentialsProvider instead of InstanceProfileCredentialsProvider
    fs.s3a.aws.credentials.provider = "org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider"

    # Provide explicit AWS credentials - 请替换为您的实际访问密钥
    access_key = ""
    secret_key = ""

    # Additional S3A configuration options
    hadoop_s3_properties {
      "fs.s3a.impl" = "org.apache.hadoop.fs.s3a.S3AFileSystem"
      "fs.s3a.connection.ssl.enabled" = "true"
    }

    # Required schema for JSON file format
    schema  = {
      fields {
        Item = {
            review_id = {
                S = string
            }
            date = {
                S = string
            }
            customer = {
                S = string
            }
            asin = {
                S = string
            }
            review = {
                S = string
            }
            rating = {
                S = string
            }
        }
      }
    }

    # Register output table
    plugin_output = "s3_data"
  }
}

transform {
  # First transform to extract the actual review text from the nested S field
  Sql {
    plugin_input = "s3_data"
    plugin_output = "extracted_data"

    query = "SELECT Item.review_id.S as review_id, Item.date.S as date, Item.customer.S as customer, Item.asin.S as asin, Item.review.S as review, Item.rating.S as rating FROM s3_data"
  }

  # Use Amazon Bedrock to generate embeddings for the review field
  Embedding {
    plugin_input = "extracted_data"
    plugin_output = "embedded_data"

    # Specify the model provider as AMAZON for Bedrock
    model_provider = "AMAZON"

    # Specify the model ID for Amazon Titan Embeddings
    model = "amazon.titan-embed-text-v2:0"

    # AWS region for Bedrock service
    region = "us-east-1"

    # AWS credentials for Bedrock service - 请替换为您的实际访问密钥
    api_key = ""
    secret_key = ""

    # Define which fields to vectorize and their target fields
    vectorization_fields {
      review_embedding = review
    }

    # Batch size for processing
    single_vectorized_input_number = 10
    dimension = 1024
  }
}

sink {
  Console {
    plugin_input = "embedded_data"  # 使用 Embedding 转换后的数据

    # 只打印少量记录以便于查看
    limit = 10
  }
  Elasticsearch {
    plugin_input = "embedded_data"

    # OpenSearch endpoint
    hosts = ["https://xxxxxx.us-east-1.es.amazonaws.com"]
    tls_verify_certificate = false
    # Index configuration
    index = "reviews"
    username = ""
    password = ""
    vectorization_fields = ["review_embedding"]
    # 指定向量维度（每个向量中的浮点数数量）
    vector_dimensions = 1024

  }
}

在 seatunnel 中运行任务，这里我们将输出进行了日志 console 打印，可以看到日志里将添加了一个字段 review_embedding。

直到任务完成，看到统计信息：

3. 数据检索

使用 Opensearch 的 knn 检索及神经网络检索都可以进行向量匹配查询，您可以参考这个 workshop 进行Opensearch与 Bedrock 的模型对接。

查询示例：

GET reviews/_search
{
  "size": 5,
  "query": {
    "neural": {
      "review_embedding": {
        "query_text": "Installed and connected pretty well. Works good and keeps my eyes on the road. Took a few weeks to see the on and off button, but overall I like this and would suggest it.",
        "model_id": "8xwrFJYB5648rVcWvwIU",
        "k": 10
      }
    }
  }
}

总结与展望

本文通过 Apache SeaTunnel + Amazon Bedrock + Amazon OpenSearch 的组合，构建了一套高可扩展性、低耦合的语义搜索数据处理链路，成功实现了从结构化/非结构化文本数据到向量检索系统的全流程集成。该方案具有如下优势：

松耦合架构设计：SeaTunnel 的插件式 Transform 和 Sink 机制，使得模型调用与向量写入逻辑保持解耦，方便后续替换嵌入模型或变更底层向量数据库；
模型能力云原生接入：借助 Bedrock 提供的 API 网关与 IAM 权限体系，无需自行维护嵌入模型推理服务，简化了 AI 能力的接入门槛；
向量检索与结构检索融合：通过 OpenSearch 的混合查询能力，支持多维筛选与语义相似度排序的组合场景，覆盖从“找商品”到“问知识”的多类业务需求。

面向大规模生产的实践建议

若要将该方案推广至企业级生产环境，建议从以下几个维度进一步优化和演进：

1、嵌入缓存与批量推理优化
对于模型调用阶段，建议增加文本去重与缓存机制（如基于 MD5 哈希或 LRU 缓存）以避免重复嵌入，同时支持按批次对文本进行推理（Batch Inference），提升吞吐量并降低 Bedrock 调用成本。

2、入字段维度规划与压缩策略
根据不同业务对检索精度/响应速度/存储成本的权衡，建议为不同场景配置不同维度的嵌入模型（如 Titan Embedding 512 适用于中小规模应用场景），必要时可引入 PCA 等压缩手段进一步降低向量维度。

3、索引管理与生命周期控制
在 OpenSearch 中合理设置向量索引的 Refresh Interval、Segment Merge 策略、HNSW 参数（如 M、EF）、以及定期重建索引机制，以保障检索精度与写入性能间的平衡。

4、搜索效果评估与持续优化
构建离线评估数据集（包含 Query、Ground Truth）、并设计 Recall@K、MRR、nDCG 等指标用于嵌入模型的效果评估。同时，结合 A/B 测试不断迭代模型与索引参数。

通过本文所示的技术路径，企业可实现将传统的结构化数据处理平台向“智能语义理解平台”演进，为搜索引擎、推荐系统、问答系统、企业知识中台等场景提供强大支撑。未来，随着多模态嵌入模型的发展、RAG 架构的进一步普及，SeaTunnel + Bedrock 的结合将在 AI 数据工程领域展现出更大的潜力。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

基于 Amazon Bedrock 和 Amazon Connect 打造智能客服自助服务 – 设计篇

2025-05-13T09:10:52+08:00

随着 GenAI 技术不断的发展和演进，人工智能技术广泛地被应用在呼叫中心服务领域，主要包括虚拟坐席（即自助服务）、坐席助手和呼叫中心运营的数据洞察和智能分析。本博客主要针对自助服务应用场景的实现。

1. 传统自助服务系统瓶颈

1.1 交互方式僵化

交按键导航依赖：用户需通过固定数字按键选择菜单，操作路径冗长且容错率低，易因误操作重复流程。
缺乏自然语言理解：无法解析口语化表达或多轮对话，用户需严格遵循预设选项，灵活性差。
单向输出为主：信息传递多为语音播报，难以整合图文、链接等多媒体形式，信息接收效率低。

1.2 智能化能力缺失

无主动学习与迭代：传统系统依赖人工规则配置，无法通过用户行为数据优化流程，服务模式静态化。
个性化服务不足：无法基于用户历史记录、偏好或实时情境（如位置、设备）提供定制化解决方案。
意图识别能力弱：对复杂或模糊需求（如“我要改套餐但保留原号码”）难以精准定位，导致频繁转人工。

1.3 数据处理与洞察力薄弱

数据分析表层化：仅能统计基础指标（如接通率、平均处理时长），缺乏用户情绪分析、需求聚类等深度洞察。
实时反馈缺失：无法动态监测用户不满信号（如语音急促、重复询问）并触发干预策略（如优先转接人工）。

1.4 运营效率与成本瓶颈

维护复杂度高：菜单结构调整需专业技术支持，更新周期长，难以快速响应业务变化。
人力依赖性强：简单问题无法有效分流，导致人工坐席负担过重，运营成本居高不下。

2. 基于 GenAI 的智能客服自助系统设计需要考虑的因素

首先要综合考虑智能客服接入的渠道有哪些，如电话，文字聊天，短信，社交媒体，邮件等。这些渠道可以分成两个大类，一是语音，二是文本。
如果接入渠道支持语音，则在整体实现过程中增加 NLP 语音转文字的组件，未来可以通过支持语音的大语言模型，本次设计采用 AWS Lex 服务作为 NLP模块。
考虑大语言模型延时对客户体验的影响，尽量采用延时低的模型。
考虑多种语音混合的场景及需要。
由于语音内容宽泛需要制定策略来做意图识别，更精准地捕获客户的实际意图。

3. 基于 Amazon Bedrock 的智能客服自助系统架构设计

3.1 需求拆解

首先需要对客户需求进行分析并确定不同要求采用不同的对应方式。可以采用大语言模型 LLM 实现智能识别，代替传统 IVR 按键式意图分类，确定意图后根据不同的意图采用不同的应对模式。

如果是咨询类问题，可以采用 RAG 知识库方式通过 GenAI 模式来实现智能应答，如客户问题不在知识范围内可以再转人工坐席服务，这样可以大大减轻坐席的压力；如果是操作类的问题，比如账户余额查询，修改密码等可以利用基于大语言模型 LLM 的 Agent 代理服务来提供智能服务；如果需要人工服务，可以直接转接 Amazon Connect 系统并有空闲的坐席提供服务；如果识别到是闲聊或敏感话题，则可以按照客户策略进行警告提醒或直接终止服务。

当然，在服务过程中往往需要实现多轮问答，为更好地理解客户的问题，并结合上下文，可以启用 Prompt Catching 功能实现缓存。这些都可以通过智能 LLM 编排来实现，见图 1。

图 1. 客户自助服务需求分析

3.2 解决方案 High Level 设计

鉴于目前 Amazon Connect 服务的原理及设计规则，采用 Amazon Lex 作为 NLP 语音转文字的模块，首先由 Lex 语音转文字并在 Lex 中通过调用 Lambda 来实现调用 Amazon Bedrock 上的 Claude 3 Haiku 模型实现意图分类，不同的意图会对应不同的处理流程，详见图 2。

图 2. 解决方案 High Level 设计

3.3 系统架构设计

整个解决方案可以同时支持电话及文字聊天等多渠道呼叫中心解决方案，不同的接入渠道采用统一的流程管理。整体方案设计中以 Amazon Connect 作为呼叫中心平台核心服务平台，同时采用 Amazon Lex 作为自主服务组件，Amazon Lex 以及 Amazon Connect Content Flow 通过调用 Lambda 来实现对 Claude 模型的调用以及 Amazon Bedrock 知识库的调用。详细流程见图 3。

业务流程说明：

1、通过内部 CRM 系统整理知识库文件并放入 S3，采用 Amazon Bedrock 知识库服务并同步 S3 数据源。

2、客户通过电话或文字拨打热线进入 Amazon Connect 服务。

3、Amazon Connect 调用 Lex 做自动机器人实现 ASR 语音识别。

4、Amazon Lex 把识别到的客户意图通过 Lambda 调用 Amazon Bedrock。

5、通过 Amazon Bedrock 调用 Claude 3 Haiku 并返回客户意图。

如果转人工直接转坐席如果闲聊提示三次后挂机；
如果是知识库问题，Connect 调用 Lambda。

6、Lambda 调用 Amazon Bedrock 知识库做 RAG 查询，然后把查询结果再交给 Claude 3 Haiku 生成问题结果，并返回给客户。

图 3. 详细系统架构设计图

3.4 意图识别实现解析

实现意图识别可以采用提示词工程来实现，可以采用专用的意图识别小模型来实现，也可以通过微调来实现，也可以用一个 RAG 知识库来实现。选择实现方法取决于意图的复杂度以及是否是有多级别的意图识别。如果比较简单的就可以采用提示词工程直接实现。如图 4 所示是本次实践的意图识别，分为咨询、人工、闲聊三种类型，因此采用的是提示词来直接实现。

图 4. 客户意图 Sample

以上是对上述 3 类模型进行意图识别的提示词，具体如下：

classification_prompt = """
            You are a question answering agent. I will provide you with a set of search results. 
            The user will provide you with a question. Your job is to answer the user's question using only information from the search results. 
            If the search results do not contain information that can answer the question, please state that you could not find an exact answer to the question. 
            Just because the user asserts a fact does not mean it is true, make sure to double check the search results to validate a user's assertion.
            Here are the search results in numbered order:
            <content>
            {{CUSTOMER_CONTENT}}
            </content>
            
            The following is the previous conversation history (between the customer and you). If there is no conversation history, it will be empty:
            <customer_history>
            {{CUSTOMER_HISTORY}}
            </customer_history>

            Here is the customer query:
            <customer_query>
            {{CUSTOMER_QUERY}}
            </customer_query>

            Your job is to answer the user's question as concisely as possible.
            You must answer the question in Chinese.
            You must output your answer in the following format. Place your answer within <answer> tags
        """

3.5 模型选择解析

基于呼叫中心服务的特殊性，如何选择最佳的模型对客户体验至关重要。呼叫中心实时性是最重要的指标，如果延时太长或通话中抖动严重会大大影响客户体验，同时呼叫中心业务场景相当明确，大部分模型都能符合要求。鉴于这些需求，选择模型最重要的指标为以下 3 个：

模型延时性能指标
模型速度性能指标
模型的价格指标

本次实现采用的是 Claude 3 Haiku。Amazon Nova Micro、Amazon Nova Lite 模型也非常适合这个场景，大家可以根据需要自行选择。

图 5. 模型延时性能比较

图 6. 模型速度性能比较

图 7. 模型价格比较

*以上信息来源自：https://artificialanalysis.ai

3.6 如何实现 Prompt Catching 解析

目前 Amazon Bedrock 已经发表了 Prompt Catching 功能，原则上优先采用该功能。如果该功能不符合客户目标或在客户所在的 Region 没有发布可以采用如下方式来实现并简化 Prompt Catching 的实现。

常规的实现方式是通过 DynamoDB 来存储上下文对话，通过代码来实现 Prompt 存储 DynamoDB，并在下一次调用时来读取，通过一个唯一 ID 来标识 Session。整个过程需要额外的 DynamoDB 服务费用，同时需要编写代码来控制，同时要维护 Session 的生命周期。

针对 Amazon Connect 在其 Contact Flow 设计过程中支持随路数据，用来保存当前 Session 的信息，比如主角号码、被叫号码等，这个随路数据也是 Amazon Connect 与 Amazon Lex、Amazon Lambda 等服务传递和返回参数的实现原理，该随路数据的数据格式和内容支持自定义，且完全基于 Session 来控制，当前会话结束后会自动清除数据。

这和 Prompt Catching 实现机制完全匹配，因此通过随路数据自定义一个字段来存放 Prompt 即可，且这部分不会产生任何的额外费用，同时 Session 生命周期也不用自己管理，由 Amazon Connect 服务来自动维护，大大节省了成本，并简化了实现的难度。

图 8. 采用 Amazon Connect 随路数据实现上下文记忆

4. 解决方案成本分析

针对采用传统 IVR 及人工的呼叫中心以及采用基于 GenAI 的智能解决方案做了详细的成本分析。

传统解决方案主要成本：

大量的人工费用，包括人员费用、人员对应的场地、设备等费用，这部分费用及其昂贵。
通信费用，由于人工服务或者传统 IVR 模式的自助服务效率比较低，解决一个客户问题需要更长的通话时长来完成一个业务，同时也会因为重复的提示和引导导致通话时长过长，这将产生大量的通话费用。

基于 GenAI 智能客服解决方案优势：

由于 AI 的引入，更多的业务类型可以采用自助的服务来提供服务，只有非常紧急或复杂的业务才转由人工来服务。这可以大大节省人工费用支出，也可以大大提升人工坐席效率。
可以大大降低每个通话的平均通话时长，通过智能意图识别快速捕捉客户意图，大大减少通信费用开支。
虽然增加了 GenAI 服务费用，但由于亚马逊云科技 GenAI 成本优势，可以减少这部分开支，同时相对于采用 GenAI 技术节省的通信费用和人力成本，这些费用不是一个数量级，可以大大节省整体费用。
可以提升客户体验和满意度，同时提升处理速度。

以下是一个呼叫中心调用 Amazon Bedrock 上的 Claude 3 Haiku 的成本分析。

假设每个通话需要 8 轮，1 轮需要 2 次对话，每天 2000 通通话
第一轮意图识别输入 Token 平均 500，输出 Token 为 50
第二轮 RAG 输入 Token 平均 500，输出 Token 为 200

那么：

每天输入 Token 数量 = （500+500）82000=16000K
每天输出 Token 数量 = （50+200）82000=4000K
每天 Haiku 输入费用 = 0.00025*16000K/1000=$4
每天 Haiku 输出费用 = 0.00125*4000K/1000=$5

5. 总结

本篇文章讨论了基于亚马逊云科技 Amazon Connect 和 Amazon Bedrock 的智能化呼叫中心架构的设计及成本分析。文章从用户实际需求出发，提供了一个可行的解决方案，并结合技术和成本综合考虑提供了最佳实践。本设计充分考虑了呼叫中心的特殊性，采用提示词工程结合 RAG 知识库等不同技术方式，提供最佳的客户体验；采用 Amazon Connect 特有的随路数据作为 Prompt 提示词的缓存机制，简化了提示词缓存的实现机制；还对模型选择和成本做了详细的分析，让读者可以清楚了解成本和费用的细节。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

使用 Amazon Q Developer 构建企业自动化代码审核流程

2025-05-12T09:51:55+08:00

前言

在软件开发流程中，代码审核是确保代码质量的关键环节。传统的代码审核通常依赖于团队成员之间的相互审查，这不仅耗时，而且可能受到审核者经验和专业知识的限制。随着生成式 AI 的发展，越来越多的团队，也开始借助生成式 AI 的能力进行代码审核。

Amazon Q Developer 是亚马逊推出的专为专业开发人员设计的人工智能助手，旨在提升代码开发和管理效率。其主要功能包括代码生成、调试、故障排除和安全漏洞扫描，提供一站式代码服务。本文主要介绍其代码审核的能力。你可以在亚马逊云科技控制台、IDE 插件、以及命令行工具（CLI）等地方中使用到 Amazon Q Developer。Amazon Q Developer for IDE 可以作为开发人员开发过程中自检的审核助手；在开发阶段进行代码质量提升，而 Amazon Q Developer for CLI 提供了命令行工具，让企业可以结合自有的 CI/CD 流程进行代码审核。

使用 Amazon Q Developer 进行自动化的代码审核方案，具有以下优势：

一致性：应用统一的代码审核标准
效率：快速完成审核，减少人工审核时间
全面性：能够检查多方面的问题，包括代码风格、质量、安全性等
可集成性：可以轻松集成到 CI/CD 流程中
持续学习：基于大量代码库训练，能够识别最新的最佳实践

而 Amazon Q Developer For CLI 在命令行界面中已集成了上下文感知、环境感知、Agent 执行等多种能力，比起直接调用大模型，可减少企业集成时的工程化时间，不必再重复造轮子。

接下来，我们将介绍两个场景的代码审核场景：（1）在开发过程中进行代码审核；（2）在 CI/CD 过程中使用 Amazon Q Developer 进行代码审核。本文不再针对如何安装 Amazon Q Developer 等进行介绍，您可以参考官方文档进行安装（在 IDE 中安装 Amazon Q/在命令行中安装 Amazon Q）。同时 Amazon Q Developer 分为个人用户和企业用户，由于个人用户每月有一定限额，建议在企业内部使用企业用户以获取更多的使用额度。

1. 开发期间 – Amazon Q Developer IDE

Amazon Q Developer 可以检查您的代码库中是否存在安全漏洞和代码质量问题，以改善应用程序在整个开发周期中的状况。

Amazon Q 会检查您的代码是否存在以下类型的代码问题：

SAST 扫描 – 检测源代码中的安全漏洞。Amazon Q 可识别各种安全问题，例如资源泄漏、SQL 注入和跨站脚本。
机密检测 – 防止泄露代码中的敏感或机密信息。Amazon Q 会检查您的代码和文本文件中是否有硬编码密码、数据库连接字符串和用户名等机密。机密调查结果包括有关未受保护的机密以及如何保护它的信息。
IaC 问题 – 评估基础架构文件的安全状况。Amazon Q 可以审查您的基础设施即代码（IaC）代码文件，以检测配置错误、合规性和安全问题。
代码质量问题 – 确保您的代码符合质量、可维护性和效率标准。Amazon Q 会生成与各种质量问题相关的代码问题，包括但不限于性能、机器学习规则和 AWS 最佳实践。
代码部署风险 – 评估与部署代码相关的风险。Amazon Q 会确定部署或发布您的代码是否存在任何风险，包括应用程序性能和操作中断。
软件组成分析（SCA）- 评估第三方代码。Amazon Q 会检查集成到您的代码中的第三方组件、库、框架和依赖关系，确保第三方代码是安全和最新的。

如需查看 Amazon Q 用于审查您的代码的探测器的完整列表，请参阅 Amazon Q 探测器库。

当你编写代码时，Amazon Q Developer 会自动审查您正在编写的文件，一旦在您的代码中检测到代码问题，就会立即生成代码问题。当 Amazon Q 执行自动审查时，它不会生成就地代码修复。当您使用 Amazon Q 时，自动审核默认处于启用状态。我们也可以在 IDE 的 Amazon Q chat 框中手动执行/review，进行代码审核。以下为一个演示（可点击查看大图）：

2. CI/CD 期间 – Amazon Q Developer CLI

以下为使用 Amazon Q Developer CLI 进行代码审核的效果（可点击查看大图）：

以下是代码审核结果的样例，实际生产中我们可以对审核规则，以及审核报告格式进行自定义：

多文件代码审核报告
总体项目评估
这是一个电子钱包项目，包含AWS Lambda函数和GitLab CI/CD配置。整体代码质量中等，但存在一些需要改进的地方，包括安全性、错误处理和代码质量方面的问题。
文件概览
.gitlab-ci.yml - CI/CD配置文件 - 3个问题
ewallet/controller/balance.py - 钱包余额查询Lambda函数 - 4个问题
put_comment.py - GitLab MR评论脚本 - 2个问题
详细文件审核
.gitlab-ci.yml
总体评估
该文件定义了GitLab CI/CD流程，包括构建和代码审核阶段。整体结构清晰，但存在一些安全和配置问题。
问题清单
CI-001: 硬编码的AWS账号和区域
严重程度: 严重
类型: 安全
位置: .gitlab-ci.yml:7-8
描述: CI配置中硬编码了AWS账号ID和区域信息。
原因: 硬编码的凭证和配置信息可能导致安全风险，并使配置难以在不同环境中重用。
修复建议:
# 原代码
login_ecr:
  stage: build
  script:
 - aws ecr get-login-password --region us-west-2 | docker login --username AWS --password-stdin xxxxxxx.dkr.ecr.us-west-2.amazonaws.com
可以修改为:
# 修改后的代码
login_ecr:
  stage: build
  script:
 - aws ecr get-login-password --region ${AWS_REGION} | docker login --username > AWS --password-stdin ${AWS_ACCOUNT_ID}.dkr.ecr.${AWS_REGION}.amazonaws.com
修改说明: 使用环境变量替代硬编码的AWS账号和区域，提高安全性和可移植性。
CI-002: 缺少作业依赖关系
严重程度: 一般
类型: 可维护性
位置: .gitlab-ci.yml
描述: 作业之间没有明确的依赖关系定义。
原因: 缺少依赖关系可能导致作业执行顺序不正确，特别是当流水线变得更复杂时。
修复建议:
使用needs关键字定义作业依赖关系：
amazon-q-code-review:
  stage: review
  needs:
 - login_ecr
  # 其他配置...
修改说明: 添加明确的依赖关系可以确保作业按照预期顺序执行，提高流水线的可靠性。
CI-003: 镜像引用使用硬编码值
严重程度: 一般
类型: 可维护性
位置: .gitlab-ci.yml:39
描述: Docker镜像引用使用了硬编码的URI。
原因: 硬编码的镜像引用使配置难以在不同环境中重用，并可能导致维护问题。
修复建议:
# 原代码
  image: xxxx.dkr.ecr.us-west-2.amazonaws.com/cicdtest:latest 
可以修改为:
# 修改后的代码
  image: ${ECR_REPOSITORY_URI}/cicdtest:latest
修改说明: 使用环境变量替代硬编码的镜像URI，提高配置的可移植性和可维护性。
ewallet/controller/balance.py
总体评估
这是一个 Amazon Lambda函数，用于查询钱包余额。代码结构清晰，但存在一些安全和错误处理方面的问题。
问题清单
BAL-001: 安全风险 - 错误消息泄露内部信息
严重程度: 严重
类型: 安全
位置: ewallet/controller/balance.py:54-62
描述: 在错误处理中，直接将异常信息返回给客户端。
原因: 暴露详细的异常信息可能会泄露系统内部结构，为攻击者提供有用信息。
修复建议:
# 原代码
except ClientError as e:
 return {
     'statusCode': 500,
     'headers': {
         'Content-Type': 'application/json',
         'Access-Control-Allow-Origin': '*'
     },
     'body': json.dumps({
         'message': f'Internal server error: {str(e)}'
     })
 }
可以修改为:
# 修改后的代码
except ClientError as e:
 # 记录详细错误信息供内部使用
 print(f"Error accessing DynamoDB: {str(e)}")
 return {
     'statusCode': 500,
    'headers': {
         'Content-Type': 'application/json',
         'Access-Control-Allow-Origin': '*'
     },
     'body': json.dumps({
         'message': 'Internal server error occurred. Please try again later.'
     })
 }
修改说明: 记录详细错误信息供内部调试使用，但向客户端返回通用错误消息，避免泄露系统内部信息。
BAL-002: 缺少输入验证
严重程度: 严重
类型: 安全
位置: ewallet/controller/balance.py:18-19
描述: 函数直接使用路径参数而没有进行验证。
原因: 缺少输入验证可能导致安全漏洞，如注入攻击或意外行为。
修复建议:
# 原代码
# Get wallet ID from path parameters
wallet_id = event['pathParameters']['id']
可以修改为:
# 修改后的代码
# Get wallet ID from path parameters
if not event.get('pathParameters') or 'id' not in event.get('pathParameters', {}):
 return {
     'statusCode': 400,
    'headers': {
         'Content-Type': 'application/json',
         'Access-Control-Allow-Origin': '*'
     },
     'body': json.dumps({
         'message': 'Missing wallet ID'
     })
 }
wallet_id = event['pathParameters']['id']
# 验证wallet_id格式是否正确（例如UUID格式）
if not wallet_id or not isinstance(wallet_id, str) or len(wallet_id) > 100:
 return {
     'statusCode': 400,
     'headers': {
         'Content-Type': 'application/json',
         'Access-Control-Allow-Origin': '*'
     },
     'body': json.dumps({
         'message': 'Invalid wallet ID format'
     })
 }
修改说明: 添加输入验证，确保路径参数存在且格式正确，防止潜在的安全问题。
BAL-003: 缺少日志记录
严重程度: 一般
类型: 可维护性
位置: ewallet/controller/balance.py
描述: 代码中没有适当的日志记录，这会使问题排查变得困难。
原因: 缺少日志记录会使系统运行状态不透明，难以监控和调试。
修复建议:
添加适当的日志记录：
import logging
logger = logging.getLogger()
logger.setLevel(logging.INFO)
def lambda_handler(event, context):
 logger.info(f"Processing request for wallet balance. Event: > {json.dumps(event)}")
 try:
     # 现有代码...
     logger.info(f"Retrieved wallet details for ID: {wallet_id}")
     # 返回结果...
 except ClientError as e:
     logger.error(f"DynamoDB error when retrieving wallet {wallet_id}: {str(e)}")
     # 错误处理...
 except Exception as e:
     logger.error(f"Unexpected error: {str(e)}")
     return {
         'statusCode': 500,
         'headers': {
             'Content-Type': 'application/json',
             'Access-Control-Allow-Origin': '*'
         },
         'body': json.dumps({
             'message': 'Internal server error occurred'
         })
     }
修改说明: 添加结构化日志记录，包括请求信息、处理结果和错误情况，便于监控和问题排查。
BAL-004: 缺少通用异常处理
严重程度: 一般
类型: 错误处理
位置: ewallet/controller/balance.py:17
描述: 只捕获了ClientError，没有处理其他可能的异常。
原因: 未处理的异常可能导致Lambda函数崩溃，影响用户体验。
修复建议:
# 原代码
try:
 # 业务逻辑...
except ClientError as e:
 # 错误处理...
可以修改为:
# 修改后的代码
try:
 # 业务逻辑...
except ClientError as e:
 # 特定错误处理...
except Exception as e:
 # 记录未预期的异常
 print(f"Unexpected error: {str(e)}")
 return {
     'statusCode': 500,
     'headers': {
         'Content-Type': 'application/json',
         'Access-Control-Allow-Origin': '*'
     },
     'body': json.dumps({
         'message': 'Internal server error occurred'
     })
 }
修改说明: 添加通用异常处理，确保即使发生未预期的错误，函数也能返回适当的响应而不是崩溃。
put_comment.py
总体评估
这是一个用于向 GitLab 合并请求添加评论的脚本。代码简单明了，但存在一些错误和安全问题。
问题清单
PC-001: 未定义的变量引用
严重程度: 阻塞
类型: 功能
位置: put_comment.py:19
描述: 脚本尝试使用未定义的变量comment_body。
原因: 这是一个编程错误，会导致脚本运行失败。
修复建议:
# 原代码
response = requests.post(url, headers=headers, json={"body": comment_body})
可以修改为:
# 修改后的代码
response = requests.post(url, headers=headers, json={"body": yaml_content})
修改说明: 使用已读取的yaml_content变量替代未定义的comment_body变量。
PC-002: 敏感信息处理不当
严重程度: 严重
类型: 安全
位置: put_comment.py:8
描述: 使用环境变量REGISTRATION_TOKEN作为GitLab API的私有令牌。
原因: 使用注册令牌而非专用API令牌可能导致权限过大，增加安全风险。
修复建议:
# 原代码
private_token = os.environ.get("REGISTRATION_TOKEN")
可以修改为:
# 修改后的代码
private_token = os.environ.get("GITLAB_API_TOKEN")
修改说明: 使用专门的 API 令牌环境变量，而不是复用注册令牌，遵循最小权限原则。
跨文件问题
CROSS-001: 配置文件命名不一致
严重程度: 一般
类型: 可维护性
位置: changes.txt 中列出了.gitlab-ci.yml和gitlab-ci.yaml
描述: 项目中同时引用了两种不同命名的 GitLab CI 配置文件。
原因: 配置文件命名不一致可能导致混淆，并可能在某些情况下导致 CI/CD 流程失败。
修复建议: 统一使用.gitlab-ci.yml作为配置文件名，并删除或重命名gitlab-ci.yaml文件。
总体改进建议
1、 增强安全性: 避免硬编码凭证和敏感信息，使用环境变量或安全的凭证管理服务。
2、 改进错误处理: 在所有代码中实现全面的错误处理，包括输入验证和适当的异常捕获。
3、 添加日志记录: 在关键操作点添加结构化日志，有助于问题诊断和性能监控。
4、 代码标准化: 确保配置文件命名和引用的一致性，避免混淆。
5、 添加单元测试: 为 Lambda 函数添加单元测试，提高代码质量和可靠性。
6、 使用环境变量: 将硬编码的配置值替换为环境变量，提高代码的可移植性和安全性。
7、 实施代码审查流程: 建立正式的代码审查流程，确保代码质量和安全性标准得到维护。

接下来，我将详细介绍如何通过 GitLab CI/CD 流程集成 Amazon Q CLI 来实现自动化代码审核。

2.1 代码审核的前提条件

亚马逊云科技账户并已启用 Amazon Q Developer
GitLab 环境，配置好 GitLab Runner，适用于 GitLab api 调用的相关 token
Docker 环境
Amazon ECR 仓库用于存储自定义 Docker 镜像
S3 桶，可以访问此 S3 桶的用户或者角色
本节所用代码均可在此 Github 仓库中找到。代码结构如下：

├── .gitlab-ci.yml #gitlab cicd 所用的pipeline
├── Dockerfile # gitlab pipeline运行时所用docker 镜像
├── ewallet # 测试使用的代码
├── improve_rules # 审核规则
│   ├── improved_code_review_standards_part1.md #包含一般原则、代码审查流程和检查清单的第一部分（代码风格和代码质量）
│   ├── improved_code_review_standards_part2.md #包含功能实现、安全性和性能部分
│   ├── improved_code_review_standards_part3.md #包含测试、日志记录、可维护性和特定场景，如并发、事务、幂等性和远程调用
│   ├── improved_code_review_standards_part4.md #包含语言特定的检查点、中间件使用指南、通信指南、工具推荐和持续改进
│   └── llm_code_review_feedback_format.md # 审核报告规则
└── put_comment.py # 审核结束调用api填写评论的代码

接下来，您可以参考以下步骤，在团队中实现使用 Amazon Q developer CLI 协助实现代码审核。

2.2 整体流程

实现基于以下流程：

开发者提交代码或创建合并请求
GitLab CI/CD 流程触发
使用预配置的 Docker 镜像运行 Amazon Q Developer CLI 进行代码审核
Amazon Q Developer CLI 分析代码变更并生成审核报告
审核结果作为评论添加到合并请求中

2.3 环境准备

2.3.1 Amazon Q Developer CLI 登录权限

Amazon Q developer CLI 目前需要交互性登录，但对于审核流程，我们需要将登录自动化，因此我们需要将认证后的凭据给到 Gitlab runner 使用。首先我们需要找一台服务器，以 Linux（Ubuntu）为例，安装并登录 Amazon Q（登录过程参考此文档），登录后凭据存储在~/.local/share/amazon-q/。

为了对 CI/CD 上下文进行身份验证，我们需要将其持久化到某个共享位置。我在这个例子中使用了 S3，但这包含敏感数据，因此建议使用 S3 VPC 端点，并限制对此 S3 桶的访问权限来源，比如限定 IP 等等。

使用以下命令将凭据上传到 S3：

aws s3 sync ~/.local/share/amazon-q s3://<amazon-q-bucket>/amazonq-credentials/amazon-q #<amazon-q-bucket>替换为你自己的S3桶，并记录这个地址

2.3.2 Docker 镜像准备

我们需要创建一个包含 Amazon Q CLI 和必要工具的 Docker 镜像，作为 GitLab pipeline 运行的环境，其 Dockerfile 如下：

# 基于Ubuntu 22.04
FROM ubuntu:22.04
# 避免交互式提示
ENV DEBIAN_FRONTEND=noninteractive
# 安装必要的软件包
RUN apt-get update && \
    apt-get install -y \
    curl \
    git \
    jq \
    python3 \
    python3-pip \
    apt-transport-https \
    ca-certificates \
    gnupg \
    lsb-release \
    software-properties-common \
    sudo && \
    rm -rf /var/lib/apt/lists/*
# 添加GitLab Runner仓库
RUN curl -L "https://packages.gitlab.com/install/repositories/runner/gitlab-runner/script.deb.sh" | bash
# 安装GitLab Runner
# 如果要安装指定版本的runner，类似于apt install gitlab-runner=17.7.1-1
RUN apt-get update && \
    apt-get install -y gitlab-runner && \
    rm -rf /var/lib/apt/lists/*
# 安装AWS CLI
RUN pip3 install --no-cache-dir awscli requests && pip install requests
# 安装Amazon Q CLI
RUN curl --proto '=https' --tlsv1.2 -sSf https://desktop-release.q.us-east-1.amazonaws.com/latest/amazon-q.deb -o amazon-q.deb && \
    apt-get update && \
    apt-get install -y ./amazon-q.deb && \
    rm amazon-q.deb && \
    rm -rf /var/lib/apt/lists/*
# 创建配置目录
RUN mkdir -p /etc/gitlab-runner

镜像中包含：

Amazon Q CLI
Amazon CLI
Git
Python 环境

将此 Dockerfile 打包成镜像，并上传到私有镜像仓库中，此处我们选择 Amazon ECR，并记录镜像名称。

2.3.3 GitLab 环境准备

准备一台 EC2 安装 Gitlab runner，并给此 EC2 一个角色，具备 AmazonEC2ContainerRegistryFullAccess 以及 AmazonS3FullAccess 权限，注册该 runner 时，注意选择 tag 为 ubuntu,docker,amazon-q，以便后续的 runner 运行节点选择，以下为注册 tag 的参考命令：

 gitlab-runner register --registration-token "<your-runner-reg-token>" --url "<your-gitlab-server-url>" --tag-list "ubuntu,docker,amazon-q" --non-interactive

准备一个 Gitlab Token，具备 API 全权限，用于审核完成后调用 API 填写 comment。
设置 GitLab 变量，给流程使用。

变量一，Key 为 AMAZON_Q_S3_URI，值为 2.3.1 Amazon Q developer CLI 登录权限中创建的 S3 路径，Visibility 为 Visible，Flags 为 Expand variable reference。

变量二，Key 为 REGISTRATION_TOKEN，值为上一步中的 Gitlab Token，由于此为密钥，所以设置 Visibility 为 Masked，Flags 为 Expand variable reference，其他参考如上图。

变量三，Key 为 Region，值为 Amazon ECR 的所在 region，Visibility 为 Visible，Flags 为 Expand variable reference。

变量四，Key 为 Accountid，值为 Amazon ECR 的所在账户 ID，Visibility 为 Visible，Flags 为 Expand variable reference。

变量五，Key 为 Image，值为上一步 Docker 镜像的名称，Visibility 为 Visible，Flags 为 Expand variable reference。

2.4 GitLab CI/CD 配置

审核阶段的主要步骤包括：

克隆完整仓库
确定需要审核的代码变更
同步 Amazon Q 配置（如果有）
运行 Amazon Q CLI 进行代码审核
保存审核结果

审核流程所用的 .gitlab-ci.ym 文件如下，注意将${Region}、${Accountid}、${Image}进行替换，其中${Image}为上一步上传到 ECR 的镜像名称。

stages:
  - build
  - review
login_ecr:
  stage: build
  script:
    - aws ecr get-login-password --region ${Region} | docker login --username AWS --password-stdin ${Accountid}.dkr.ecr.${Region}.amazonaws.com

variables:
  # 定义 Amazon Q 提示
  PROMPT: |
    你是一个代码审核助手，以下文件中包含代码审核规则
    improve_rules/improved_code_review_standards_part1.md - 包含一般原则、代码审查流程和检查清单的第一部分（代码风格和代码质量）
    improve_rules/improved_code_review_standards_part2.md - 包含功能实现、安全性和性能部分
    improve_rules/improved_code_review_standards_part3.md - 包含测试、日志记录、可维护性和特定场景，如并发、事务、幂等性和远程调用
    improve_rules/improved_code_review_standards_part4.md - 包含语言特定的检查点、中间件使用指南、通信指南、工具推荐和持续改进
    请审核changes.txt中的修改，但不要直接修改文件，以中文输出，并参考improve_rules/llm_code_review_feedback_format.md中的推荐格式进行输出至文件amazon_q_review.md中。完成后，请检查amazon_q_review.md确保所需内容完整。审核完成后运行python脚本put_comment.py将审核结果添加到merge comment中，运行完成后回复完成，不需要对任务做总结，运行过程中不要修改任何文件。然后退出运行q cli
amazon-q-code-review:
  stage: review
  variables:
    GIT_STRATEGY: clone  # 使用clone确保获取完整仓库
  # 使用您已配置的 Runner 标签
  tags:
    - ubuntu
    - docker
    - amazon-q
  # GitLab CI/CD 配置文件
# 使用预配置的 GitLab Runner 运行 Amazon Q 代码审查
  image:${Image}
  script:
    - echo "CI_MERGE_REQUEST_IID $CI_MERGE_REQUEST_IID"
    - echo "CI_MERGE_REQUEST_TARGET_BRANCH_NAME  $CI_MERGE_REQUEST_TARGET_BRANCH_NAME"
    - echo "CI_MERGE_REQUEST_SOURCE_BRANCH_NAME $CI_MERGE_REQUEST_SOURCE_BRANCH_NAME"
    - echo "CI_COMMIT_BEFORE_SHA  $CI_COMMIT_BEFORE_SHA"
    - echo "CI_COMMIT_SHA  $CI_COMMIT_SHA"
    - echo "AMAZON_Q_S3_URI $AMAZON_Q_S3_URI"
    - echo "REGISTRATION_TOKEN $REGISTRATION_TOKEN"
    - git branch -a
    - git fetch --all --prune
    - touch changes.txt
    - echo "Processing changes..."
    - if [ -n "$CI_MERGE_REQUEST_IID" ]; then git diff --name-only $CI_MERGE_REQUEST_TARGET_BRANCH_NAME $CI_MERGE_REQUEST_SOURCE_BRANCH_NAME > changes.txt 2>/dev/null || git diff --name-only origin/$CI_MERGE_REQUEST_TARGET_BRANCH_NAME origin/$CI_MERGE_REQUEST_SOURCE_BRANCH_NAME > changes.txt 2>/dev/null || git diff --name-only HEAD~1 HEAD > changes.txt 2>/dev/null || echo "No changes detected" > changes.txt; fi
    - if [ -z "$CI_MERGE_REQUEST_IID" ]; then git diff --name-only $CI_COMMIT_BEFORE_SHA $CI_COMMIT_SHA > changes.txt 2>/dev/null || git diff --name-only HEAD~1 HEAD > changes.txt 2>/dev/null || echo "No changes detected" > changes.txt; fi
    - if [ -n "$AMAZON_Q_S3_URI" ]; then aws s3 sync $AMAZON_Q_S3_URI ~/.local/share/amazon-q; fi 
    - ls -l ~/.local/share/amazon-q
    - echo "/help" | q chat
    - q chat -a -- "$PROMPT"
    
    - mv amazon_q_review.md amazon_q_review_$CI_PIPELINE_ID.md 
  
  # 定义何时运行此作业
  rules:
    - if: $CI_PIPELINE_SOURCE == "merge_request_event"
      when: always
    - when: never
  
  artifacts:
    paths:
      - amazon_q_review_$CI_PIPELINE_ID.md
    expire_in: 1 month

2.5 审核流程详解

当开发者创建合并请求时，GitLab CI/CD 流程会自动触发，执行以下步骤：

1. 确定变更文件：使用 Git 命令确定合并请求中的变更文件，并将文件列表保存到 changes.txt

git diff --name-only $CI_MERGE_REQUEST_TARGET_BRANCH_NAME $CI_MERGE_REQUEST_SOURCE_BRANCH_NAME > changes.txt

2. 运行 Amazon Q CLI：使用预定义的提示运行 Amazon Q CLI 进行代码审核，审核完成后，Amazon Q 会生成一个 Markdown 格式的审核报告，包含对代码的分析和改进建议。这个报告会通过 Python 脚本 put_comment.py 添加到合并请求的评论中，使开发者能够直接在 GitLab 界面查看审核结果。

q chat -a -- "$PROMPT"

以下是 Prompt 的样例：

你是一个代码审核助手，以下文件中包含代码审核规则
    improve_rules/improved_code_review_standards_part1.md - 包含一般原则、代码审查流程和检查清单的第一部分（代码风格和代码质量）
    improve_rules/improved_code_review_standards_part2.md - 包含功能实现、安全性和性能部分
    improve_rules/improved_code_review_standards_part3.md - 包含测试、日志记录、可维护性和特定场景，如并发、事务、幂等性和远程调用
    improve_rules/improved_code_review_standards_part4.md - 包含语言特定的检查点、中间件使用指南、通信指南、工具推荐和持续改进
    请审核changes.txt中的修改，但不要直接修改文件，以中文输出，并参考improve_rules/llm_code_review_feedback_format.md中的推荐格式进行输出至文件amazon_q_review.md中。完成后，请检查amazon_q_review.md确保所需内容完整。审核完成后运行python脚本put_comment.py将审核结果添加到merge comment中，运行完成后回复完成，不需要对任务做总结，运行过程中不要修改任何文件。然后退出运行q cli

我们使用了一套完整的代码审核规则，这些规则分为四个部分：

一般原则、代码风格和代码质量
功能实现、安全性和性能
测试、日志记录、可维护性和特定场景
语言特定检查点、中间件使用指南和通信指南

这些规则存储在项目的 improve_rules 目录中，作为 Amazon Q 的提示输入。

3. 保存审核结果：将审核结果保存为 CI/CD 流程的构件，以便下载查看。

mv amazon_q_review.md amazon_q_review_$CI_PIPELINE_ID.md

2.6 自定义与扩展

本代码审核的流程，可以根据团队需求进行自定义和扩展：

调整审核规则：修改 improve_rules 目录中的文件，定制适合团队的代码审核标准
增强审核报告：修改 Amazon Q 提示，调整审核报告的格式和内容
集成其他工具：在 CI/CD 流程中添加其他代码质量工具，与 Amazon Q 审核结果结合
自动修复：扩展实现，使 Amazon Q 不仅提供建议，还能自动修复某些问题
增加安全控制：沙箱运行 Amazon Q Developer CLI，减少 API 和 IAM 的相关权限等

2.7 Amazon Q Developer CLI 的智能体能力详解

在 2.5 审核流程详解中，我们利用 prompt 让 Amazon Q 完成了代码审核、审核结果写入文件、调用脚本将审核结果上传到 Gitlab 等操作。使用到了 Amazon Q Developer CLI 的强大的智能体能力，以下为 Gitlab 的运行日志，我们可以来观察一下 Amazon Q 的运行过程。

最终，Q 完成了自己的任务，在 Merge 流程中写上了自己的评论！

总结

在本篇博客中，我们通过 Amazon Q Developer 实现了代码开发的审核，通过 Amazon Q Developer IDE，我们在开发阶段扫描出代码安全问题，提升了代码质量。通过将 Amazon Q CLI 集成到 GitLab CI/CD 流程中，我们实现了一个自动化的代码审核系统。这个系统能够在开发者提交代码或创建合并请求时，自动分析代码变更，提供全面的审核意见，帮助团队保持高质量的代码标准。

Amazon Q CLI 的 AI 能力使得代码审核不再仅仅依赖于团队成员的人工审查，而是能够借助 AI 的力量，更快速、更全面地发现潜在问题。这不仅提高了开发效率，也有助于团队成员学习和遵循最佳实践。而 Amazon Q Developer CLI 的智能体模式，还可以在流程遇到问题时自我修复，保证流程的运行顺利。

随着 Amazon Q 功能的不断增强，我们可以期待这个自动化代码审核系统在未来变得更加智能和有效，为软件开发流程带来更多价值。

参考文档:
Automating Code Reviews with Amazon Q and GitHub Actions

本篇作者

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

提升研发运维效能：Pacvue 泊客电商的 GenAI 技术实践

2025-05-09T08:41:08+08:00

关于 Pacvue 泊客电商

Pacvue 是唯一一个为整个市场提供统一商务和零售媒体平台的解决方案——从小型到中型卖家，直至企业品牌都能受益。自 2018 年以来，Pacvue 的使命一直是在不断发展的商务和零售媒体格局中，提供领先的解决方案，以加速品牌的成功。

Pacvue 泊客电商官网

Amazon Bedrock 和 Anthropic Claude 模型

Amazon Bedrock 是一项完全托管的服务，通过单个 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等领先人工智能公司的高性能基础模型（FM），以及通过安全性、隐私性和负责任的人工智能构建生成式人工智能应用程序所需的一系列广泛功能。使用 Amazon Bedrock，您可以轻松试验和评估适合您的使用案例的热门 FM，通过微调和检索增强生成（RAG）等技术利用您的数据对其进行私人定制，并构建使用您的企业系统和数据来源执行任务的代理。由于 Amazon Bedrock 是无服务器的，因此您无需管理任何基础设施，并且可以使用已经熟悉的亚马逊云科技服务将生成式人工智能功能安全地集成和部署到您的应用程序中。

Claude 使用 Constitutional AI 和无害训练等技术创建，在思考对话、内容创建、复杂推理、代码审查、代码生成、代码分析和优化、错误检测和调试、文档生成、代码重构和维护等方面表现卓越。Claude 3.5 Haiku 是一款高效快速的优质模型；Claude 3 Opus 适用于处理复杂任务，表现出色；Claude 3.5 Sonnet v2 是 Anthropic 最智能、最先进的模型，在各类任务和评估中展现卓越性能，整体优于 Claude 3 Opus。

Pacvue 泊客电商的 GenAI 技术实践

Claude-Powered Code Reviewer For GitHub Repositories

业务场景

Pacvue 泊客电商作为电商技术领域的创新先锋，充分利用 GitHub 平台进行代码托管、协作开发、代码审查以及持续集成/持续部署（CI/CD）等关键开发流程。秉承持续创新的理念，Pacvue 泊客电商的开发与运维团队一直致力于通过前沿技术提升整体研发运维效能。

为了进一步提升代码审查的效率和代码质量，Pacvue 泊客电商的开发与运维团队决定引入 Amazon Bedrock 上的 Claude 模型，开启 GenAI 技术在 GitHub 代码审查中的实践之路。

技术需求

Code Review Result 需要提供有价值的代码洞察，能识别 bug 和安全漏洞，时间效率和内存效率问题，并给出修改建议；
对每个 Pull Request/Repo 进行量化评分，对每个 Pull Request/Repo 中修改的文件进行量化评价，便于跟踪和管理；
将评分结果与 CI/CD 流程结合，实现代码质量的自动化管理；
GitHub 仓库必须通过白名单控制，只允许指定的 IP 才能连接，并结合 GitHub Access Token 进行访问；
Code Review 需要支持 Pull Request 级别和整个代码仓库级别的 Review；
支持 Java、Python、JavaScript 等编程语言的 Code Review，确保工具的广泛适用性；
开发人员和开发经理可以便捷的查看 Code Review Task 状态与结果，提高团队协作效率；
对于整个代码仓库级别的 Review，需要有 Review Summary，以快速了解代码库的整体状况。

技术方案

经过与亚马逊云科技快速原型团队和解决方案架构师团队讨论和研究，Pacvue 泊客电商开发与运维团队决定使用如下架构：

Claude-Powered Code Reviewer 架构示意图

出于安全考虑，尽量避免数据暴露于互联网，我们将所有 Amazon Lambda 函数放在一个 VPC 中，通过 NAT Gateway 访问互联网，通过 VPC Endpoint Gateway 访问 DynamoDB 和 S3，通过 VPC Endpoint Interface 访问 Claude 和 Amazon SQS。

①通过 GitHub Webhook/Action 自动探测开发人员针对代码仓库的 Pull Request event

②调用 Codereview Post API 提交 Code Review Task

③检查 Code Review Task 中是否有需要 review 的代码文件，如果不存在直接 return “No file need review”，如果存在则进入④，⑤

④将 Code Review 任务状态存储到 Amazon DynamoDB 中

⑤ trigger lambda 异步处理根据文件拆分细化任务到 Amazon SQS 中，白名单设置（处理的文件尾缀：.go/.py/.java 等，Lambda 的环境变量）

⑥ 获取 Pull Request diff file 等信息

⑦将 Code Review message 放入 Amazon SQS

⑧更新 Amazon DynamoDB 中需要处理的文件数目

⑨ Amazon Lambda 订阅 Amazon SQS，根据 Amazon SQS 中的 message 来 review code

⑩将需要 review 的代码通过 Amazon Lambda 并发提交给 Claude 进行 review

⑪ 将 Claude 返回的结果存储到 S3 中的文件中

⑫更新 Amazon DynamoDB 中需要处理的文件数目和已处理文件数目

⑬ 用户发起代码审查结果查询给 Amazon EC2（通过nginx Host UI）

⑭Amazon EC2 通过 Amazon API Gateway 发送查询请求

⑮根据 ReviewId 等信息查询当前代码审查的状态与结果

⑯根据提交的 ReviewId 查询 Amazon DynamoDB 中任务的状态

⑰读取 S3 的内容，生成 Pre-signed URL 返回给用户

主要挑战

保障 Code Review 过程的安全

GitHub 仓库通过白名单控制，只允许 VPC 中的 NAT Gateway 固定的 IP 地址和端口与 GitHub 仓库交互。
通过 Amazon Bedrock 使用 Claude 更加安全。Amazon Bedrock 处理的任何客户内容都会被加密。用户输入和模型输出不会与任何模型提供商共享。亚马逊云科技和第三方模型提供商不会使用 Amazon Bedrock 的任何输入或输出来训练 Amazon Titan 或任何第三方模型。使用了 Amazon PrivateLink 建立从 Amazon VPC 到 Amazon Bedrock 的私有连接，而无需将数据暴露给互联网流量。
Amazon Bedrock 提供多种支持安全和隐私要求的功能。Amazon Bedrock 符合服务和组织控制（SOC）、国际标准化组织（ISO）、健康保险流通与责任法案（HIPAA）等常见合规标准，客户可以在符合《通用数据保护条例》（GDPR）的情况下使用 Amazon Bedrock。Amazon Bedrock 包含在 SOC 1、2、3 报告的范围内，使客户能够深入了解我们的安全控制措施。我们通过对我们的 AWS 控制进行广泛的第三方审核来证明合规性。Amazon Bedrock 是符合 ISO 9001、ISO 27001、ISO 27017、ISO 27018、ISO 27701、ISO 22301 和 ISO 20000 标准的亚马逊云科技服务之一。Amazon Bedrock 已获得 CSA 安全信任保障和风险（STAR）2 级认证，该认证验证亚马逊云产品的最佳实践使用情况和安全状况。

支持的编程语言类型与扫描方式

Claude-Powered Code Reviewer 支持多种编程语言，包括 Go、Python、Java、C++、JavaScript、C#、Ruby 等，并且可以通过 Amazon lambda 环境变量进行控制，只 review 指定类型的代码文件。除了支持对单个 Pull Request 的 review，还支持对整个代码仓库的 review 以及对 review 结果的总结。

Code Review 结果是否有价值

Claude 在 Code 方面的能力参考下图中红色方块部分：

经过测试发现，Claude 可以通过简单的 Prompt 提供有价值的代码洞察，用户可以根据个性化需求修改 Prompt，下面是测试示例：

Pull Request 级别的扫描

Claude 对每个Pull Request 中每个修改的文件进行 review，参考 Prompt 如下：

"""You are a code review master. Firstly, You should figure out the code type, and then think step by step as a code review master of this code type. Please provide a concise summary of the bug and vulnerability issue found in the code, describing its characteristics, location, and potential effects on the overall functionality and performance of the application.
    Also provide your code suggestion if there is a more time efficient or memory efficient way to implement the same functionality.
    I would appreciate any feedback you can provide to help me improve my coding skills. Please let me know if you need any clarification or additional context about the code changes.
    Important: Include block of code / diff in the summary.
    And you should score the complete code, the best code scores 100, and the worst code socore 0.
    Here is the complete code in file of the pull request:
    <code>
    {file_content}
    </code>

    Below is the code diff of the pull request:
    <diff>
    {file_diff}
    </diff>
    **Respond in valid XML format with the tags as "review_score", "review_result"**. 
    Here is one   sample:
    <review_score>
    30
    <\review_score>
    <review_result>
    "这个代码中存在一个明显的 bug"
    <\review_result>
    请使用中文回答
    
    """

一段含有 bug 的 Java 代码如下：

import java.util.ArrayList;
import java.util.List;

public class MemoryLeakExample {
    // 静态集合，用于缓存对象
    private static final List<Object> cache = new ArrayList<>();

    public static void main(String[] args) {
        while (true) {
            // 每次循环创建一个新对象并添加到缓存中
            Object obj = new Object();
            cache.add(obj);

            // 打印当前缓存的大小
            System.out.println("Cache size: " + cache.size());

            // 休眠一段时间，避免过快地填满内存
            try {
                Thread.sleep(100);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }
}

通过 Pull Request 提交代码后，Code Review 结果如下：

Here is my code review response in Chinese and XML format:
<review_score>
20
</review_score>
<review_result>
这段代码存在严重的内存泄漏问题，可能导致应用程序最终耗尽内存而崩溃。主要问题如下：
内存泄漏：
代码中使用了一个静态的ArrayList来存储对象，但没有任何移除机制。在无限循环中不断添加新对象，会导致内存持续增长直到耗尽。
  private static final List<Object> cache = new ArrayList<>();
  
  while (true) {
    Object obj = new Object();
    cache.add(obj);
    // 没有移除机制
  }
无限循环：
main方法中的while(true)循环会一直运行，没有退出条件。
线程睡眠处理不当：
虽然有try-catch块处理InterruptedException，但只是打印堆栈跟踪，并未采取任何有意义的操作。
改进建议：
使用有界集合如LinkedHashMap，并实现LRU（最近最少使用）缓存策略：
  private static final int MAX_CACHE_SIZE = 1000;
  private static final Map<Integer, Object> cache = new LinkedHashMap<Integer, >Object>(MAX_CACHE_SIZE, 0.75f, true) {
   @Override
   protected boolean removeEldestEntry(Map.Entry<Integer, Object> eldest) {
       return size() > MAX_CACHE_SIZE;
   }
  };
添加退出条件或使用定时器来控制程序运行时间。
正确处理InterruptedException，例如退出循环或重新设置线程的中断状态。
考虑使用Java的软引用(SoftReference)或弱引用(WeakReference)来允许垃圾收集器在需要时回收缓存的对象。
这些改进可以显著提高代码的健壮性和性能，避免内存泄漏问题。
</review_result>

Claude 可以在 10 秒内生成上面的结果，不难看出 Claude 找到了 bug 位置，并且对 bug 进行了描述，说明了其潜在影响，并且给出了一个时间效率更高和内存效率更优秀的实现方式。

开发人员可以快速根据 review result 对 bug 进行修复，同时提升自身开发技能，从而减少 bug 数目，减少生产问题的产生。

相较于传统的人工 Code Review 方式，Claude-Powered Code Reviewer 大大地降低了 Code Review 的时间成本和人工成本，并且精通多种编程语言和自然语言。

相较于传统的基于规则扫描方式，Claude-Powered Code Reviewer 可以理解代码，并且给出更加深刻和详细的代码洞察。

Pull Request 级别的扫描运行效果截图如下：

Pull Request 扫描结果 1

针对每个 Pull Request 提供量化评分，汇总 Pull Request 中每个修改文件的评分（0 分代表最差的代码，100 分代表最好的代码），计算出每个 Pull Request 中文件最低分，平均分，最高分，开发人员可以迅速通过量化指标衡量 Pull Request 的代码质量。

Pull Request 扫描结果 2

发现 Pull Request 中文件最低分，平均分比较低，开发人员点击链接即可获得每个文件的修改建议并及时修改代码，从而提升代码质量，减少 bug 的产生，从而减少生产问题的出现。

代码仓库级别的扫描

Claude 对仓库中每个文件进行 Review，参考 Prompt 如下：

"""You are a code review master. Analyze the code 
    <code>
    {file_content}
    </code>
    and provide a concise summary of the bug and vulnerability issue found in the code, describing its characteristics, location, and potential effects on the overall functionality and performance of the application.
    Also provide your code suggestion if there is a more time efficient or memory efficient way to implement the same functionality.
    If there is no bug, just reply "没有发现bug" **Do not write explanations.**
    请使用中文回答,回答要简洁
    
    """

Claude 对仓库中所有文件的 Review 结果进行总结，参考 Prompt 如下：

"""You are a code review result summary master. Please tell me the total number of bug issues and the number of vulnerability issues in the GitHub reposity.
And list the whole file path accordingly.

    Here is the review result of each file in the reposity:    
    <file_name>
    {file_name}
    </file_name> 
    <file_review_result>
    {file_review_result}
    </file_review_result>
    ...
 请使用中文回答
    """

代码仓库级别的扫描运行效果截图如下：

代码仓库 Review List

代码仓库 Review Summary

代码仓库每个文件 Review Result

代码仓库 Review Summary 可帮助开发经理快速掌握整理代码的质量，代码仓库每个文件的 Review Result。

UI 的设计和功能

使用 Amazon EC2 托管 React UI，UI 层负责实现本方案中需要展示的代码审核 Portal、Review 页面嵌入、URL 参数跳转等功能。UI 页面将 S3 的地址生成 Per-sign URL，通过 ifream 嵌入并最终展现。
获取 Review 列表页面的信息，支持分页，并且可以按 Project、Branch、ScanScope、Pull Request Id/Commit 进行检索。
支持点击 Url 直接定位指定 Project、Branch、Pull Request Id/Commit 的 review 记录，方便与即时通信系统（如飞书、企业微信、钉钉、Slack）集成，并自动刷新 Code Review Task 状态，待 Code Review Task 完成后点击 Review Id 字段即可获得 Code Review Result。

方案优势

接近实时生成的 Code Review Result 提供有价值的代码洞察，能识别 bug 和安全漏洞，时间效率和内存效率问题等，并给出解释与优化后的代码示例，代码进行量化评分，将评分结果与 CI/CD 流程结合，可以实现代码质量的自动化管理；
与传统人工 Code Review 相比，极大地降低了人工成本和时间成本，并且适配多种编程语言和自然语言；
与传统基于规则的静态扫描工具相比，Claude 可以理解代码，并提供更加深刻和详细的代码洞察；
扩展性好，只需要修改环境变量就可以控制 review 的代码种类；
Review Prompt 简单，易于客户化修改；
使用 REST API 提交 Code Review Task，方便与 CI/CD 集成；
独立的 Code Review Portal 方便查看 Review History 以及与即时通信系统（如飞书、企业微信、钉钉、Slack）集成；
无需迁移代码仓库，只需提供访问 API 即可。

系统集成与效果展示

GitHub CI/CD 集成，实现 Diff 自动评审

CI/CD 设置如下：

配置 GitHub Action 工作流，当每次有 PR 被创建时会自动触发这个工作流

GitHub Action 工作流配置

通过浏览器插件可视化展示文件层面评审结果

使用浏览器插件可以很方便地向 GitHub 页面注入自定义的内容，核心逻辑如下：

function appendCommentToElement(ele, cmt) {
  const eId = cmt.file_name.replace(/\//g, '_').replace(/\./g, '_');
  if (document.getElementById(eId)) {
    return;
  }
  const fileContent = ele.querySelector('.js-file-content');
  if (!fileContent) {
    return;
  }
  fileContent.style.display = 'flex';
  fileContent.children[0].style.width = '70%';
  const res = document.createElement('div');
  res.id = eId;
  res.style.width = '30%';
  res.className = 'comment-body markdown-body js-comment-body soft-wrap css-overflow-wrap-anywhere user-select-contain d-block'
  if (cmt.comment) {
    const comment = marked.parse(cmt.comment);
    if (cmt.score && cmt.score < currentSettings.codeReviewEnhancement.warningThreshold) {
      res.innerHTML = `
            <div style="padding:14px;" class="glowing-border">
                <p>
                  ${comment}
                </p>
            </div>
        `;
    } else {
      res.innerHTML = `
            <div style="padding:14px;">
                <p>
                  ${comment}
                </p>
            </div>
        `;
    }
    fileContent.appendChild(res);
  }
}

浏览器插件展示文件层面评审结果示例图

通过浏览器插件可视化展示 PR 层面评审总结结果

PR 层面的评审实际上是将每个变更文件的评审结果进行一次归纳，并将本次审查的评分分布情况通过图表展示出来：

async function checkAndAppendSummary() {
  if (document.getElementById('summary')) {
    return
  }
  const discussionBucket = document.getElementById('discussion_bucket');
  if (discussionBucket && currentSummary && currentSummary.warnings && Object.keys(currentSummary.warnings).length > 0) {
    const res = document.createElement('div');
    res.id = 'summary';
    res.style.marginBottom = 'var(--stack-gap-normal)';
    res.className = 'comment-body markdown-body js-comment-body soft-wrap css-overflow-wrap-anywhere user-select-contain d-block';
    const minScore = Math.min(...currentComments.map((comment) => comment.score));
    if (minScore > 0 && minScore < currentSettings.codeReviewEnhancement.warningThreshold) {
      res.className += ' glowing-border';
    } else {
      res.className += ' summary-border';
    }
    var content = '';
    const currentUrl = window.location.href;
    for (const [file, comments] of Object.entries(currentSummary.warnings)) {
      if (comments.length === 0) {
        continue;
      }
      const hash = await sha256(file);
      content += `[${file}](${currentUrl}/files#diff-${hash}) \n\n ${comments.join('\n')} \n\n`;
    }
    content = content.replace(/</g, '&lt;').replace(/>/g, '&gt;');
    content = marked.parse(content);
    res.innerHTML = `
    <div style="display: flex;">
     <div style="width: 70%; display: flex; flex-direction: column;">
      <div style="font-size: 1.25em; font-weight: var(--base-text-weight-semibold, 600); padding-bottom: var(--stack-gap-normal);">AI Review Summary</div>
      <div>${content}</div>
     </div>
     <div style="width: 30%; height: 100%;">
      <div style="display: flex; flex-direction: column; height: 240px;">
        <div style="font-size: 1.25em; font-weight: var(--base-text-weight-semibold, 600); padding-bottom: var(--stack-gap-normal);">Score Distribution</div>
        <div id="chartContainer"></div>
      </div>
     </div>
    </div>
    `;
    discussionBucket.insertBefore(res, discussionBucket.firstChild);
    showCharts();
  }
}

PR 进行 review 之后的总结图

支持手动按需触发单个文件评审

当我们查看代码仓库里的某个文件时，如果想让 AI 快速给出总结或者分析，可以使用插件增强的功能：

支持手动按需触发完整文件评审

与 PMD 这类基于规则的 Review 对比，可以提供更深层次的代码洞察

PMD 是一种静态代码分析工具，主要用于检测代码中的潜在问题。它基于预定义的规则集工作，能够快速识别代码中的常见问题，如未使用的变量、重复代码、代码风格违规等。由于其规则驱动的特性，PMD 的执行速度非常快，适合集成到 CI/CD 管道中，帮助开发者在早期发现并修复问题。此外，PMD 支持规则的自定义，用户可以根据项目需求调整或扩展规则集，使其更贴合实际开发场景。然而，PMD 的局限性在于它主要关注代码的表面问题，难以发现复杂的逻辑错误或设计缺陷。虽然它支持多种编程语言，但每种语言的规则需要单独配置，这必然会增加一定的维护成本。

下图是我们使用 PMD 扫描后的一个结果片段：

PMD 扫描后结果片段

与规则驱动的工具不同，AI 大模型可以分析代码的逻辑结构，发现潜在的设计问题、性能瓶颈甚至安全漏洞。它的优势在于能够结合上下文提供更准确的建议，并且通过不断升级模型，逐步优化其审查能力。此外，AI 大模型通常支持多种编程语言和框架，具有较强的灵活性。另一方面我们也看到，AI 大模型的资源消耗较大，并发调用比较大的情况下分析速度相对较慢，可能不适合需要快速实时反馈的场景。

静态扫描和 AI 大模型在代码审查中各有优势。PMD 一类的工具适合用于快速检测代码中的常见问题，尤其是在需要频繁集成的开发环境中；而 AI 大模型则更适合用于深度分析，帮助发现复杂的逻辑或设计问题。在实际开发中，可以结合两者的优势：使用 PMD 进行快速扫描，确保代码符合基本规范；同时利用 AI 大模型进行更深层次的审查，以提升代码的整体质量。这种组合方式能够兼顾效率与深度，为开发者提供更全面的代码质量保障。

业务成果

Pacvue 泊客电商开发与运维团队通过与亚马逊云科技合作，将 Claude-Powered Code Reviewer 在一个月内从 POC 到生产上大规模使用，覆盖了数百个 GitHub 仓库。使用之后，Code Review 时间减少 70%，提高了开发效率，代码质量显著提高，bug 减少 30%，减少了生产问题，提高了生产效率，降低了运营成本。

参考链接

Claude 3-Powered Code Reviewer

Large Language Models for Code Analysis: Do LLMs Really Do Their Job?

AWS Bedrock FAQ

Claude 3 for coding

Claude docs

Claude Prompt Engineering Techniques

BotNet-Generator

llms-for-code-analysis

Claude 3

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

Amazon Q 从入门到精通 – 快速实战篇

2025-05-08T09:39:29+08:00

Amazon Q Developer 是亚马逊推出的一款专为专业开发人员设计的人工智能助手，旨在提升代码开发和管理的效率。其主要功能包括代码生成、调试、故障排除、安全漏洞扫描等，提供一站式的代码服务。

本文接下来将以简单易懂的实际动手操作案例，来展示 Amazon Q 的具体使用。

Hello World，Q！

Amazon Q 面板的显示和隐藏

VSCode

正常情况下，AmazonQ 的面板可以用快捷键来打开和关闭，对于苹果电脑，按下 Shift + Command + P 快捷键，对于 Windows 电脑，按下 Shift + Ctrl + P 快捷键，如图所示。

输入 Amazon Q，找到 Toggle Amazon Q，并执行，如果此时 Amazon Q 的面板并未显示，则此命令将令其显示出来，反之，将会隐藏 Amazon Q 的操作区。

IntelliJ IDEA

在 IDEA 的菜单里，如下图所示，选择 View -> Tool Windows -> Amazon Q Chat。

即可在打开和关闭 Amazon Q 的面板之间，进行切换。

Amazon Q 组件 – Chat Window

Chat Window 是红色方框显示的区域，是 Amazon Q 提供给开发者最主要的使用自然语言进行交互式开发的用户界面。如下图所示。

它的使用方法非常简单，可以直接输入问题，或者开发需求，Amazon Q 将像一个聊天机器人一样给予你回复，并根据开发者提出问题的不同，给出合理的解答，有且不限于代码片段，相关信息的提供等。以下是几个简单的例子帮助您来感受它的用法。

编写一段代码

比如，可以输入“write a Bubble Sort in python”，Q 将迅速为您编写一段冒泡排序程序，以及对该程序片段的说明来进行应答。

如果开发者想采纳这段代码，可以点击 Insert at cursor，便可以将代码完整地插入到当前 IDE 光标所在的位置。或者点击 Copy，代码片段将会被拷贝到剪贴板便于开发人员后续使用。

针对当前代码问问题

可以试试“please show me the function call flow”，Amazon Q 将以一个文字版本的调用关系图，来应答，如下图所示。

对于理解比较复杂的，具有众多函数调用关系的程序文件，这个提问通常可以很大程度上，帮助开发人员去理解一段陌生的代码。

帮助理解代码

在 Amazon Q 里输入提示词，“please help me understand”。Amazon Q 将会给你一段代码的解释，如下图所示。

无论代码简单还是复杂，Amazon Q 都会给出十分详细的分析，便于用户对代码进行详尽地理解。

Amazon Q 组件 – Inline Code

与刚才的 Chat Window 不同的是，当开发人员正在编辑器中真正编写代码的时候，Amazon Q 可以根据上下文实时提供代码补全和建议，这个功能被称为 Inline Code。

与传统 IDE，如 VSCode 或者 IntelliJ IDEA 默认提供的代码补全能力不同，Amazon Q 利用人工智能能够更好地去预测，完成代码补全和预测工作。

注释即代码 – 快速创建代码片段

以一个 python 代码为例，如果输入 # write bubble sort，则 Amazon Q Inline Code 会弹出一个或者多个代码选择供开发者来选择。

点击 Next 和 Previous 可以浏览备选代码片段，当开发人员感觉某一个建议是满足要求的时候，按下 Tab 键即可将代码插入到光标处。

强大的深入预测能力

例如在一段 js 前端应用程序里，当之前的代码里有隐藏/显示某个控件组的代码逻辑存在，当后续编写代码的时候，Amazon Q 将智能地去推测开发者的意图，并提供推测出来的代码建议，如下图所示。

其中，灰色的部分，是 Amazon Q 预测出来的代码，在前端应用中，这种控件的隐藏和显示，是很琐碎的例行编码工作，Amazon Q 会很“聪明“地感知并替你完成，大大节约开发人员的时间。

Amazon Q 组件 – Inline Chat

开发者可以在代码编辑器中直接启动聊天，描述需要解决的代码问题或请求特定操作，例如“优化这段代码”或“添加注释”。这种方式消除了在不同窗口之间切换的需要，使得工作流程更加流畅。它主要具有如下几个典型功能。

代码生成与修改

开发者可以选择一段代码并通过 Inline Chat 输入框来请求进一步地修改，Amazon Q 将生成相应的代码变更，并以差异（diff）的形式对开发者进行展示。用户可以轻松查看建议，并选择接受或拒绝这些更改。

下面是一个实际的例子，可以利用之前创建的冒泡排序的例子，先选中全部代码，如下图所示。

然后，按下 Command + I（windows 上为 Ctrl + I），会弹出 Amazon Q Inline Chat 的输入框，并输入一个要求，如“请改变冒泡排序为快速排序”的提示词，如下图所示。

然后点击 Confirm，Amazon Q 会生成代码变更，并在编辑器中，以 diff 代码的方式展现给开发者，红色表示变更前的老代码，绿色是变更后的版本。

开发者如果认为变更是满足要求的，则点击 Accept 来接受变更，反之可以点击 Reject 来取消变更。

错误识别与优化建议

该功能能够实时识别潜在的代码错误，并提供具体的优化建议，帮助开发者提高代码质量和执行效率。

下面假设故意改一个变量，造成执行错误，如下图所示。

当开发者呼出 Inline Chat 功能，全选全部代码，将错误信息粘贴到输入框中，如下图所示。

点击 Confirm 后，Amazon Q 将给出修改建议，如下图所示。

点击 Accept 后，改动后的代码将进行实际变更。

这只是最简单的一个例子，实际上，对于很复杂的运行时错误，Inline Chat 功能都可以准确地给出修改建议。

文档自动生成

开发者可以请求为现有代码添加文档，Amazon Q 将自动生成详细的注释和文档，提高代码的可读性和可维护性。

选中上述代码，呼出 Inline Chat，输入“please doc it”， Amazon Q 会为其生成完善的函数描述，和相关的代码注释，如下图所示。

写文档是众所周知的开发者的“麻烦事”，在 Amazon Q 文档能力的加持下，可以随时通过一句话，来新建，和修正代码的注释，省时省力。

Amazon Q 智能体（/dev）

使用 Amazon Q Developer 智能体来进行软件开发（/dev），可以用更少的时间来自动化构建新功能。开发者用自然语言描述开发任务，Amazon Q 会利用当前项目获 workspace 的上下文信息，来创建和实现必要的代码。以下是一个使用示例。

在集成开发环境中，在 Amazon Q 里输入/dev 并回车，Q 会新增一个 Tab页，“ Q – Dev”。

可以在聊天输入框内，输入开发需求，比如下面的输入是一个例子：“Create a new REST API endpoint /api/authenticate to handle user authentication. This endpoint should accept POST requests with user credentials and return a JWT token upon successful authentication. Additionally, update the user management system to integrate with the new authentication endpoint and enforce authentication for relevant API endpoints.”，按下回车键后，Amazon Q会按照指示来生成代码，并提供生成代码所需步骤的总结信息，这个过程，取决于代码的复杂度，可能会有几分钟的执行时间，如下图所示。

等待 1、2 分钟后，Amazon Q 会给出代码修改建议，如下图所示。

用户可以在 Code Suggestion 里的文件变更列表里点击任何一个文件，Amazon Q 会给予开发者一个 diff 的显示，呈现具体的修改。开发者可以对每个文件的变更，选择接受还是拒绝，也可以点击 Accept all changes 来接受 Amazon Q 的所有修改建议。

一个完整的实例

为了更好地帮助开发人员上手 Amazon Q，以下是一个实际的开发小例子。

假设开发者有这样的一个需求：“编写一段 python 代码，实现把本地一个图片文件，以预签名（pre-signed）URL 的形式，上传到 S3 桶。”

我们把这个简单的需求，分为几个部分。

1. 探讨需求

使用 Chat Window 和 Amazon Q 交流探讨需求，得到一些整体性的建议，比如依赖条件等。以下是该示例的一组截图。

Amazon Q 会首先给出一小段描述，甚至会在可能的情况下，给出参考文档，如下图所示。

在生成代码的同时，还会给出与之相关的信息，如支撑这段代码能够顺利运行的关键依赖包，应该如何安装，应该如何配置亚马逊云密钥（多种方式），来访问亚马逊云上的 S3 桶等资源的必要信息。

以上 Amazon Q 提供的宏观和微观的信息，既可以帮助开发者做好准备，也可以给予实际的代码样例，直接进入编程调试。

2. 搭建框架

使用智能体能力（/dev），迅速快捷地创建工程框架。

在 Amazon Q 的聊天窗口，输入/dev，键入回车，进入 agent 模式，让它从零创建一个 CDK 工程，用来创建一个运行这个示例程序所需要的 S3 桶。如下图所示。

由于是第一次执行，Amazon Q 不知道在哪里创建，会要求开发者去选择代码路径。开发者通过点击 Select files for context，可以选择具体的代码路径，对本例来说，选择一个空白的本地目录即可。

选择了正确的代码路径之后，点击 Retry，Amazon Q 会开始工作，为开发者创建创建所需要的 CDK 代码，如下图所示。

在箭头所区域，为 Amazon Q 给予的 Code Suggestion，可以看到 Amazon Q 将会改变 5 个文件，可以点击任意的一个文件，去查看具体的变更，本例展示了点击名为 vpc_s3_stack.py 的 CDK 代码，可以在左侧看到完整的源码（关于 CDK，本文不做深入展开）。可以选择点击 Accept all changes 来接受全部变更，也可以单独点击某个文件旁边的勾/叉，去逐一接受/拒绝文件级别的变更。如下图所示。

另外，我们还可以注意到，Amazon Q 为项目创建了 README.md。

Amazon Q 不仅创建了完整的 CDK 代码，而且还包含了详细的说明。

3. 生成上传图片到 S3 的代码（2 种方式）

可以采用两种方式来创建代码。

第一种方式：把第一步 Chat Window 里 Amazon Q 生成的代码，拷贝到当前的代码文件中。
第二种方式：或者使用 Inline Code 功能，如下图，书写注释，利用 Amazon Q“注释即代码”的能力，按下回车键，选择并创用按下 TAB 来生成代码。

值得注意是，作为 Amazon Q 有别于其他 AI 代码生成系统的一大特点是，Amazon Q 会明确标注代码的版权信息，在某些严谨的企业级开发当中，这个功能是及其重要的。

4. 使用 Inline Chat，进一步优化代。

到此，开发者使用 Amazon Q 得到了基本的功能，并已经实际运行和测试通过之后，因为实际上这还只是一段“玩具”代码，通常距离达到生产级别的代码要求还有些距离，需要进行一定的重构，比如，这个 S3 上传功能，需要包装为一个 python 的类，便于进一步使用。为了实现这个需求，Inline Chat 可以成为首选，具体的操作如下。

首先，开发者全选全部代码，按下 Command + I，或者 Ctrl + I（Windows）快捷键，呼出 Inline Chat 窗口，写明重构的描述：“refactor to a class base code to be re-used more easily ”，然后点击 Confirm，Amazon Q 将为你展示代码重构的变更情况，如下图所示。

就是如此简单，Amazon Q 为开发者重构了代码，生成了一个名为 S3Uploader 的类，为开发者进一步完成实际开发人员，提供了有力的帮助。

至此，我们基本完成了一个从得到需求、讨论需求、快速搭建云资源依赖、快速书写原型代码，以及代码重构的所有步骤。

最后

本文提供简单易懂、图文并茂的的实际代码用例，对 Amazon Q Developer 的基本使用进行了描述，并以一个相对完整的用户需求，在 Amazon Q 的辅助之下，从思考、到编码，到最终形成生产可用的代码的全过程，进行了讲解。

本篇作者

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

斯曼森携手亚马逊云科技，使用 Amazon Nova 打造中文法律大模型

2025-05-07T08:19:19+08:00

关于斯曼森

斯曼森是一家专注于人工智能技术及应用研发的科技创新企业，致力于通过先进的技术手段提升企业运营质量和效率。随着近年来 AIGC 相关技术的发展和成熟，各行各业对智能化解决方案，尤其是 AI 相关的新一代智能方案需求的不断增加，斯曼森意识到生成式 AI 在整体智能化方案中的重要地位，构建从底层大语言模型到上层 AI 应用的全栈技术能力是提升其竞争力的重要一步。为此，斯曼森培养了技术过硬的研发团队，拥有模型训练、微调以及 AI Agent、AI 工作流和应用的开发、部署能力。在过去的一年中，斯曼森自行研发了法律领域的“鳀鲸”法律模型以及与其配套的法律服务平台，并为多家工业、教育行业的客户开发、部署了定制化 AI Agent 应用方案。

场景与挑战

斯曼森的法律咨询场景主要围绕用户输入的案情概述展开，具体流程如下：

用户输入案情概述：用户通过系统录入一段关于案件的文字描述，可能包含案件背景、当事人信息以及相关事件。
模型分析与归类：模型对输入文本进行处理，分析案情内容并将其归类到特定的法律类别，同时识别出适用的案由。
关键事实与证据识别：模型提取案件中的核心事实和相关证据，为后续分析提供基础。
缺失信息分析：模型进一步分析案件材料中可能缺失的重要事实和证据信息。
信息挖掘：最终，模型以对话的形式对当事人用户未提及的案情缺失信息进行挖掘和记录，帮助法律从业人员快速理解案件关键点并计划后续工作。

在这一场景中，斯曼森选择微调（Fine-tuning）而非检索增强生成（RAG）主要在于微调能够针对法律咨询任务进行深度优化，使模型更擅长处理法律术语、案由分类和事实提取，同时法律条款和案例更新频率低，微调后的模型可以长期适应这一静态环境，无需频繁更新知识库。这样在特定领域内训练后更准确地理解复杂案件背景，有效减少生成虚假或不准确信息的风险。

在整个流程中，数据是实现成功微调的关键因素。法律行业存在大量的案例数据。通过不断更新和完善现有案例库，斯曼森能够确保模型始终保持最新状态，从而提高法律咨询服务的准确性和效率。

但如何把各种案例数据转变为可微调的数据集，这个事一个非常重要的调整，数据处理过程占用了斯曼森算法团队大量的时间，而微调这样一个法律大模型需要大量的数据。

解决方案

为了满足斯曼森在法律咨询场景中的需求，采用亚马逊云科技的 Fine-tuning Dataflow 解决方案，基于数据流（Dataflow）构建整个微调流水线，以提升大型语言模型（LLM）在法律领域的表现。

流程如下：

数据获取：首先，通过多种渠道收集法律相关的数据。
数据清洗：对收集到的数据进行清洗，移除个人识别信息（PII）、纠正拼写和语法错误、去除无关内容，以提高数据质量。
数据质量控制：通过随机抽样检查、统计分析等方法，确保数据集的质量符合训练要求。
数据格式化和标准化：将清洗后的数据转换为统一格式，以便于后续的模型训练。不同模型可能有特定的格式要求。
数据扩增：利用同义词替换、回译等技术对数据进行扩增，以增加样本数量和多样性，从而提升模型的泛化能力。

这个过程充分发挥了 Amazon Nova 这款大语言模型成本合理、使用便利的优势，使用 Nova Pro 在结合亚马逊云科技的微调数据流（Fine-tuning Dataflow）解决方案，进行扩展和优化。以下是具体的实现细节：

{
  "instruction": "我想咨询一下民间借贷案件，请问您能帮我分析一下需要补充哪些关键信息和证据吗？",
  "input": "我在2022年6月1日借给谢某元19万元用于养牛，当时他给我出具了借条并签字按手印。借条上约定了利息和还款期限，他通过银行转账收到了借款，但到现在只还了1.2万元。",
  "output": "这是一个典型的民间借贷纠纷案件。根据您提供的信息，我已经了解了基本情况。为了更好地帮助您，我需要进一步了解一些细节。",
  "markerSummary": "案情已经涉及到的关键事实和关键证据如下：\n\n关键事实：\n1. 借款发生时间为2022年6月1日\n2. 借款金额为19万元\n3. 借款用途为养牛\n4. 谢某元已还款1.2万元\n\n关键证据：\n1. 谢某元签字按手印的借条（载明借款金额、利息和还款期限）\n2. 银行转账记录（借款支付凭证）\n3. 1.2万元还款记录",
  "history": [ [ "借条上的利息约定具体是什么？违约金有约定吗？",
    "借条上约定月息1%，利息半年结一次，总共利息20900元。借条上没有约定违约金。"
  ],
    [ "您是否有向对方催收过款项？用什么方式催收的？",
      "我通过电话和微信多次催收，但对方一直拖延。"
    ],
    [ "除了借条和转账记录，您是否保留了与对方关于借款和催收的微信聊天记录？",
      "有保存一些催款的微信记录，但不是很完整。"
    ],
    [ "借条上是否写明了借款用途？",
      "我今年28岁了"
    ],
    [ "对不起，您的回答我不大理解，我想知道你们当时的借条上是否写明了借款用途？",
      "是的，借条上写明了是用于养牛发展。"
    ],
    [ "借条上双方的身份信息是否完整？",
      "借条上写明了双方的姓名，但没有写身份证号。"
    ],
    [ "对方对借款事实是否有异议？",
      "目前对方承认借款事实，只是一直没有按约定还款。"
    ],
    [ "您和对方是否约定了发生纠纷时的管辖法院？",
      "借条上没有约定管辖法院。"
    ]]
}

我们需要构建这样一组的问题，通过相关的 prompt 生成整个数据：

请根据法院判决的案例内容和律师的问题列表，生成类似的指令-回答对，要求模拟律师询问用户案情的对话形式。律师根据用户已经提供的信息，分析并询问用户还需要补充哪些关键事实和关键证据。生成的数据应符合以下要求：
1. 指令必须用中文陈述，长度在1-2句话，力求完整、准确、简洁。
2. 严格按照数据格式中的每个属性值的要求来生成内容。
3. 必须输出json数据格式。
数据格式为：
[
  {
    "instruction": "人类指令。根据案件情况，还需要补充哪些关键事实和关键证据。例子："根据案件的具体情况，还需补充哪些关键事实和关键证据信息？"  ",
    "input": "人类输入。根据法院判决的案例内容生成一段人类自己简单描述案件的内容",
    "output": "模型回答。分析出此类案件所属什么纠纷。例子："您的案件属于民间借贷纠纷，为了更好地了解案情帮您解决问题，我需要了解一些细节信息。",
    "markerSummary":"对于律师的问题列表中用户已经涉及到的部分进行标记总结"
    "history": [
      ["第一轮指令", "第一轮回答"],
      ["第二轮指令", "第二轮回答"],
      "... 回答对数保持7-12个左右"
    ]
    "docFormat": {
      "format": "markdown",
      "template": "### 标题\n{title}\n\n### 案由\n{case_type}\n\n### 案情介绍\n{case_description}\n\n### 焦点清单\n{focus_points}\n\n### 证据清单\n{evidence_list}",
    }
    ]

通过这样的方式，基于各类案例，生成了超过 6000 条数据，在完成数据后，将数据自动存储到 S3，并和亚马逊云科技人工智能应用实验室共同对基座模型 Qwen1.5 7b 进行持续 Lora 微调。

最终将模型部署于亚马逊云科技宁夏区域，确保其能够高效地服务于用户，并根据实际使用情况进行动态调整和优化，以及后续的微调。

效果提升

通过该模型可以快速提供案件咨询，实现在对当事人案情充分了解的前提下给出专业的建议。

在 10,000 测试集数据的基础上，我们将“鳀鲸”模型与其他法律模型进行了全面对比评：

模型基础评估

专业评估

为了进一步验证模型的实际应用效果，我们邀请法律专家进行了人工评估：

综合结果

案情识别能力：“鳀鲸”模型在案情识别准确率方面达到了 99%，比对照组提升 9 个百分点，这一结果表明模型能够准确理解和分析复杂的法律案件。

问题生成质量：在问题的相关性和完整性方面提升显著，“鳀鲸”模型达到 92% 的高水平，相比对照组提升了 22 个百分点，显示出模型在法律咨询场景中的专业性。

专业认可度：法律专家的满意度评分从 60% 提升至 90%，增长了 30 个百分点，显著提升验证了“鳀鲸”模型在实际应用中的专业价值和实用性。

综合评估结果显示，经过微调的“鳀鲸”模型在各项关键指标上都取得了显著提升，特别是在专业性和准确性方面的表现尤为突出。这些改进直接提升了法律咨询服务的质量和效率。

总结

通过与亚马逊云科技的紧密合作，斯曼森成功构建了一个专门针对法律行业的大型语言模型。该模型不仅能够高效处理用户输入的案情概述，还能分析案件、识别关键事实和证据，并主动挖掘当事人未提及的案情缺失信息，帮助法律从业人员快速理解案件要点。在整个过程中，Amazon Nova 高效的模型能力和 SageMaker 便捷的微调流程为模型的成功实施提供了有力支持。通过持续的数据更新和完善，斯曼森将不断优化、更新模型，从而提高 AI 法律咨询服务的可用性，准确性和效率。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

基于 Amazon Bedrock 的电商行业图片检索解决方案

2025-05-06T08:39:58+08:00

（一）方案背景

大模型在电商行业的应用趋势

随着电商行业的快速发展，新技术的应用也在不断演进。特别是生成式人工智能（AI）技术，正在被越来越多的电商行业公司作为提升竞争力的关键工具。亚马逊云科技作为生成式 AI 技术的推动者，在各个行业中不断的推出贴合实际业务场景，易于落地的应用解决方案。电商行业企业对图片检索的需求如相似商品推荐、以图搜图、个性化推荐、自动标签生成、商品合规审核、竞品分析、库存管理等。利用图片检索解决方案可以提升用户体验、增加转化率、优化商品管理与库存并简化运营流程。

亚马逊云科技的 Amazon Bedrock 服务是利用基础模型构建和扩展生成式人工智能应用程序的最便捷方式。Amazon Bedrock 提供对各种 LLM 模型的 API 灵活快速调用的能力。应用大模型，在图片检索场景中可以提供增强的能力，如电商细分品类图片精准检索能力，用户可自定义提示词利用大模型生成对图片的描述信息，提升偏向性的检索召回效率，还可自定义提示词对召回图片进行重新排序，更加精准地检索图片。

本文将详细介绍如何基于 Amazon Bedrock 结合 Amazon Opensearch、Amazon S3、Amazon Lambda 等服务快速构建端到端的图片解决方案。

方案价值

独立站

电商独立站（eCommerce Independent Website）是指品牌或商家通过自建的独立电商平台进行产品销售，而非依赖于第三方电商平台（如亚马逊等平台）。这种方式让商家能够完全掌控自己的品牌形象、销售数据、定价策略和用户体验。通过自有网站，商家能够提供定制化的购物体验，积累用户数据，增强品牌忠诚度。

平台卖家

平台卖家指那些通过大型第三方电商平台（如亚马逊、eBay、淘宝等）进行产品销售的商家。这类卖家依托于电商平台自带的流量、支付系统、物流网络等基础设施，降低了自建网站的成本和复杂度，但也面临着许多平台化的限制。

服务商

电商服务提供商是指那些为独立站和平台卖家提供技术、运营、营销、物流等解决方案的公司或机构。他们通常为电商业务的不同环节提供支持，例如建站服务、数字营销、仓储物流、客户服务外包等。

不同业务形态对图片检索的需求

（二）方案介绍

架构总览

关键技术及功能

电商细分品类图片精准检索能力

1、用户可自定义提示词利用大模型生成对图片的描述信息，提升偏向性的检索召回效率；
2、可自定义提示词对召回图片进行重新排序，更加精准地检索图片；
3、亚马逊云科技架构师团队可提供提示词参考，帮助不同品类客户要求定制，进一步检索能力。

使用业内先进低成本的大模型及存储服务

1、默认使用 Amazon Titan Multimodal Embeddings 模型，可将图片、文本在一个向量空间中向量化，提升联合文本和图片检索能力；
2、默认 Amazon Nova 模型进行图片描述及重排序，可以精准捕获图片细节，提升检索准确性。Amazon Nova 是亚马逊云科技提供的基础模型（FM），可提供前沿智能和行业领先的性价比，仅在 Amazon Bedrock 上提供。Amazon Nova Micro、Amazon Nova Lite 和 Amazon Nova Pro 是接受文本、图像和视频输入并生成文本输出的理解模型，提供广泛的能力、准确性、速度和成本操作点。

插件式提供图片标注、重排序功能，灵活控制成本

1、成本构成：向量数据库 Amazon OpenSearch、存储 S3、大模型托管服务 Amazon Bedrock、服务后端 Amazon Lambda；
2、可选图片描述标注、检索重排序功能，增强检索准确度。

（三）方案实现与效果

您可以尝试此 workshop，以帮助您更好地体验和理解此方案的实现和效果。整体功能详情如下图所示。

搜索演示

业务逻辑

图片上传

提供 API 接口进行单张和最多 100 张图片的上传，部署方案后，可以通过 UI 或直接调用 API 进行图片上传。上传图片时，可选生成图片的精准描述，用户也可在源代码中修改提示词，获取更加贴近业务场景的关键描述信息，通过模型自动生成的描述信息也可以通过 API 或直接在 UI 进行修改。后续，描述文本及图片将在一个通过多模态向量模型，在一个向量空间进行存储。实现文本+图片的多模态检索。

图片检索

同样提供 API 接口可以分别通过文字、图片、文字+图片进行图片检索。对于纯文本或图片检索，通过语义相近返回近似结果，并且按匹配度进行排序。对于文本+图片结合的图片检索，可以开启重排序功能，提供文字细节描述检索图片，增强检索准确度。

重排序

由于复杂语义关系的限制，使用 embedding 做初始检索可能并不总是按真正的相关性顺序对文档进行排名。Rerankers 通过根据更复杂的相关标准进行重新评估和重新排序这些结果来优化。

利用具有多模态功能的 LLMs 在 RAG 系统中进行重新排序可以产生更准确和上下文感知的检索结果，从而提高信息检索系统的有效性和用户体验。

（四）生成优化建议

1）利用 Bedrock Batch API 处理大批量图片存储

在实际场景中，企业往往已经有一个图库，需要一次性载入。而直接通过 API 上传，因为需要每次调用单次大模型推理，效率较低且成本会高。Amazon Bedrock 可以使用批处理 API ，更有效地使用基础模型（FM）进行推理。并且能够汇总响应并对其进行批量分析。在方案中，我们提供了脚本，可以从 S3 桶中，将图片批量向量化载入 Opensearch 服务中。

2）优化描述生成的提示词及重排序的提示词，以适应实际业务

用户可自定义提示词利用大模型生成对图片的描述信息，提升偏向性的检索召回效率；可自定义提示词对召回图片进行重新排序，更加精准的检索图片；可以联系亚马逊云科技架构师团队，提供提示词参考，帮助不同品类客户要求定制，进一步检索能力。

3）成本优化

您可以从以下几个方面在生产过程中优化本方案的成本：

模型 PE 调优，减少 token 调用；
优化图片检索效率，测试不同图片分辨率下，标签生成及 reranking 的效果；
使用 Batch 调用模型，批量生成图片描述；
使用托管的 Amazon Opensearch Graviton 实例或 serverless 集群替换，选择更优成本的向量数据库规格。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

浅谈如何使用 Amazon CUR 报告做更完善的成本分析

2025-04-30T08:23:54+08:00

最近几年，随着云的使用越来越普遍，大部分公司的业务都已经在云上运行。从一开始的了解云，到正式迁移上云，再到现在新旧工作负载能在云上的都在云上，大家的关注重点也在发生变化。在大部分负载都运行在云上之后，我们会开始审视整个云的使用情况，希望能够降本增效，避免浪费。

为了让客户深入了解自己的详细资源用量，亚马逊云科技提供了详尽的账单，事无巨细地记录了所有资源使用和对应的费用，以及相关的参数。虽则详细，但是对于很多新手客户来说，动辄几百列的账单还是让人望而却步。

这就是这篇博客的写作初衷。我们希望用一个详细的案例来解读亚马逊云科技的 CUR（Cost and Usage Report，成本及用量报告）报告，并且分享一些 CUR 可视化的思路。希望通过这篇博客，更多的客户可以更深入的了解自己的云用量，监控自己的云用量变化，知道自己的每分钱是否花在了正确的位置，也知道出现意外成本时如何来做梳理和优化。

CUR 报告

要想看云用量账单，我们可以打开控制台，在「账单」服务界面下，点击菜单上的「账单」就能看到按服务拆分的账单。这个账单虽然详细，但它是一个统计结果，我们现在需要的是一条条的用量数据，比如在 2024 年 1 月 1 日 00:00 至 2024 年 1 月 1 日 01:00 之间产生了 3000 秒的 m6g.xlarge 的 EC2 用量。

要看到这个信息，我们就需要开启 CUR 报告。

仍然在「账单」服务界面下，点击「Cost & usage reports」（海外则打开「Data Exports」），就可以打开 CUR 报告导出界面。需要注意的是，CUR 报告默认是不打开的，并且也无法追溯以往的记录，只有用户手动打开之后，详细的用量数据才会被导出到指定的 Amazon S3 桶。

注：因本文写作之时尚未推出新的「Standard CUR export」，所以本文基于「Legacy CUR export」来撰写。

在开启 CUR 报告时，我们需要注意勾选「资源 ID」和「拆分成本分配数据」。「自动刷新」也需要打开，因为亚马逊云科技账单有两个状态，一个是未结算状态（Unfinalized），一个是已结算状态（Finalized），在正式结算之前，可能会发生退款等费用变化，所以我们需要打开自动刷新，在账单发生变化时，让账单服务帮我们自动更新 CUR 报告的文件。

然后我们需要选择一个 S3 桶，因为报告会以大数据常见的 Parquet 文件的格式存储到 S3 桶，方便我们查询。时间粒度我们选择「每小时」，则用量数据会按小时来进行汇总。是的，CUR 仍然有一定程度的汇总，但是粒度已经足够小，足够我们做分析。

本次我们使用 Amazon Athena 来做数据分析接口，所以数据集成我们选择「Amazon Athena」即可。这个核心作用是会生成一个帮助我们建表的 SQL 文件，在 Athena 中运行后，我们就能直接用 SQL 对 CUR 进行分析。

创建完成后，稍等几小时，我们就能在 S3 桶中看到 CUR 文件和 SQL 文件了。

成本标签

在做任何成本分析之前，我们都应该先做好成本标签。给资源附上成本标签，我们就能知道谁，哪个部分，哪个业务或哪个项目使用了这个资源。

在创建资源的时候，通常都会有标签输入选项，我们可以直接输入标签。标签以 Key-Value 的形式存在，用户可以自行定义键值对，比如 K = department / V = marketing，或者 K = project / V = miniapp 等等。

有了标签，我们还必须激活它们，才能在 CUR 里面体现。在「账单」服务界面下，点击菜单上的「成本分配标签」，就能看到现在使用的标签。选择需要激活的标签，点击「激活」按钮即可激活。

在 Athena 中建表

接下来，我们就可以同种找到使用 CUR 提供给我们的 SQL，在 Athena 中建表。可以看到这个 SQL 已经包含了所有 CUR 的字段，以及用户的标签字段，且 S3 存储位置也帮我们写好了，直接运行即可。

创建好表之后，分区信息还没有，所以我们需要做恢复分区的操作。后续我们也需要周期性执行这个命令，才能纳入新的数据。命令是：

MSCK REPAIR TABLE table_name;

账单预处理

因为 CUR 账单本身比较原始，所以我们还需要对账单进行预处理，才能更方便地进行处理。这里提一些整理思路，仅作抛砖引玉。

未正式出具的账单

CUR 账单中有一个字段 bill_invoice_id，这个指的是账单发票 ID，而更实际的意义，是代表这个账单是否已经正式出具，等待客户付款。在账单正式出具之前，有很多原因可能导致账单项的增减，比如算错费用，费用补助，费用修正等等。

如果这个字段为空，则账单还没正式出具，还可能有变化，在分析的时候需要注意。

账单项的 ID

CUR 账单中有一个 identity_line_item_id 字段，可能你会觉得这个就代表这个账单项的 ID 了，想用它来去拼接数据，这就掉入了陷阱。账单是按照时间段来生成的，而这个字段只能保证对于这个时间段来说是唯一的，而不是全局唯一。

要做到真唯一，我们必须把 line_item_usage_start_date 加到 ID 前面，虽然会让 ID 变得很长，但这个基本就可以做到全局唯一了，可以用来做数据拼接。

数据传输

在 CUR 账单中，数据传输并不是一个单独的服务，而是融入到了每个服务之中。如果我们想要统一地分析数据传输，就需要把这些服务中的数据传输都提取出来。识别方式是 product_product_family 字段为 Data Transfer。

至于数据传输是出站，还是跨 AZ，还是跨区域，或者是走的 CDN，这个要分析起来就比较麻烦了。每个服务都有每个服务自己的记录方式，有的使用 line_item_usage_type，有的使用 line_item_operation，还有的使用 product_transfer_type。

Amazon EC2

对于 EC2 实例机型，我们需要做的处理较多，以下简单讲解。

首先，我们可能想要找出实例的家族，比如 g5dn.xlarge 的实例家族就是 G4，其实例大家族则是 G。CUR 也提供了 product_instance_type_family 字段，但对于某些机型来说这个字段是空的，这时候我们就需要用正则来提取。

然后，是否是 Graviton，这个也是我们比较关心的问题，需要取的字段是 product_physical_processor，如果包含 Graviton 则是 Graviton 机型。

还有比较重要的是 EC2 的使用方式是按需、预留或者竞价实例。按需和竞价实例可以通过 line_item_usage_type 来判断，但预留则要复杂很多。

一次性付出的预留费用的 line_item_line_item_type 为 RIFee，但是这个无法体现实际使用了多少预留优惠。此时我们需要找 line_item_line_item_type 为 DiscountedUsage 的项目，代表实际预留的使用项。可能读者已经猜到，我们还可以把二者相减，则得到购买但未使用的预留（潜在的浪费）。

以上所有，除了要用 line_item_product_code 判断是否是 EC2 服务之外，我们还需要去除数据传输、优惠券、EBS 用量等等非实例费用才能得到最终的 EC2 费用。

Savings Plans

我们一般倾向于认为 Savings Plans（下简称「SP」）是类似预留实例的优惠，但实际上因为 Savings Plans 还可以覆盖诸如 Amazon Lambda 和 Amazon SageMaker 等资源，它被单独做成了一个服务。

不仅单独做成了一个服务，它的计费逻辑也和预留实例不同。对于预留实例，真实使用的实例，其费用显示会是 0，用户在统计的时候就不会把这些统计进去，但还是能看到预留实例优惠的实际应用情况。而 SP 则是会把实际的实例使用费用算进去。

这样，用户看到的成本就会同时包括 SP 的费用和实际实例使用的费用，就重复了。对此，SP 的解决方式是再给一个「逆向操作」，即有一个专门的条目类型 SavingsPlanNegation，这个类型会按小时来把实际实例使用的费用又再给扣除掉。

可以看出设计者的目的，是让我们更方便地计算「有多少 SP没用完」，但毕竟又多了一套算法，这里需要注意。

BI 分析和展示示范

这里我们展示一下使用 BetterBill 处理后的 CUR 能做哪些成本分析。示范使用了 Amazon QuickSight，但我们也可以使用任意成熟的，可对接 Amazon Athena 的 BI 工具。注：数据已做过完善脱敏处理，仅供参考，不代表任何客户。

VCPU 小时数变化

当云用量有较大变化的时候，我们通常会问的第一个问题就是，到底是我的业务量变化了，还是说我做了优化，或者是产生了浪费？通过 VCPU 小时数，我们可以避开机型的影响，更真实地看到业务量的变化。

服务费用变化

除了业务量变化，我们还希望知道每个服务的增减情况。比如某个月的服务费用增加很多，但是基本都增加在 Amazon S3 上。或者某个月开始我们开始使用了 Amazon Pinpoint 的服务，之前都没用过，等等。

Graviton 的使用情况

这里我们想要看到的是 Graviton 的实际使用小时数，占整体的小时数的比例。这个要求我们把所有按需、预留、Savings Plans 等的实际用量都抽出来，再做计算。这个实际上比想象得要麻烦很多，但我们可以看到最真实地对比，去除了成本影响（Graviton 单价较低会导致比例较小），从而看到实际的 Graviton 使用比例。

按 S3 桶查看存储量和智能分层

CUR 上包含了诸多信息，我们不只能看成本，也能看桶的存储量。除了存储量，我们还可以分析智能分层在整个存储中的占比，以及智能分层中具体存储级别的占比等。

查看数据传输流向

通过对数据传输账单项的深度处理，我们可以更清晰地展示数据的传输流向。如果 BI 工具支持更复杂的流向展示，我们还可以更清楚地展示数据流向。

总结

我们的云上旅程一般分为几个阶段。

初期一般都是粗放式的使用，有很多不合理之处，但是因为需要快速促成业务，所以很多成本问题也无暇顾及。中期开始关注成本，但是还是会比较按照传统思维来希望基建层面单独降本，或者寻求各种折扣。在 IT 建设越来越成熟之后，我们会更希望能清晰地知道每一笔费用都是用来做什么的，是谁或者哪个部门用的，以及，费用变化是否跟随业务，还是说出现了一些完全可以避免的浪费。

云的便利性和弹性让我们可以更深度地去拆分和监测我们的成本变化，但是服务的多样化和收费模式的变化，也给财务规划和预算制订带来了挑战。这篇文章仅作抛砖引玉，通过分析 CUR 和展示一些成本分析的思路，帮助读者构建起云上财务思维，在初期就做好成本相关的规划，真正把每一分钱花到实处。

本篇作者

本期最新实验为《创新基石 —— 基于 Graviton 构建差异化生成式AI向量数据库》
✨ 在本次实验中，你可以在基于 Graviton 的 EC2 实例上轻松启动 Milvus 向量数据库，加速您的生成式 AI 应用。基于 Graviton 的 EC2 实例为您提供极佳性价比的向量数据库部署选项。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！

使用 Amazon Nova Lite 实现多快好省的智能视频审核

2025-04-29T11:22:08+08:00

在短视频平台蓬勃发展的时代，用户生成内容（UGC）的爆发式增长给平台的内容审核带来了巨大挑战。视频分享平台不仅需要为用户提供流畅的分享体验，更要确保平台内容的安全性和合规性，维护品牌声誉。本文将分享我们在实际案例中利用亚马逊云科技在 re:Invent 2024 刚刚推出的新一代自研大模型 Amazon Nova Lite 构建视频分享平台的智能审核方案。

我们在实际项目中遇到了哪些挑战？我们的选择背后有着怎样的考量？Amazon Nova Lite 在视频审核方面又有哪些优势？下面让我们分别从审核的准确性、处理速度、运营成本等维度深入探讨这个话题。

该项目中对视频审核的关键诉求有如下三个方面：

图片理解能力：待审核的内容为全球用户上传的 vlog，不同文化背景下审核的标准会有差异。能否准确识别上传内容，根据不同地域要求调整审核规则，并保证审核透明度是重点考核的因素。
图片处理速度：用户上传的视频时长较长，往往会超过 1 小时。为保证用户使用体验，项目希望视频上传后能在 1～2 分钟完成内容审核并成功发布。由于平台视频采用专有格式，不适合直接使用视频理解模型来进行审核。项目采用每10s 截帧的方式进行图片审核。这就要求图片的处理速度能达到为 6 张/s 以上。
运营成本：该项目的视频分享平台面向全球用户，用户量大、分享视频数量多、审核任务重。审核成本低廉是长期运营的必要条件。

亚马逊自研大模型 Nova 系列，从 Model card 分析，其在多模态图片、视频理解方面表现突出，而且在响应延时和价格方面同样较同等级模型具有明显优势，因此本次我们对 Nova 模型，尤其是 Nova lite 进行了详细的测试和分析。

1. 图片理解能力考察、

首先，模型的图像理解能力是视频审核方案选型时的核心要素。基于 Amazon Nova 系列模型的技术报告和模型卡片，Nova Lite 与 Nova Pro 在图片理解上都具有优异的表现。以下是 Nova 和 Gemini 在 VATEX 和 EgoSchema 上的对比表格，参考链接。

模型	VATEX (CIDEr)	EgoSchema (accuracy)
Amazon Nova Pro	77.8	72.1 ±5.4
Amazon Nova Lite	77.8	71.4 ±5.4
Gemini 1.5 Pro (001)	64.6ᴬ	72.2 ±5.4
Gemini 1.5 Flash (001)	57.1	65.7 ±5.7
Gemini 1.5 Flash 8B (001)	53.2ᴬ	–

注：ᴬ表示 4-shot 评估（是指 Genmini 1.5 在进行模型评估时使用了 4 个 examples 或 prompts 的测试方式）。

VATEX：是一个视频描述基准测试，涵盖了多样化的人类活动。是在包含约 10 秒长度视频的公开测试集上进行评估。评估使用 CIDEr 分数作为指标。

EgoSchema：是基于长视频进行的问答基准测试，该测试的特点是要要基于较长时间的观看（即 ertificate length）才能给出答案。这些视频涵盖了广泛的自然人类活动，并配有人工策划的多项选择题问答对。

从表格可以看出，Nova 系列模型在广泛人类活动的视频理解上都具有更优于 Gemini 1.5 的能力。

2. 图片审核成本考察

Nova 的理解类模型对图片处理依然依据 token 的数量收费模式，图片分辨率与预估 token 的关系如下：

基于以上的数值，我们可以看到图片分辨率与预估的 token 数量之间存在线性关系。具体的数值关系可用以下线性回归公式表示：

即：Token Count=0.001351×Resolution pixels +244.11

基于 2024 年 12 月发布的 Nova 系列模型的价格，我们对不同分辨率的图片分别计算了处理 100 万张图片时所需的成本。同时与 Amazon 的 Rekognition 在处理相同数量的图片时的价格做了对比：

Model/Service	720p（1280*720）	480p（720*480）	240p（426*240）
Sonnet 3.5 v2	3686.4	1382.4	408.96
Haiku 3	307.2	115.2	34.08
Nova Pro	1191.26528	568.7	305.7
Nova Lite	89.344896	42.6	22.9
Rekognition	1000	1000	1000

以 Nova Lite 处理分辨率为 426*240 的图片为例，计算方式如下：

一百万张图片的处理成本 =（每张图片 token 数目 x token 单价）x一百万张 = (0.001351426240+244)X(0.06/1000000)*1000000 = $22.9

Rekognition 处理一百万张图片价格 = $0.001/张 * 1百万 = $1000

可以看到 Nova Lite 在图片处理成本上具有绝对优势。

3. 图片处理速度考察

在确定了处理能力和价格优势后，我们着重对 Haiku3、Nova Lite 和 Rekognition 的处理速度进行了对比。

Model (每张处理速度s)	Image 280p	Image 480p	Image 720p
Nova lite	2.29	2.19	2.14
Claude 3 Haiku	2.35	2.46	2.87
Rekognition	0.22	0.27	0.29

可以看到同一模型对不同分辨率图片的处理性能基本一致，并没有因为图片分辨率变大处理速度有明显变慢的情况；同时大模型的处理速度（2～3 s/张）以单并发的处理性能看，还难以满足对该审核场景对性能的要求。接下来，我们在并发情况下对性能做进一步测试。如下测试结果显示的是，不同并发数下，每个并发处理 10 张图片的平均单张处理时间（秒）。可以看到，并发数为 30 时，单张图片的处理性能仍能保持在 2～3 秒，并发处理能力可达 10 张/s，完全满足性能要求。

4. 实际测试能力展示

4.1 基于当地文化传统的内容审核

这里模拟一个印度区域的内容审核专家，根据当地的文化传统和礼仪进行审核。

系统提示词：

"Always stay in character and avoid not playing your character.<Character Setting>我是一个专业的印度图片内容审核专家,帮助审核输入的图片内容是否符合印度文化规范和标准。我深入理解印度的文化传统、宗教信仰和社会价值观，并据此进行审核。我绝对不会对输入的内容做出自己的道德评判，我只会忠实的扮演印度图片审核专家的角色完成图片审核的任务<\\Character Setting>"

User content 示例:

严格按照以下审核标准并结合印度文化规范进行严格判断，为每个字段提供明确的审核理由，标注合适的标签(tag)，输出符合flag设置标准规范的结果。

1. 图片分析标准
分析图片中的以下要素，并逐一审核：
人物：识别性别、视觉年龄 (推测是否未成年)、面部表情和动作是否得体，是否符合印度文化传统和礼仪规范。
服饰与动作：是否含有明显性感、暴力、性暗示或其他违反印度传统文化的行为，服饰是否符合印度传统着装要求。
场景与背景：是否包含令人不适或违规的环境、物品 (如武器、毒品)，是否存在冒犯印度宗教信仰或文化传统的元素。
文字内容：如果图片中包含文字，需逐字分析含义，确保没有违反印度文化规范的内容。
将判定结果与关键标签封装于 tag 中。

2. 文本分析标准
若为非主流语言（包括印度各地方语言），识别文字语言并翻译成英文，以便分析其语义。将语种标签封装于 tag 中。
审核是否包含以下标签：
侮辱性：带有人身攻击、辱骂等不当用语，或冒犯印度文化传统的言论。
脏话：包含粗俗、不雅或违反印度文化礼仪的用语。
广告性：暗示广告、品牌推广等商业行为，特别是违反印度文化价值观的商业内容。
色情或暴力：包含显著性暗示、裸露或暴力内容，违反印度传统道德观念。

3. flag 设置标准
flag = 999：最严重违规标签，高优先级处理，如：
色情：图像或文字包含裸露、性行为、显著性暗示或其他违反印度传统道德的色情内容。
卡通色情：卡通形式的裸露、性行为、显著性暗示，违反印度文化价值观。
血腥暴力：明显的流血、伤害、暴力场景，不符合印度非暴力理念。
引导性广告：包含引导用户进行商业行为的广告（如特定品牌推广、欺诈内容等），违反印度商业道德。
未成年：图片中人物视觉年龄小于 15 岁，涉及违反印度未成年人保护法规。

flag = 998：次严重违规标签，最高优先级处理，如：
枪支与武器：展示武器、枪支或相关物品的内容，违反印度和平价值观。
毒品：毒品和吸毒工具展示、吸毒和诱导性毒品交易，违反印度法律和社会道德。
反感内容：包含恐怖、狰狞、毛骨悚然、令人不悦、不安的内容，或冒犯印度宗教信仰的内容。

flag = 997：特殊文化背景的限制下存在的冒犯内容：
牛肉：在印度文化中，牛被视为神圣的动物，尤其是在印度教和佛教中。因此，食用牛肉在印度许多地区被视为禁忌。许多印度邦甚至有法律禁止牛屠宰和牛肉交易。
宗教话题：印度是宗教多元化的国家，但某些宗教话题可能引发敏感。例如，讨论印度教、伊斯兰教和基督教等宗教的相对优劣、信仰差异等话题可能会引起争议。
种姓制度：印度的种姓制度历史悠久，但在现代社会中仍具争议。讨论或批评种姓制度可能会引发敏感。
政治话题：印度的政治话题可能涉及到敏感的民族、宗教或政治问题，讨论这些话题时需谨慎。
性话题：在印度文化中，性话题通常被视为禁忌。讨论或展示性暗示的内容可能会被视为不合适。
暴力和血腥：暴力和血腥场景在印度文化中通常被视为不合适，尤其是在公共场合。

flag = 100：普通违规标签，判定较轻内容，如：
不健康内容：抽烟、喝酒：展示吸烟、饮酒行为，不符合印度健康生活理念。
疑似未成年：图像中人物视觉年龄为 15-18 岁，需要特别关注印度未成年人保护。
诋毁性内容：内容含有诋毁他人或群体的信息，违反印度多元包容精神。
侮辱内容：内容中带有人身攻击或侮辱性用语，不符合印度礼仪文化。
脏话：文字或图像包含粗俗、不雅用语，违反印度文明礼仪。

flag = 200：疑似未成年 (15-18 岁)。
flag = 0：未命中违规或不处理标签。
flag = 1：不处理标签，如：
性感动作：非色情但具有一定性感意味的动作或服装。
性感自拍：非色情但具有一定性感意味的自拍或服装。
卡通未成年人物：非色情的卡通未成年形象。
flag = 2：内容完全不可辨识。
flag = 50：图片包含非色情的性感动作或自拍。
    
4. 输入输出示例
输入：{"name":"","bio":"",pic:[{"pid":1}]}
输出：{"name":{"flag":1,"reason":"","tag":[""]}}"""

使用如上提示词对如下图片进行审核：

可以得到如下的审核内容：

输入图像的分析结果如下：
图片分析标准
人物：
图片中有多个人物，他们的面部表情和动作大多是正常的用餐状态，没有发现不得体的行为。
服饰与动作：
所有人物的服饰和动作都是得体的，没有发现任何性感、暴力、性暗示或其他违反印度传统文化的行为。
场景与背景：
图片展示了一个餐厅的场景，没有包含令人不适或违规的环境、物品，如武器、毒品等。
图片上方有一个显示“BEEF”的霓虹灯牌，这在印度某些地区可能会被视为冒犯，因为牛肉在印度教和佛教中被视为禁忌。
文字内容：
图片中没有文字内容。
文本分析标准
图片中没有文字内容，因此无需进行文本分析。
标签 (tag)
牛肉 (beef)
flag 设置
flag = 997：特殊文化背景的限制下存在的冒犯内容（牛肉）
最终输出
{
"flag": 997,
"reason": "图片中包含展示牛肉的霓虹灯牌，这在印度某些地区可能会被视为冒犯，因为牛肉在印度教和佛教中被视为禁忌。",
"tag": ["beef"]
}

可以看到，对以上图片可以正确的标记为“997:特殊文化背景的限制下存在的冒犯内容”。

但上述图片如果使用 Rekognition 缺省的未经客户化的模型进行审核则是完全合规的。

4.2 输出内容的标准化

LLM 输出的内容通常格式难以规范化，对上面的输出我们使用 tool use 的方式抽取 flag 和 reason 进行精确的 json 格式输出。如下为基于 Bedrock converse API，通过 tool use 进行格式化输出的代码示例：

def process_with_tool(bedrock_client, model_id, first_response, image_key):
    system_text = "我是内容提取专家。我的任务是从输入的审核结果中提取flag和reason信息，并使用print_moderation工具输出。我会仔细分析输入的内容，找到其中的flag值和对应的reason，然后通过print_moderation工具将这些信息格式化输出。"
    input_text = "请分析以下审核结果，使用print_moderation工具输出其中的flag和reason信息。注意：你必须使用print_moderation工具来输出结果。\n\n"
    tool_config = {
        "tools": [
            {
                "toolSpec": {
                    "name": "print_moderation",
                    "description": "Print moderation result with flag and reason",
                    "inputSchema": {
                        "json": {
                            "type": "object",
                            "properties": {
                                "flag": {
                                    "type": "integer",
                                    "description": "Flag value from previous analysis"
                                },
                                "reason": {
                                    "type": "string",
                                    "description": "describe the reason in details"
                                }
                            },
                            "required": ["flag", "reason"]
                        }
                    }
                }
            }
        ]
    }

    # 获取第一次处理的完整输出并构造消息
    first_output = None
    for content in first_response:  # first_response已经是content列表
        if 'text' in content:
            first_output = content['text']
            break
   
    if first_output is None:
        raise ValueError("No text content found in first response")

    messages = [{
        "role": "user",
        "content": [
            {
                "text": input_text + "\n" + first_output
            }
        ]
    }]
   
    # 发送消息
    response = bedrock_client.converse(
        modelId=model_id,
        system=[{"text": system_text}],
        messages=messages,
        toolConfig=tool_config
    )
   
    return response

经过 tool use 方式格式化输出后，可以得到固定的 json 格式如下：

{
  'reason': '图片中包含展示牛肉的霓虹灯牌，这在印度某些地区可能会被视为冒犯，因为牛肉在印度教和佛教中被视为禁忌。',
 'flag': 997
}

总结

由以上的测试和分析可以看到，Nova Lite 在多方面的优势使其成为构建智能视频审核系统的理想选择。

首先，Nova Lite 在图片理解能力上表现出色，能够准确识别图片中的人物、服饰、场景等元素，并可以通过 Prompt 根据不同文化背景调整审核规则。这一能力在处理全球用户上传的视频内容时尤为重要。相比之下，Rekognition 则难以适应多元文化背景下的复杂审核需求，需要客户化的再次训练才能满足要求。

其次，Nova Lite 在处理速度方面可以满足需求。Nova Lite 能够在高并发情况下保持稳定的处理速度，满足了高效审核的需求。

此外，Nova Lite 在图片处理成本上的优势也不容忽视。测算表明 Nova Lite 在处理大量图片时的成本远低于 Rekognition。这一成本优势使得 Nova Lite 在大规模视频审核任务中具有更高的经济效益。

综上所述，Nova Lite 在图片理解能力、处理速度、成本和文化特征识别方面均表现出色，使其成为构建智能视频审核系统的理想选择。通过 Nova Lite，视频分享平台可以实现多快好省的智能视频审核，提升用户体验和平台安全性。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

大胆试错、持续推进，拓展 GenAI 在客户服务领域的新场景

2025-04-28T08:22:48+08:00

一. 前言

提升客户服务效率与质量是企业永恒的追求目标。2024 年初，我们与客户（华宝新能）的产品、IT、客服团队共同探讨如何借助新兴的生成式 AI（Generative AI, GenAI）技术赋能客服团队，期望通过自动化总结和提炼现有知识库内容，高效应对产品咨询、故障处理等售前售后需求，提供智能响应。

经过系统集成及知识库数据准备，一阶段方案于 2024 年中期顺利上线，客服团队工作效率显著提升。相关实施细节已在 Amazon Bedrock 知识库加速客服团队应用 GenAI 能力一文中详细阐述。

在此基础上，我们与华宝新能持续拓展 GenAI 的应用场景，引入智能代理（Agent），支持客户在售中环节的订单咨询需求。经过一系列技术方案的探索和迭代，最终达到了客服团队的质量要求。下面，我将与华宝新能的伙伴一起从三个角度分享这段时间的探索过程和成果，希望对您有所裨益。

第一部分：华宝新能在探索过程中的实践与总结
第二部分：GenAI 赋能客服：价值思考与路径探索（我在该领域的一些思考）
第三部分：方案技术架构与实现思路

图片由 Nova Canvas on Amazon Bedrock 生成

二. 华宝新能在探索过程中的实践和总结

*以下内容是来自华宝新能团队的实践经验和心得体会，描述了他们从最初的探索尝试，到逐步落地推广 GenAI 技术，赋能客服的过程。

时间线：

1、2023 年 07 月：开始尝试通过训练模型对用户声音（VOC）进行细粒度分析（ABSA）

2、2024 年 04 月：基于 Amazon Bedrock 、RAG 增强检索构建的客服辅助工具上线

3、2024 年 10 月：首次尝试 LLM+Workflow，自动应答对终端用户开放

4、2024 年 11 月：AI Agent 的风终于从 idea 吹到了华宝新能

5、2024 年 12 月：多意图 Multi-Agent 通过了业务团队的准确性测试

从最初的探索性项目，到 2025 年 AI 创新专项团队建立和推进，客服团队/IT 团队经历了一系列从试错到落地的过程。我们在这里尝试分享一些经验和看法，来回应大家可能存在的一些疑问和思考，如：

是采用成熟的 SaaS 服务，还是选择团队自研？
在推进过程中，如何平衡创新与风险？
如何推动业务团队积极参与进来？
GenAI 在客服领域的初尝试

随着公司销售业绩的显著提升，客服团队所面临的挑战也在逐步加剧。从用户咨询数据中可以发现一些规律：

大促期间，月均工单量相比平时增幅为 50%-100%，但 SLA 达成比例则下降 30% 以上；
各咨询渠道平均首次响应解决率在 70% 左右，大部分问题可通过一次回复解决；
咨询工单中有 50% 以上为邮件类，另外电话咨询占比呈上升趋势；
首次响应的有效性与满意度成正比，回复时长每增加 2 小时，平均满意度将减少 3%-5%。

针对客服团队的痛点，我们不得不在大促期提前增派临时人手，以缓解咨询量激增带来的压力。

2024 年初，亚马逊云科技的同事 Ben 提出：“RAG 技术最近开始崭露头角，何不尝试借助 AI 为客服团队做些贡献？” 于是，我们开启了智能客服的第一阶段，构建一个工具为客服生成建议回复。详情可参考合作案例华宝新能基于 Amazon Bedrock 构建客服知识库，生成式 AI 赋能智能客服伴业务腾飞。

由于过往没有使用 AI 智能客服的经历，难以确保获得稳定的价值产出，且眼下 AI 缓解咨询压力的需求也未到迫在眉睫，因此我们选择了最小投入试错的路线，思考是否需要外购第三方 AI 平台解决客服痛点。然而，外购的考量如下：

动辄需花费上十万或几十万购买第三方服务，费用不菲；
当前知识库不完善、内容更新滞后，即便使用第三方工具也需投入时间和资源，难以快速部署上线；
存在对现有客服系统的适配问题（如邮件类多次回复）、特定意图标注的问题等。
综合以上，我们决定先以最简单快速的方式利用现有资源，目标是不断提高准确性，在合适的节点将客服辅助转为自动回复，进一步提升工作效率：

快速启用基于 Amazon Bedrock 的知识库 RAG 全托管方案；
在使用过程中收集一线客服的反馈数据，通过标签标注生成答案的可用性；
根据反馈数据不断完善知识库，由指定客服分析原因并更新知识库。
然而，实际执行过程中，我们遇到了以下核心问题。

1. RAG 处理订单类问题的局限性

订单物流需调用 API 在 ERP 系统获取数据，需相应接口实现订单拦截等；
产品适配或故障问题较复杂，需识别产品型号给出对应答复；
存在分块问题导致未能完整回复或回复无关内容等。

2. 收集数据质量不高

原因在于一线客服工作负荷较重，为应付标注任务，标注结果质量未能满足要求。另外，由于缺乏相应的 KPI 或激励机制，难以推动客服团队积极参与。

3. 知识库维护问题

收集数据质量不高导致维护知识库的客服需二次校对标注结果，其中补充和更新知识库内容成为了大量工作。这一阶段，虽然 AI 生成回复的采纳比例达到 60%，但数据并未真实反映其是否真正有用，反而给一线客服带来了额外负担。

尝试虽然曲折，但是过程的一些经验更加坚定了我们通过 GenAI 去提效客服的思路。

与业务团队一起，拓展 GenAI 场景，提高覆盖率

在与业务团队合作推展 GenAI 场景的过程中，我深入思考如何改进现状。客服同事 Jannie 曾指出，“面对如此大量的反馈数据，我该如何优化知识库”？这一问题促使我们开始从用户问题中寻找线索。得益于前一段时间使用大型语言模型对用户问题进行自动标注，我们发现高频问题主要集中于订单相关、产品规格和基础售后模块。

在此阶段，我们对第一阶段遇到的问题进行反思，寻找了调整策略的线索，并重点设定了明确的目标和进度规划，以季度为单位，分多期项目实现 ToC 向的智能客服。

	A	B	C
1		第一阶段	第二阶段
2	知识库管理	全面铺开，知识库质量低	聚焦 Top6 问题，精细化优化
3	客服参与度	全员参与，反馈不精	资深客服深度参与，提升有效性
4	技术方案	纯 RAG，对知识库依赖大	RAG + Workflow + Agent 结合

我们采用分步实施的方式推进：

Step 1：定清优先级，聚焦 Top 问题

我们重新分析了历史咨询数据，对人工与 AI 的意图标注结果进行对比，并依据一次解决率高的工单占比进行权重分配，确定 Q4 分为三个阶段，逐步解决 Top6 用户咨询问题。

Step 2：避免大动干戈，动员所有客服参与，改为指定资深客服参与问题分析和方案设计

指定特定的项目干系人，一起去梳理各团队的处理流程，统一标准化的回复方案，这对于后续校验结果至关重要。

Step 3：设立清晰的目标，通过明确的项目目标来引导团队朝着价值产出推进

专项任务关键目标：

意图识别准确率目标：85%
Q4 目标 Top6 问题准确率目标：75%

由于首次尝试 ToC 向的智能客服，用户满意度不作为本阶段的目标，但仍然会收到关注。分别对 AI 和人工处理的工单进行 CSAT 和 NPS 评分评估，单独分析 AI 评分，能够确保及时发现 AI 表现不佳的领域。

数据评估与指标设定：

自动解决率/半自动解决率

自动解决率 = （AI 自动解决的工单数 / AI 处理的总工单数）× 100%
半自动解决率 = （AI 与人工协作解决的工单数 / AI 处理的总工单数）× 100%

UAT 阶段替代以往的由全员参与评估，AI 生成的回复中，被客服抽查审核认为正确的回复所占的比例。

AI 意图识别准确率 = （人工校验正确的 AI 标注数 / AI 总标注数）× 100%
AI 应答准确率 = （人工校验正确的 AI 回复数 / AI 总回复数）× 100%

面向用户后的准确率计算方式：

AI 回复的准确率计算公式： (A + B + (C – C1)) / (A + B + C)

A: AI-Reply-With-Agent-Follow：AI 回复，需客服跟进操作 / AI response, customer service needs to follow up.
B: AI-Auto-Solved：AI 回复，工单自动关闭 / AI response, ticket automatically closed.
C: AI-Customer-Requires-Human-Support：需客服介入处理 / Customer service intervention required.
D: AI-System-Error：如果 AI 在处理过程中遇到任何系统错误或工具失败。 / System Error.

当用户再次回复时，标记将自动变为 AI-Customer-Requires-Human-Support，此时由客服介入处理。

另外，人工客服还需要标注以下字段：

C1: AI-Response-Incorrect：AI 回复有误 / AI response was incorrect.
C2: Customer-Appreciation：用户表达感谢 / User expressed gratitude.
C3: Customer-Asked-New-Question: 用户提出了其他问题 / User asked a different question.

Step 4：追溯 Top 问题采纳比例不高的原因，及时调整技术方案

在实践中，我们针对不同的用户需求，采用了以下策略：

订单物流等需高精度的固定回复：使用预设模板和工作流（Workflow）确保信息准确一致。
保修范围等常见问题：运用检索增强生成（RAG）技术，从知识库中提取最新答案。
售前咨询、产品对比等复杂场景：部署具备推理能力的智能代理（Agent），提供个性化解决方案。

针对 P1 阶段的订单取消和物流查询，我们采用了简单的方案，LLM 意图识别+多语言固定回复模板，目的是为了快速验证效果和获得产出。当然我们也获得了较好的结果，ToC 上线后此类问题的平均 FRT 由历史的 3300+ 分钟，降低到 1 分钟以内，及时的响应和自动化订单拦截减少了因人工客服响应时间差产生的不必要的因发货导致的物流损失，且取消订单咨询的满意度结果高于历史的人工客服水平约 5%。

当然这部分也碰到了一些问题，例如意图标签和模板的组合相对固定，会出现过渡依赖意图的情况。比如用户咨询“退款状态”，但标签本身没有，AI 识别到相近的标签“订单状态”，回复给用户结果就是订单状态的固定模板。这也间接导致了此类问题的满意度低于客服平均水平。考虑到客服团队的 KPI 压力和不同的声音，我们暂停了订单状态咨询对外回复的功能。

接下来我们进入了最关键且最困难的阶段，Agent 探索阶段。

此时，团队内部出现了不同的声音，希望项目能按时顺利上线，在前期 LLM+固定模板上，借由 Dify 构建 LLM+Workflow 的形式，来应对订单修改的问题。但考虑到之前的依赖意图本身+固定回复容易出现偏差，同时也抱着 Agent 的期待，我们还是决定构建 Agent，作为对后续拓展的铺垫，用 Multi-Agent 来处理多意图问题。

把 Agent 当作为一个客服新人，我们要做的是清晰地告诉它需要处理什么问题，如何处理这类问题，以及相应的工具（如客服操作手册）。

最开始的 1 个月，我们没有得到比较理想的结果，在测试过程中出现了很多意想不到的问题。让情况出现转机的是给 Agent 加入 COT 思考链，我们不但能清晰地找到它思考的过程，也能够察觉到问题。例如，我们的提示词内容本身有矛盾，导致结果不理想，出现问题后可以让 Agent 给出为何结果不符合我们预期的原因，在此基础之上，我们对提示词不断优化，最终找到合适的优化路线。

我很开心，团队在这次方案设计里不仅考虑了终端用户的体验，更多的是想到了如何更好地实现 AI 与人工客服的融合。这意味着，我们的 AI 不仅仅是一个面向用户的应答工具，而更像是一个人工客服的小伙伴（Copilot），真正实现了从辅助到自主的跃迁。它不仅能在第一时间自主分析并解决用户问题，还能针对未知问题进行总结，并以 note 的形式提供给人工客服，使客服无需回溯历史会话，即可无缝接入后续跟进。更重要的是，Agent 还能基于我们设定的规则，即便在多意图场景下，也能精准判断工单的处理方式——是自行解决、交由人工跟进，还是直接转交客服，真正实现了高效、智能的协同工作。

在 12 月底，我们成功推动了 Agent 的内部试跑。结果令人振奋！在内部试运行的阶段，P2-P3 阶段的客服校验结果准确率已超过 86%。尽管仍有挑战，例如配套系统的功能优化、基础数据的不完善、系统调用的不稳定情况（如思考中断、多订单意图匹配错误）。整体表现已超出我们设定的目标——75% 的合格线。

华宝新能的 AI-Agent，未来已然清晰。

团队成员定位的转变

在 AI 的加持下，我们看到了客服以及开发团队潜力的进一步拓展。

以客服 POC Jannie 为例，她最初对 AI 毫无经验，但借助 Dify 平台的高度自定义 UI，她迅速成长为提示词专家，能够自主发现问题、现场优化和测试，从而高效解决业务挑战。

在 Agent 的应用探索中，开发和测试的小伙伴贡献了宝贵的见解。例如，在订单数据同步存在滞后的情况下，我们通过定时任务查询订单数据后再交由 Agent 处理，这不仅减少了配套系统机制导致的错误，还大幅降低了 token 消耗，提高了整体效率。

这份成果离不开一线业务团队的积极参与。即便在年末用户咨询激增的压力下，他们仍抽出有限资源参与数据校验。未来，我们计划通过与 KPI 挂钩的方式，鼓励更多团队成员深度参与项目，以进一步提升效率和质量，让 IT 与业务团队形成更紧密的协作，共同推进长期目标的实现。

在这个过程中，我们也在重塑从业务、产品、开发到测试的角色定位。不同于传统的系统开发模式，如今，每个人都有机会成为提示词专家，成为解决方案的创造者。这不仅提升了团队的创新能力，也让 AI 的应用价值真正落地。

本次 AI 智能客服探索之路，我们从 RAG 试点到 LLM+Workflow，再到 Agent 优化，经历了多个阶段的迭代调整。虽然过程中遇到了数据质量低、意图标注偏差、固定模板局限等挑战，也经历了同业务团队 KPI 冲突导致的分歧，但通过 COT 优化、明确优先级、策略调整，方案最终得以顺利落地。

三. GenAI 赋能客服：价值思考与路径探索

在与华宝新能团队共同探索 GenAI 赋能客服的过程中，我也有一些观察和思考，愿与大家分享。

明确需求：用户体验的真实内涵

公司管理层常强调提升用户体验和满意度评分，但“用户体验”究竟指什么？用户的评价往往受多种因素影响，如服务态度、产品质量、物流速度等。因此，提升用户体验需要全方位的改进，而不仅仅是客服部门的职责。

客服团队的诉求：在有限资源下实现高效服务

在与不同规模的公司讨论中发现，客服团队的目标是一致的：在有限成本下满足用户需求，提升体验。然而，团队和个人的 KPI 设置有时并不完全匹配这一目标。例如，促销期间咨询量激增，客服团队可能采取以下应对方法：

选择性忽略：无法处理的咨询被搁置。
提高单人工作量：每位客服需要处理更多的咨询。

其实，可以通过一些技术手段或管理方法来应对，比如：

引入 GenAI 技术：利用意图分类和优先级划分，将高优先级咨询放入特定队列，确保关键问题得到及时处理。
提供高效工具：如快速检索知识的系统，帮助客服快速回应，提高工作效率。
建立培训体系：提升客服人员的专业能力，以更好地服务客户。

GenAI 时代：客服角色的转型

传统客服工作繁忙，常有人质疑：“每天回复客户咨询都忙不过来，哪有时间整理文档？”然而，优秀的客服人员应主动拥抱新技术，利用 AI 工具提升自我，成为多面手。高质量的信息源是提升工作效率的关键。虽然 GenAI 无法完全替代知识库，但它可以辅助客服更高效地整理和优化信息。

在 GenAI 的支持下，客服的工作内容将发生变化：日常咨询由 GenAI 分担，腾出更多时间学习新知识、优化流程。这种“减负增效”将形成良性循环，持续提升团队整体产出能力，实现多方共赢。

价值重塑：从成本中心到利润增长点

在与客户共同探索产品咨询的过程中，我们发现，准确把握客户意图并识别其关注的产品特性后，可以将被动响应转为主动出击。与销售部门合作，赋予客服新的角色，主动联系客户，识别潜在购买意向，快速跟进销售机会。无论是导购还是售后服务，客服都可以融入整个销售流程，为企业创造价值。

传统上，客服团队被视为成本中心；但在 GenAI 时代，客服正逐步转型为利润增长点，成为企业的增长引擎。

综上所述，GenAI 为客服领域带来了新的机遇和挑战。通过明确需求、优化团队管理、主动拥抱技术，客服团队可以实现角色转型，为企业创造更大价值。

四. 技术架构与实现思路

该架构展现了将 GenAI 服务赋能客户服务的整体技术路径。当客户咨询（Ticket）到达时，系统会先进行意图识别，根据不同意图将其分配至相应的 GenAI 能力模块，加以应对。整个流程贯穿了意图分类、知识检索、对话应答等多个环节，并通过多智能代理（Multi-Agent）与工作流（Workflow）的有序编排，确保 GenAI 服务能高效精准地响应客户咨询需求。该架构凝聚了意图识别、知识库查询、AI 对话等多项技术，有机整合后构建了一条完整的 GenAI 赋能客服的技术路线。

客观评估准确性

在实施过程中，准确性是关键指标。然而，科学、客观地评估这一指标至关重要。

一些企业的客服团队采用模板回复，客服根据意图快速选择模板回复客户。当引入 GenAI 后，他们机械地评估 GenAI 的回复是否与模板一致，若有差异便认为准确性不足。此外，有的企业要求意图识别准确率达到 95% 以上才允许上线业务。

但深入分析发现，意图分类存在交叉、定义模糊等问题，评估过程也带有主观性。因此，评判“准确性不足”需谨慎，确保评估标准科学、过程客观。对于确实存在的准确性问题，可通过模型微调、优化提示词、借助 Agent、选择更强大的模型等方式提升。

Agent 调用 API 实现售中订单咨询

先给大家看看一个融合了订单咨询和产品咨询的案例（数据为 mock 数据）。

上图展示了一个人工智能代理（AI Agent）处理一个询问任务的过程。主要步骤和思路如下:

1、首先对输入的问句“我的订单 S003 到底了了你后通向下一阶段有>5000w的power station?”进行理解和拆解，将其分为两个子任务：关于订单 S003 的处理查询，及关于 5000w 的 power station 的查询。

2、对于第一个子任务，代理使用 HandleSpecificOrderEnquiryByAgent 工具来获取 S003 订单的相关信息，了解其当前的处理状态。

3、对于第二个子任务，代理使用 HandleProductSpecificationQuery 工具来处理关于 5000w 的 power station 的查询。

4、在处理第二个子任务时，代理给出了一些具体解释和信息：

S003 订单现状是有订单号 TN456789123，还没有最终跟进；
5000w 的 power station 对应一款超大功率的电源设备，型号为 3000P，最大功率可达 5000w；
这样大功率的电源通常用于工厂/数据中心，可提供长时间稳定供电；
下一步状态标记为 open，表示还可继续对该类型产品的询问和配置。

5、最后，Agent 综合输出了回答的关键信息，包括订单 S003 状态、5000w 电源设备详情以及接下来可能的操作选项。并最终以 json 的格式输出了：

对于客户的最终回复；
对于人工坐席下一步的指引操作；
对于当前 ticket 的状态建议；
ticket 状态建议的原因。

总的来说，这个 AI 代理展示了理解复杂问题、拆解子任务、使用相关工具获取信息、综合输出结果的能力，可以较好地支持类似产品查询和订单处理的场景。

售中订单服务是客户服务的重点和难点。例如，处理退货请求时，企业通常在多个销售渠道销售产品，客户可能通过邮件等方式提出退货需求。若错过最佳处理时间，可能导致物流已发货，需启动召回流程，或要求客户收货后再退货，增加时间和成本，且影响客户体验。

借助 GenAI 技术，我们可以自动识别客户的退货意图，快速集成订单系统、物流系统等，在 10 分钟内完成订单拦截或撤销出库操作，从而：

快速响应：在最佳时间窗口内高效处理退货需求。
降低成本：避免物流召回或二次发货的额外支出。
提升体验：客户无需等待收货再退货，流程更顺畅。
提高效率：自动化流程替代人工操作。

除了退货，客户在售中环节还可能有取消订单、查询预计送达时间、修改配送信息、变更支付方式等需求。传统人工服务或基于规则的系统难以高效应对这些复杂多变的需求。

相比之下，GenAI 智能代理系统凭借出色的语义理解、多系统集成和自然语言生成能力，可以快速准确地理解客户意图，自动执行所需操作，及时反馈，为售中订单服务带来革命性的提升。

GenAI 智能代理基于大型语言模型训练，具备以下关键能力：

语义理解：深入理解用户的自然语言表达，精准捕捉潜在意图和需求。
知识库集成：无缝连接各类知识库，如产品手册、政策文档等，快速检索相关信息。
任务执行：根据对话上下文自动触发特定任务，如查询订单详情、调用系统 API 等。
自然语言生成：以人类可理解的方式回复用户，交互自然流畅。
持续学习：在与用户互动中不断积累经验，持续优化响应质量。

综合以上能力，GenAI 智能代理可作为智能助手，高效辅助传统客服工作，提高服务效率和客户体验。在订单处理等复杂场景中，它能基于对话自动识别用户需求，整合多系统数据，执行必要操作并自然回复，从而大幅提升服务质量和响应速度，为客户带来全新的智能化服务体验。

分层架构实现

参考上图，该方案由三个主要部分组成，分层解耦，构建了一个健壮高效的订单处理智能 Agent。

1、订单咨询智能代理

作为系统核心，负责与客户进行自然语言交互，包括：

意图识别：精准识别用户输入意图，如查询订单、取消订单等。
订单状态查询：根据识别意图调用相应知识库，获取并处理订单信息。
物流详情查询：获取并组织订单的物流运输数据。
客户自然语言回复：将处理结果以自然语言方式回复客户。

2、订单规则引擎

根据订单查询和处理的实际需求，负责协调并执行相关操作决策，如应用查询规则、确定后续行动等，提高系统可控性和可维护性。

3、工具层

包含多个订单处理工具组件，这些工具被 GenAI 掉用来完成复杂的工作。如订单状态查询工具、订单控制工具、物流跟踪工具等，为上层智能代理提供所需的功能支持。

该分层架构将自然语言交互、订单处理决策和具体执行工具相分离，提高了系统灵活性和可扩展性。

在客户侧，系统整合了现有 OMS、WMS、电商平台和物流平台，对接了订单和物流的核心数据服务能力。

经典规则引擎+GenAI=准确高效的订单处理规则

我们最终采用了 AI 与传统规则引擎相结合的方式。

在 AI 订单处理系统的实施过程中，我们最初尝试使用自然语言描述不同订单状态下对应客户意图的处理规则，供 GenAI 系统理解和执行。然而，由于订单场景错综复杂，涉及订单渠道、承运商、优惠券、预售等多个影响因素，仅靠自然语言极难清晰描述每一条规则。另一方面，如果直接在提示词中硬编码规则，一旦需要调整，可能会无意中破坏其他规则，维护成本和风险都很高。

我们尝试过单独使用提示词描述、伪代码编写 if-else 逻辑等多种方式，但均无法就众多输入因子做精准规则描述，且容易出现无法回归的问题。最终，在客户团队的建议下，我们采取了传统与创新技术相结合的混合方式。

应对业务复杂性挑战：订单处理场景错综复杂，不同销售渠道、订单状态及客户需求导致规则纷繁，单一 AI 系统难以覆盖所有情况。将规则交由独立的规则引擎维护更加可控可靠。
提高规则维护效率：规则由运营团队维护，他们最了解具体业务逻辑。独立的规则引擎利于灵活调整并追踪版本变化，提高维护效率。
复用现有系统资产：企业普遍存在传统订单系统、规则引擎等遗产系统，直接抛弃重建代价高昂。将 AI 与遗产系统整合，可最大限度复用核心能力，实现平滑过渡。

通过 AI 与规则引擎的有机结合，我们发挥了两者各自的优势，构建了一个高效可控的智能订单处理系统，促进了新技术与传统系统的融合发展。

我们借鉴了规则引擎的设计理念，但为简化实施，只需要一个轻量级的规则查询系统，而不必维护一个复杂的完整规则引擎。

架构迭代：multi-agent collaboration capability 多智能体系统应对多样化咨询需求

“你永远无法预测客户会问什么问题，会怎么问”，这一客户体验痛点对客服系统的理解能力是一大考验。

借鉴医院分诊台的运作模式，我们设计了基于多智能体（Multi-Agent）的创新架构。

系统入口引入 ReceptionDeskAgent，担纲识别用户各式各样询问意图，并负责适当分流的职能，类似分诊台的导诊员角色。根据识别结果，用户需求将被合理分配至不同领域智能体，如订单服务智能体（OrderAgent）、产品咨询智能体（ProductAgent）、售后服务智能体（AfterSalesAgent）等。

每个领域智能体均可调用对应的工具与数据源，如订单系统、物流系统、产品知识库、故障库等，针对用户需求进行深入专业化分析处理，类似医院各科室利用 CT、化验等手段实施检查诊疗。最终，各智能体的处理结果将由 ReceptionDeskAgent 进行汇总整合，并统一以自然语言形式回复用户。

该多智能体架构有效模拟了人工服务的工作模式，实现了意图识别、专业分工以及信息融合的无缝衔接，为应对用户千变万化的复杂疑难咨询需求提供了可靠的解决方案。

例如，当遇到客户咨询关于电器的太阳能板与电源组合的问题时，我们专门设计了一个支持代码解释的智能体。它根据是否支持并联、串联、最大功率等参数，通过执行相关计算代码，精准获取满足客户要求的推荐太阳能板数量，从而确保给出的建议数据是准确无误的。

五. 总结和展望

基于所采用的解决方案，我们与华宝新能紧密协作，共同实现了订单物流查询、订单修改、多订单多意图需求拆解、产品咨询响应等多种应用场景。在这一过程中，华宝新能借助 Amazon Bedrock 提供的强大能力快速迭代，最终在 100 个测试案例中取得了令客服团队满意的准确率水平，并逐步在日本和美国市场进行了面向终端用户的落地验证。

这一探索之旅虽然艰辛，但获得了来自华宝新能高层、客服管理团队、评估人员、产品设计师、IT 团队以及相关合作系统方的大力支持和通力合作，才得以一一跨越重重障碍。如今，华宝新能专门组建了一个虚拟团队，能够在真实的客服场景中探索 GenAI 技术赋能客服服务的应用方向。

GenAI 不仅仅是一种自动化工具，它所带来的变革可能超乎我们的预期——在 GenAI 时代，客服人员的角色定位将发生深刻转变，未来他们可能会兼具用户运营、产品需求分析师、数据分析师等多重身份。过去，个人的经验决定了能力上限；而现在，GenAI，让每个人都拥有了快速成长的机会，从而缩小了人与人之间的差距。

当 GenAI 与客服工作真正无缝融合时，我们已在开启全新的可能性之门，届时区分 AI for Customer Service 还是 AI Customer Service 已不那么重要。我们要保持对新事物的开放探索态度，勇于 Say No，勇于质疑和争论，面对挑战时绝不因问题而畏缩退缩。因为，不同观点的碰撞会加深我们对事物的理解，而我们总将找到更优的解决方案。

参考资料

华宝新能基于 Amazon Bedrock 构建客服知识库，生成式 AI 赋能智能客服伴业务腾飞：https://aws.amazon.com/cn/solutions/case-studies/hellotechenergy/?awsm.page-customer-references-cards=1
Introducing multi-agent collaboration capability for Amazon Bedrock：https://aws.amazon.com/blogs/aws/introducing-multi-agent-collaboration-capability-for-amazon-bedrock/
Amazon Bedrock 知识库加速客服团队应用 GenAI 能力：https://aws.amazon.com/cn/blogs/china/amazon-bedrock-knowledge-base-accelerates-customer-service-teams-adoption-of-genai-capabilities/
MECE 分析法：https://en.wikipedia.org/wiki/MECE_principle

本篇作者

本期最新实验为《大模型选型实战 —— 基于Amazon Bedrock测评对比和挑选最合适业务的大模型》
✨ 立即解锁当下最火爆的AI大模型，带你零基础玩转 DeepSeek、Nova 等顶尖大预言模型。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！🚀

基于 Amazon Nova 和 TEN 框架的实时音视频交互解决方案

2025-04-25T09:00:51+08:00

需求背景

随着人工智能技术的飞速发展，实时音视频交互应用逐渐成为市场热点。从智能语音助手到多模态教育平台，企业对高效、低延时且可扩展的解决方案需求日益增加。借助 Amazon Nova 系列模型、Amazon Transcribe 和 Amazon Polly 等亚马逊云科技服务，您可以轻松构建功能强大的实时音视频交互系统。本文将深入介绍这些服务如何协同工作，帮助开发者打造卓越的用户体验。

技术选型和现状

在客户需求调研中，我们发现许多企业希望构建一个基于 AI 的实时音视频助手，以实现多模态的交互体验。然而，传统方案往往存在延时高、耦合度高、扩展性差的问题。另外，目前已有的《Amazon Bedrock 的实时语音解决方案》是基于 Amazon 相关服务和开源 TEN-Agent 构建的。基于此，我们提出了一套《基于 Amazon Nova+TEN 的实时音视频交互解决方案》，其核心优势在于利用 Amazon Nova 的多模态能力支持实时视频理解。

逻辑架构

《基于 Amazon Nova +TEN 的实时音视频交互解决方案》采用模块化的逻辑架构设计，通过 TEN 框架编排各功能模块，实现高效的数据流处理和灵活的扩展能力。以下是逻辑架构的核心组成部分，见下图：

前端用户交互模块

用户终端：支持 Web 和移动应用，收集用户的音视频信息并与后端建立实时通信。
Web Server：作为前端请求的入口，负责处理用户的连接请求用于创建通道与开启/停止对话。

TEN Agent

核心模块，用于编排和管理所有插件，基于有向循环图（DCG）实现数据流的灵活处理。

RTC 插件：处理实时音视频数据的收发，保证低延迟传输。
Amazon Transcribe 插件：调用 Amazon Transcribe 实现实时语音识别，将语音转化为文本。
Interrupt 插件：监测语音和文本输入，判断用户输入的中断状态，优化对话流程。
Amazon Bedrock 插件：使用 Amazon Nova 模型进行多模态推理，处理图像、文本和视频数据。
Amazon Polly 插件：调用 Amazon Polly 将文本生成自然语音输出，提供更具沉浸感的交互体验。

RTC 网络

通过 Agora 的 RTC 技术支持实时音视频通信，该网络利用亚马逊科技全球骨干网络确保低延迟和高稳定的实时通信。

通信通道建立流程如下图所示：

1. 通信建立初始化流程

1.1 用户客户端（UserClient）调用 HTTP 接口 /v1/api/generate 请求通道名（channel）和认证 token（用于在声网 RTC 网络中进行身份验证）。

1.2 WebServer 处理请求，并返回通道名和认证 token。

1.3 用户客户端使用 token 建立与 RTC Network 的通信通道。

2. 对话开启流程（建立用户与 Agent 的双向通信）

2.1 用户客户端调用 HTTP 接口 /v1/api/start 请求开启对话。

2.2 WebServer 获取客户端的 channel 并将相关参数传递给 Agent。

2.3 Agent 接收 channel 信号后，建立该 channel 与 RTC Network 的通信。

物理架构

《基于 Amazon Nova +TEN 的实时音视频交互解决方案》部署在亚马逊云科技的云服务上，充分利用 AWS 的基础设施，该物理架构提供了高可用性、低延迟和扩展性。架构的关键组件和流程如下：

用户请求流转流程

终端用户接入：用户通过 Web 或移动应用访问系统。
内容分发：Amazon CloudFront 作为内容分发网络（CDN），负责加速边缘用户请求。
流量路由：经过鉴权后，流量由 Application Load Balancer (ALB) 转发至后端服务，确保高效的流量分发。

服务处理层

容器化服务部署：Amazon Elastic Kubernetes Service (EKS) 承载所有核心服务，使用容器编排以支持高可用性和弹性伸缩。
实时数据处理：RTC 网络通过 Agora 的 Software-Defined Real-Time Network (SD-RTN) 实现低延迟的音视频数据传输。
数据流插件：包括 Amazon Transcribe（语音识别）、Amazon Polly（文本转语音）和 Amazon Nova 模型（多模态推理），各模块通过 TEN 框架编排实现无缝衔接。

研发支持与管理

Docker 镜像管理：研发人员通过 Amazon ECR（Elastic Container Registry）上传和存储 Docker 镜像。
服务部署与监控：研发人员使用 kubectl 部署服务，并监控运行状态。

核心服务

我们的解决方案围绕以下亚马逊云科技服务构建，下面我们简单介绍下该方案用到的核心服务。

Amazon Nova – 强大的多模态 AI 引擎

Amazon Nova 是亚马逊云科技提供的一款支持文本、图像和视频输入的多模态 AI 模型系列。无论是复杂的推理任务，还是需要快速响应的对话应用，Nova 系列都能提供高性价比和低延迟的解决方案。

Nova Micro：有不错的性能，低成本、速度快。
Nova Pro：在性能、速度和成本间实现最佳平衡，适用于广泛的任务。
Nova Lite：低成本的选择，可快速处理图像和视频输入。
Nova Premier：适合复杂推理任务的高性能模型，即将在 2025 年推出。

从上图我们可以看到，Amazon Nova Pro 的延迟与 GPT-4o min 和 Gemni2.0 Flash 对比，表现更快。

从上图我们可以看到 Amazon Nova Pro 的质量和速度都是中上水平，但价格却非常有竞争力，整体性价比非常高。

*注：上面 2 张图片的统计结果来源于第三方 AI 评测网站：https://artificialanalysis.ai，最新结果会根据时间有所变化。

Amazon Transcribe – 高效语音识别

Amazon Transcribe 是一项完全托管的自动语音识别（ASR）服务，支持流式和录制语音的实时转录。它支持 100 多种语言，并能快速生成精准的文本输出。

Amazon Polly – 高品质文本转语音

Amazon Polly 提供多种声音模型和 40 多种语言支持，将文本转换为自然流畅的语音。它支持流式返回，能够在不到 150 毫秒内完成语音生成，提升用户体验。

关键技术点与优化策略

降低延迟

使用 Amazon Nova Pro 模型提供低延迟的多模态推理能力。
借助开源的 TEN 框架支持异步处理，优化任务调度。
流式调用 Amazon Transcribe 和 Amazon Polly，减少处理时间。

成本优化

视频按时间间隔 VIDEO_FRAME_INTERVAL 抽帧以减少数据量。可以根据业务需要自动调整。代码如下：

    async def _on_video(self, ten_env: AsyncTenEnv):
        """Process video frames from the queue."""
        while True:
            try:
                [image_data, image_width, image_height] = await self.image_queue.get()
                
                frame_buffer = rgb2base64jpeg(image_data, image_width, image_height)
                
                self.image_buffers.append(frame_buffer)
                               
                while len(self.image_buffers) > MAX_IMAGE_COUNT:
                    self.image_buffers.pop(0)
                
                # Skip remaining frames for the interval
                while not self.image_queue.empty():
                    await self.image_queue.get()
                    
                await asyncio.sleep(VIDEO_FRAME_INTERVAL)
                
            except Exception as e:
                traceback.print_exc()
                ten_env.log_error(f"Error processing video frame: {e}")

实施图片压缩与历史图片合并技术，优化带宽利用。

def resize_image_keep_aspect(image: Image.Image, max_size: int = 512) -> Image.Image:
    """Resize an image while maintaining its aspect ratio."""
    width, height = image.size

    if width <= max_size and height <= max_size:
        return image

    aspect_ratio = width / height

    if width > height:
        new_width = max_size
        new_height = int(max_size / aspect_ratio)
    else:
        new_height = max_size
        new_width = int(max_size * aspect_ratio)

    return image.resize((new_width, new_height))

中断与完成信号检测

检测实时音频输入中断，并动态调整输出。
利用 Amazon Transcribe 插件判断输入完成信号 is_partial，提高对话流畅度。

    async def handle_transcript_event(self, transcript_event: TranscriptEvent) -> None:
        results = transcript_event.transcript.results
        text_result = ""

        is_final = True

        for result in results:
            if result.is_partial:
                is_final = False
                # continue

            for alt in result.alternatives:
                text_result += alt.transcript

        if not text_result:
            return

        self.ten.log_info(f"got transcript: [{text_result}], is_final: [{is_final}]")

        create_and_send_data(ten=self.ten, text_result=text_result, is_final=is_final, stream_id=self.stream_id)

模块化架构

通过 TEN 框架实现模块化架构，各功能模块支持热拔插，开发者可以根据需求替换特定服务，进一步增强系统的灵活性。

详细部署流程

构建此解决方案需要以下部署步骤：

环境准备

登录亚马逊云科技账户，并为所需服务（Amazon EKS、Amazon ECR、Amazon Nova、Amazon CloudFront、Amazon Transcribe、Amazon Polly、Amazon EC2 等）分配访问权限。
登陆声网控制台：https://console.agora.io/ 开通声网账户，创建 appid 和 App certificate 和 token，具体收费请参考官网：https://www.agora.io/en/pricing/。
使用 EKS 的编排文件 Deployment.yaml 和 Service.yaml 文件（或者手动编辑），用于工作负载和服务的编排。

镜像构建与服务部署

下载代码并构建 Docker 镜像。
— 删掉 ARG USE_AGENT=agents/examples/default
— RUN 这一行修改成 RUN task clean && task use AGENT=agents/examples/demo
将镜像上传至 Amazon Elastic Container Registry (ECR)。

# 登陆docker
aws ecr get-login-password --region region_id | docker login --username AWS --password-stdin your_accountid.dkr.ecr.us-east-1.amazonaws.com

# 代码仓库
https://github.com/zhuermu/TEN-Agent.git

# 在本地构建镜像  在目录TEN-Agent/Dockerfile
docker build -t dev/ten_agent_build .

# 打tag
docker tag dev/ten_agent_build:latest your_accountid.dkr.ecr.us-east-1.amazonaws.com/dev/ten_agent_build:latest
# 推送镜像
docker push your_accountid.dkr.ecr.us-east-1.amazonaws.com/dev/ten_agent_build:latest

创建 Amazon EKS 集群并部署服务与工作负载。

# 部署集群
eksctl create cluster -f cluster-config.yaml

# 创建命名空间
kubectl create namespace ten-framework --save-config

# 创建部署deployment
kubectl apply -n ten-framework -f deployment.k8s.yaml

# 创建服务service 和 ingress
kubectl apply -n ten-framework -f service.k8s.yaml

其中 cluster-config.yaml 文件内容如下：

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig

metadata:
  name: ten-framework
  region: us-east-1

autoModeConfig:
  enabled: true

deployment.k8s.yaml 配置如下：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ten-agent-demo
  namespace: ten-framework
spec:
  replicas: 1
  selector:
    matchLabels:
      app: ten-agent-demo
  template:
    metadata:
      labels:
        app: ten-agent-demo
    spec:
      containers:
        - env:
            - name: AGENT_SERVER_URL
              value: http://ten-agent-build-service:8080
          image: xxxxx.dkr.ecr.us-east-1.amazonaws.com/dev/ten_agent_demo:latest # 替换你的镜像地址,部署palyground
          name: ten-agent-demo
          ports:
            - containerPort: 3000
          resources:
            requests:            
              cpu: "1"          
              memory: "2Gi"     
            limits:            
              cpu: "2"         
              memory: "4Gi"   
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: ten-agent-build
  namespace: ten-framework
spec:
  replicas: 1
  selector:
    matchLabels:
      app: ten-agent-build
  template:
    metadata:
      labels:
        app: ten-agent-build
    spec:
      containers:  
        - env:
            - name: LOG_PATH
              value: /tmp/ten_agent
            - name: LOG_STDOUT
              value: "true"
            - name: GRAPH_DESIGNER_SERVER_PORT
              value: "49483"
            - name: SERVER_PORT
              value: "8080"
            - name: WORKERS_MAX
              value: "100"
            - name: WORKER_QUIT_TIMEOUT_SECONDES
              value: "60"
            - name: AGORA_APP_ID
              value: {{AGORA_APP_ID}} # 替换你的 agora app id
            - name: AGORA_APP_CERTIFICATE
              value: {{AGORA_APP_CERTIFICATE}} # 替换你的 agora app certificate
            - name: AWS_ACCESS_KEY_ID
              value: {{AWS_ACCESS_KEY_ID}} # 替换你的 aws access key id
            - name: AWS_SECRET_ACCESS_KEY
              value: {{AWS_SECRET_ACCESS_KEY}} # 替换你的 aws secret access key
            
          image: xxxx.dkr.ecr.us-east-1.amazonaws.com/dev/ten_agent_build:latest # 替换你的镜像地址,部署agent
          name: ten-agent-build
          ports:
            - containerPort: 8080
          resources:
            requests:            
              cpu: "2"          
              memory: "4Gi"
            limits:            
              cpu: "3"         
              memory: "6Gi"

Service.k8s.yaml 文件内容如下：

apiVersion: v1
kind: Service
metadata:
  name: service-ten-agent-demo
  namespace: ten-framework
spec:
  ports:
    - port: 3000
      targetPort: 3000
  selector:
    app: ten-agent-demo
  type: LoadBalancer
---
apiVersion: v1
kind: Service
metadata:
  name: ten-agent-build-service  # 这个名称将用于服务发现
  namespace: ten-framework   # 你的命名空间名称
spec:
  selector:
    app: ten-agent-build        # 要匹配 ten-agent-build 的标签
  ports:
    - protocol: TCP
      port: 8080               # Service 端口
      targetPort: 8080         # 容器端口

---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  namespace: ten-framework
  name: ingress-ten-agent-demo
  annotations:
    alb.ingress.kubernetes.io/scheme: internet-facing
    alb.ingress.kubernetes.io/target-type: ip

spec:
  ingressClassName: alb
  rules:
    - http:
        paths:
        - path: /
          pathType: Prefix
          backend:
            service:
              name: service-ten-agent-demo
              port:
                number: 3000

网络配置

1、创建 CloudFront ，配置 Orgin domain 为 k8s 创建的 ALB，注意这里的命名规则为“k8s-tenframe-ingress-*”，使用 Amazon CloudFront 提供 HTTPS WEB 服务。使用 Amazon CloudFront 提供 HTTPS WEB 服务。

2、创建完成之后到 CloudFront 的 console 复制 Domain name 对应的 endpoint 打开浏览器来体验服务。

Demo 演示

体验地址： https://agent.theten.ai/，选择 Voice Agent / STT + Nova Mutimodal + TTS 进行 Connect，如下图所示。

支持中英文对话的 Demo

方案的应用场景与优化

可拓展应用场景

智能音视频助手、视觉识别系统、交互教育平台、直播实时翻译等。

智能音视频助手：例如下图的桌面智能助手，可以嵌入在智能 IoT 设备中为个人提供服务。
视觉识别系统：可以用于集成摄像头用于工业安全监控、儿童看护监控场景。
交互教育平台：系统支持共享用户桌面，可用课文和题目进行解答和讲解。
直播实时翻译：使用该方案对直播内容实现实时翻译多语种，支持出海带货等业务。

方案优化

方案目前缺少实时信息的获取工具，例如当前时间、天气、新闻等，可以基于此拓展一些 function tool 来与现实世界实时信息对齐。

参考文档

Ten 框架：https://doc.theten.ai/
Demo Git：https://github.com/zhuermu/TEN-Agent
Amazon EKS：https://docs.aws.amazon.com/eks/latest/userguide/quickstart.html
Amazon Nova API：https://docs.aws.amazon.com/bedrock/latest/userguide/conversation-inference-examples.html
Amazon Trancribe：https://docs.aws.amazon.com/transcribe/latest/dg/what-is.html
Amazon Polly：https://docs.aws.amazon.com/polly/latest/dg/what-is.html
声网（Agora）文档：https://docs.agora.io/en/
声网（Agora）注册地址：https://sso2.agora.io/en/v6/signup
声网计费：https://doc.shengwang.cn/doc/rtc/android/billing/billing-strategy

本篇作者

本期最新实验为《大模型选型实战 —— 基于Amazon Bedrock测评对比和挑选最合适业务的大模型》
✨ 立即解锁当下最火爆的AI大模型，带你零基础玩转 DeepSeek、Nova 等顶尖大预言模型。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！🚀

Amazon Q 从入门到精通 – 集成企业代码库

2025-04-24T13:37:29+08:00

同时，我们推出了 Amazon Q Developer 在 IDE 中的定制功能（Customization），支持在行内代码补全以及聊天窗口中的定制。现在，您可以在 IDE 代码编辑器中定制 Amazon Q Developer，从私有代码仓库中生成特定的代码推荐，这使得代码建议更加精准、个性化。

对于企业客户来说，通过这些定制功能，Amazon Q Developer 可以根据您团队的内部库、专有算法技术和企业代码风格来提供支持，从而协助软件开发。这不仅可以提高开发效率，还能确保开发过程符合企业的技术要求和编码标准。企业用户可以依据团队的具体需求和偏好配置这些定制选项，以此优化开发流程，加速项目进度，并提高最终产品的质量和性能。这些功能的引入，为企业提供了一个强大的工具，来支持软件开发任务和增强开发团队的协作效率。

Amazon Q Developer 的定制功能严格遵守亚马逊的数据隐私和安全标准。您共享给 Amazon Q Developer 的代码库只限于您的组织使用，不会用于培训我们的基础模型。定制部署后，推理端点将专属于您组织内的开发者，确保您的代码推荐不会在其他公司的开发者 IDE 中显示。您可以自行决定哪些开发者能访问特定的定制，并通过监控相关指标来评估所部署定制的效果。此外，Amazon Q Developer 通过提供使用 Amazon Key Management Service（Amazon KMS）中客户管理的密钥加密您的定制数据的选项，帮助确保您代码的安全。这些定制数据将在定制任务完成后被删除。

本文将通过简单的案例操作来为您展示 Amazon Q Customization 的具体使用方式以及能力。

前提要求

为完成本文的动手实践操作，您需要满足以下要求：

配置 Amazon Q Developer 专业版，具体步骤可参考博客 Amazon Q 从入门到精通 – 入门配置篇。
按照以下要求准备您的数据。本文采用的数据来自于 github aws sample code 的 aws-spring-boot-optimization 仓库。
— 您的数据源必须包含至少 2 MB、最多 20 GB 的源代码文件，且必须来自支持的编程语言。数据源中任何超过 10 MB 的文件都将被忽略。
— 数据源中的文件数量没有限制，但您必须至少包括每种语言 10 个文件，以支持您的定制需求。
— 文件名和各个目录名不得超过 255 个字符。（累积起来可以超过 255 个字符。）超出这些限制将导致定制创建失败。
— 在 Amazon S3 数据源中，所有源代码必须放置在某个目录内，不能放在根目录。根级别的任何文件都将被忽略。

整理您的代码库

为了优化 Amazon Q Developer 的性能，我们建议尽量提高您代码库的代码质量。根据最佳实践，我们推荐采用以下几种方法：使用描述性强的函数名，编写简洁明了且能准确传达关键信息的代码注释，添加使用示例，以及包含 README 文件等。通过这些方式提升代码质量，可以让 Amazon Q Developer 生成定制代码的表现更上一层楼。

Amazon Q Developer 的定制功能接受不同的数据源，其中包括 Github、GitLab、Bitbucket 以及 S3。如果您的数据源位于 Github、GitLab 或 Bitbucket 中，那么您可以参考这个教程，通过 AWS CodeConnections 连接。本文将使用 S3 作为数据源。创建 S3 桶，将准备就绪的数据存入 S3 桶中。需要注意的是，在 Amazon S3 数据源中，所有源代码必须放置在一个路径中，而不能放在根级别。根级别的任何文件都将被忽略。如下图所示，所有代码文件都被放置 customerService 这个路径下。

配置定制功能

开始前请确保您已经配置并订阅了 Amazon Q Developer 专业版（Pro License）。

接着，在您的亚马逊云控制台中搜索“Amazon Q Developer”，点击选择 Amazon Q Developer (Including Amazon CodeWhisperer)。

在右侧导航栏中，点击“Customization”，点击“Create Customization“来创建新的定制任务。

然后根据您的场景和需求输入 Customization name 以及 Description。本例为 customerService。

在 Connection to source provider 部分，我们选择“Amazon S3”作为数据提供来源（Source provider），并输入 S3 桶或 S3 文件夹的 URI。

您可以通过开启日志来了解并定位 Amazon Q Developer Customization 的问题，日志根据您的选择，将被发送至 Amazon CloudWatch Logs，Amazon S3 桶，或 Amazon Data Firehose。

本文这里选择使用 CloudWatch 作为日志文件的储存地点。有关日志文件中的 Error Message，更多信息请参阅链接。

所有选项都填写完毕后，点击右下角的“Create Customization”，Amazon Q Developer 将会开始创建您的定制功能。根据您提供的数据量大小，可能会需要几个小时的时间来完成。您可以通过查看 Status 是否为“Created”来判断创建成功与否。

如果失败，您可以通过 Error detail 查看创建失败的原因，并在修改后，通过点击右上角“Actions”，选择“update”来重新开始创建。

可能会导致创建失败的原因有以下 4 种，可以根据情况进行修改。
— 您可能会遇到以下错误：Total size of the provided repositories exceeds the maximum allowed size of number for a customization. 在这种情况下，请从您的数据源中移除一个仓库后重试。
— 您可能会收到错误：Insufficient data to create a customization. Add more files from supported languages and retry。为了使用特定语言编写的代码来创建定制，您的数据源中必须至少包含该语言的 10 个代码文件。您的数据源至少需要包含 2 MB 的代码，建议接近 20 MB，最多不超过 20 GB 的支持语言源代码文件。即使某些文件使用了相关语言，也可能不计入这 2 MB。例如，重复文件和格式不支持的文件将不被计算。如果您收到此错误，添加更多包含您希望定制的编程语言的文件后重试。
— 您可能会收到错误：Encountered an issue when retrieving some of the selected repositories from CodeConnections. Check the customization’s log deliveries for details。如果您遇到此错误，请尝试使用您的连接可以访问的有效仓库再次创建或更新定制。

当定制准备好后，通过点击“Activate”，我们手动的在需要时激活该定制功能。这个过程会需要一些时间。

同时我们可以在页面上看到右侧部分有一个评估分数，它帮助衡量在根据我的代码库中的代码预测和提供代码建议时的准确性。它提供的分数分为三个等级：1) 非常好，分数在 7 到 10 之间；2) 一般，分数在 4 到 7 之间；3) 较差，分数在 0 到 4 之间。可以看到本文中提供的代码库只得到了 3 分的评分，因为本文提供的代码只是些质量较差的实例代码。我们可以通过使用使用描述性强的函数名，编写简洁明了且能准确传达关键信息的代码注释，添加使用示例，包含 README 文件，以及加入更多的数据等方式来提升这个分数。

Amazon Q Developer Customization 也提供了版本控制的功能。在此页面中，我们可以看到“Versions”这一项。我们可通过点击右上角的“Actions”，选择“Create new version”来创建新的版本。也可以点击“Deactivate”来撤销一个版本的激活。

激活定制功能之后，我们可以看到版本的 Status 被更新为“Activated”。

在正式开始使用之前我们可以通过选择“Add users and groups”来授予选定的团队成员使用定制功能。这个功能可以帮助企业用户更好的管理访问权限并保护您的数据安全。

我们点击 Add Users，并选择一个订阅过 Q Develop 专业版的 User，给予这个用户使用定制功能的权限。

我们也可以换到 Groups 部分来添加一个用户组。

在 IDE 中使用定制功能

打开您熟悉的 IDE，本文将使用 VScode 作为演示。在 IDE 中使用创建好的 User 来登录 Amazon Q 之后，正常情况下，AmazonQ 的面板可以用快捷键来打开和关闭，对于苹果电脑，按下 Shift + Command + P 快捷键，对于 Windows 电脑，按下 Shift + Ctrl + P 快捷键。

找到“Amazon Q: Select Customization”并点击。

选择刚刚创建好的 customerService 这个 Customization。

通过 Amazon Q Developer Inline chat 的功能来生成复合我们代码库风格的代码，从私有代码仓库中生成特定的代码推荐。下图中，我们输入注释，即对 Amazon Q 的指令，为“use the customerService class and write a method to load customer info and delete specific customer by ids”。图中的代码都由 Amazon Q Developer 生成。

将 Amazon Q Developer 生成的代码与我们内部的代码进行对比。如下图所示，可以看到 Amazon Q Developer 生成的代码正确运用了我们内部库中已经存在的 customer repository 以及相关的函数，包括 findAll 和 deleteById。

在 Chat 中的定制问答功能

除了Inline的代码生成功能以外，Amazon Q Developer 定制功能同样支持在 IDE 与 Amazon Q 的对话框中询问与内部代码库相关的问题。如下图所示，询问 Amazon Q 内部代码库中 customerService 这个包的信息，可以看到 Amazon Q 可以给出准确并详细的总结。这个功能可以加速开发人员学习理解内部代码的过程，提升工作效率。

监控 Amazon Q 定制功能的效果

在 Dashboard 页面上，提供了各种关键性能指标，包括每天的活跃用户数量、生成的代码行数以及执行的安全扫描次数等。通过这些数据，我们不仅可以更全面地评估 Amazon Q Developer 的整体表现，还能直观地观察到它在提高工作效率方面为我们带来的具体成效。

除了 Dashboard 外，我们还可以在 Amazon CloudWatch 中访问更多的可视化指标，这些指标包括代码块接受率（Block Accept Rate）和代码行接受率（Line Accept Rate）等。这些高级指标进一步帮助我们监控和优化 Amazon Q Developer 的使用情况，确保我们能够最大化地利用这些工具来提升开发过程的效率和安全性。通过这种方式，我们可以根据实时数据作出判断，优化代码和输出质量。

目前支持的编程语言

目前 Amazon Q Developer Customization 功能支持的编程语言包括 Java (.java)、JavaScript (.js, .jsx)、Markdown (.md, .mdx)、Python (.py)、reStructuredText (.rst)、Text (.txt)、以及 TypeScript (.ts, .tsx)。其他语言即使被包含在代码库中也不会被 Amazon Q Developer 使用。

最后

Amazon Q Developer Customization 通过其强大的定制功能和灵活的数据源支持，为企业和开发者提供了强有力的支持，从而使得代码开发过程更加高效、安全且符合个性化需求。通过实际案例的演示，我们可以看到，无论是在代码生成、代码质量提升还是团队协作方面，Amazon Q Developer 都能显著提升开发者的工作效率和代码质量。

随着技术的进步和市场需求的变化，Amazon Q Developer 将继续更新和扩展其功能，以满足更广泛的编程语言和更复杂的开发场景。我们期待看到 Amazon Q Developer 如何继续推动创新。

感谢您阅读本文，希望它能为您在使用 Amazon Q Developer 时提供帮助和启发。如有更多问题或需求，欢迎继续探索更多资源或联系我们的技术支持团队。

本篇作者

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

Amazon Q 从入门到精通 – 加速构建亚马逊云基础设施

2025-04-23T09:54:41+08:00

Amazon Q Developer 基于亚马逊云科技 17 年来积累的知识和经验训练而成，在帮助开发人员构建和开发基于亚马逊云的应用时，能够更好地体现其优势——可以为用户创建更加准确的云基础设施代码。为了展现这一独特优势，本文将以典型的亚马逊云基础设施构造需求为主题，展示 Amazon Q 在加速亚马逊云基础设施构建方面的具体实践。

构造符合生产需要的 VPC（Virtual Private Cloud）

VPC 是一个虚拟网络服务，允许用户在云中创建隔离的网络环境，自定义 IP 地址范围、配置路由和设置网络网关，实现资源的安全隔离与灵活管理。当用户第一次使用亚马逊云时，每个 Region 都会有一个默认的 VPC，通常包含 3 个公开子网，然而这样的 VPC 通常无法满足应用架构的生产需要，如良好的网络隔离性和安全性等要求。创建一个符合生产要求的 VPC 并非易事，它需要专业的网络规划能力，同时还要熟悉亚马逊云控制台的操作。而有了 Amazon Q Developer，这项工作会变得非常简单。

架构

一个符合生产需要的 VPC 架构，通常如下图所示。

需求描述

3 个可用区（AZ），满足工作负载对跨可用区（AZ）网络高可用的需要。
每个可用区（AZ）内均有一个公开子网，方便面向公网的跳板机，和负载均衡器等必须放在公开子网里的资源的硬性要求。
每个可用区（AZ）内均需要规划多个不同用途的私有子网，分别用来为工作负载，数据库，以及中间件预留分配足够的 IP 地址。同时，每类子网都规划了不同的 IP 容量，以充分利用资源，并为将来扩容留出足够的余量。
另外，所有私有子网的工作负载，都有访问公网的需要，以便于满足对外发送数据的需要，或者操作系统升级等联网需求。

传统方法

需手工在控制台创建。但这种方式，开发者必须理解所有细节，不但工作量大，而且很容易出错。

现代方法

可以利用亚马逊云科技提供的 CDK，用 IaC（Infrastructure as Code）的方式来通过创建 CDK 代码工程，以创建和维护资源。

优点：IaC 方式的优点是以代码为基础设施描述的唯一来源，利于追溯变更，可以一键部署，一键销毁，非常符合 DevOps 的开发/运维模式，是当代普遍采用的管理基础设施的重要技术手段。
缺点：CDK 代码本身有较大的学习成本，当开发人员具体为不同资源进行编码的时候，熟悉每一个资源的编码细节是必须的工作，为此，在实际编码的过程中，开发者不得不经常查阅开发手册，亦是十分耗时费力。

Amazon Q Developer 的方式

可以以自然语言的交互形式，快速协助开发者生成 CDK 资源创建代码，可以大大降低开发人员必须深入细节才能编写高质量 CDK 代码所必须消耗的精力和时间。
开发/运维人员仅需对架构有较为高层的认知，即可快速令 Amazon Q 编写出高质量的 CDK 代码。

Amazon Q Developer 实践

用自然语言，将需求以自然语言描述如下：

create a vpc, meeting below requirement:
- named "Q-VPC"
- cidr：10.0.0.0/16
- in each AZ, there're 4 subnets.
    - one subnet for jumpserver, the prefix is "pub_", 64 ips in total.
    - one subnet for db, the prefix is "db_", 256 ips in total.
    - one subnet for middleware, the the prefix is "mw_", 256 ips in total
    - one subnet for workload, the prefix is "wk_", 8192 ips in totial.
- totally 3 AZs.
- only one natgateway.
- a python based cdk project.

使用 Amazon Q 里的 Chat Window 里，输入上述提示词，Amazon Q 将会返回详细的代码建议，如下图所示。

可以看到 Amazon Q 可以很好地理解需求，并精准的计算出了每个子网的掩码，要知道在过去要做到这一点，开发者要自己去计算才能设计得出来。

开发者可以充分利用这种和 Amazon Q 的“交谈”机制，不断审视 Amazon Q 的输出，进而不断进行代码的修正/变更，往往这个交谈的过程会持续多次，直至最终形成比较满意的结果。

当反复交谈，得到了最终满足需要的提示词，即可在 Chat 窗口里输入/dev 并回车，使 Amazon Q 进入智能体模式，然后将上一个步骤的最终提示词输入后并回车，Amazon Q 将真正进行编码工作，在指定的目录里，创建出建议的 CDK 代码，如下图所示。

执行 cdk deploy 来进行代码部署，并打开控制台进行验证。如下图所示。

可以很清晰地看到，CDK 精准地创建了满足要求的资源。一个基本满足生产需要的 VPC 网络就这样搭建成功了。

结论

Amazon Q 仅用几轮自然语言对话，即可创建满足复杂要求的亚马逊云资源的创建要求，大大提升了工作效率。

构造 CDN（CloudFront + S3）

快速构造一个内容分发网络。

架构

需求描述

创建一个 S3 bucket（私有），作为静态资源存储，本例为一个文本文件。
创建 CloudFront，并配置源站为 S3。
用户通过输入 CloudFront distribution 的 URL，即可下载文本文件。

传统方法

全部操作都需要手工在控制台创建，不但繁琐而且容易出现错误，并且操作都是一次性的，无法再次复用。

现代方法

利用亚马逊云科技提供的 CDK 来创建 CloudFront 和 S3，并编写 CDK 代码来满足上述需求。但每个亚马逊云资源的 CDK 具体编写代码都有不同，需要翻阅开发文档，或者寻找类似的样例代码去进行修改、并需要反复调试，效率很低，费时费力。

Amazon Q Developer 的方式

用自然语言的方式，交代给 Amazon Q，让后者去处理所有细节，编写出准确、高效的 CDK 代码。

Amazon Q Developer 实践

用自然语言，将需求描述如下。

create a cloudfront, meeting below requirement:
- a S3 bucket as origin
- there's a test text file named abc.txt, being put in s3 bucket
- print full test url in the end of cdk deploy.

创建一个目录，例如 cf-s3，并使用 IDE（本例为 IntelliJ IDEA），对于本例，由于任务的复杂度比较低，所以可以尝试直接用/dev 功能（智能体），在 Amazon Q 里的 Chat Window 里，先键入/dev，然后输入上述提示词，如下图所示。

Amazon Q 将询问代码创建的位置，选择刚才新创建的目录后，点 Retry，Amazon Q 即开始工作，然后点 Accept all，即可创建一个标准的 CDK 工程，完整结构如下图所示。

可以看到 Amazon Q 很好地理解了需求，包括测试所需要的文本文件（含内容）都给创建好了! CDK 关键代码如下图所示。

执行 cdk deploy 来进行代码部署，如下图所示。

部署结束之后，CDK 打印出来了完整的测试所需要的 CloudFront distribution 的 URL，粘贴这个 URL 到浏览器中进行测试，如下图所示。

粘贴这个 URL 到浏览器中进行测试，如下图所示。

结论

寥寥几行描述，Amazon Q 便完成了内容分发网络的 CDK 代码编写。虽然这个用例相对简单，但用 Amazon Q 来实现，毫无疑问会更简单！

构造经典的 Amazon Serverless 后端应用

本例将展示在 Amazon Q 的助力之下，如何快速实现一个经典的 Amazon 无服务架构后端，该后端包含 APIGateway + Lambda + DynamoDB，且 APIGateway 上提供的 RestAPI 需要经过 Cognito 鉴权才能正常访问。

架构

需求描述

创建一个受到 Cognito 鉴权保护的 Amazon APIGateway。
Amazon APIGateway 对接 Amazon Lambda，后者来实现真正的业务需求。
创建一个 Docker Image 作为实际实现的 Amazon Lambda，并在代码中实现对 DynamoDB 的 CRUD 操作。
编写测试代码测试上述接口（模拟真实客户端的行为）。

传统方法

全部操作都需要手工在控制台创建，繁琐程度超过前两个用例所需总和的数倍，即使是经验丰富的亚马逊云的从业人士，也要花费很多时间来进行调整和验证。

Amazon Q Developer 的方式

用自然语言的方式交给 Amazon Q 来处理，简化所有流程，快速直达结果。

Amazon Q Developer 实践

用自然语言，将需求描述如下（请注意，本次提示词较上两次更加贴近于高层业务而非技术细节）。

requirements:
I need a suite of serverless application, includes:
1) apigateway, provides restapi, integration with lambda, requires integration with cognito.
2) a lambda function base on docker, as backend.
3) dynamodb is the storage.
4) a cdk project to deploy all of above components.
please create full framework code, in a well done project structure.

创建一个目录，例如 qdev，并使用 IDE（本例为 IntelliJ IDEA）尝试直接使用/dev 功能（智能体）——在 Amazon Q 里的 Chat Window 里，先键入/dev，然后输入上述提示词，如下图所示。

Amazon Q 将询问代码位置，选择刚才新创建的目录后，点 Retry，Amazon Q 即开始工作，然后点 Accept all，即可创建一个标准的 CDK 工程，完整结构如下图所示。

可以看到 Amazon Q 很好地理解了需求，完全依照要求创建出来了 CDK 工程，其中最关键的创建亚马逊云资源的代码如下图所示。

from aws_cdk import (
    Stack,
    aws_apigateway as apigateway,
    aws_lambda as lambda_,
    aws_dynamodb as dynamodb,
    aws_cognito as cognito,
    aws_iam as iam,
    Duration,
    RemovalPolicy
)
from constructs import Construct


class ApiStack(Stack):
    def __init__(self, scope: Construct, construct_id: str, **kwargs) -> None:
        super().__init__(scope, construct_id, **kwargs)

        # Create Cognito User Pool
        user_pool = cognito.UserPool(
            self, "UserPool",
            self_sign_up_enabled=True,
            auto_verify=cognito.AutoVerifiedAttrs(email=True),
            standard_attributes=cognito.StandardAttributes(
                email=cognito.StandardAttribute(required=True, mutable=True)
            )
        )

        # Create Cognito App Client
        client = user_pool.add_client("app-client",
            auth_flows=cognito.AuthFlow(user_password=True)
        )

        # Create DynamoDB table
        table = dynamodb.Table(
            self, "ItemsTable",
            partition_key=dynamodb.Attribute(
                name="id",
                type=dynamodb.AttributeType.STRING
            ),
            removal_policy=RemovalPolicy.DESTROY,
            billing_mode=dynamodb.BillingMode.PAY_PER_REQUEST
        )

        # Create Lambda function using Docker
        backend_function = lambda_.DockerImageFunction(
            self, "BackendFunction",
            code=lambda_.DockerImageCode.from_image_asset("./lambda"),
            memory_size=1024,
            timeout=Duration.seconds(30),
            architecture=lambda_.Architecture.ARM_64,
            environment={
                "DYNAMODB_TABLE": table.table_name
            }
        )

        backend_function.role.add_managed_policy(
            iam.ManagedPolicy.from_aws_managed_policy_name("AmazonBedrockFullAccess"))

        # Grant Lambda function permissions to access DynamoDB
        table.grant_read_write_data(backend_function)

        # Create API Gateway with Cognito Authorizer
        api = apigateway.RestApi(
            self, "ServerlessApi",
            rest_api_name="Serverless API",
            description="Serverless API with Cognito authentication"
        )

        authorizer = apigateway.CognitoUserPoolsAuthorizer(
            self, "ApiAuthorizer",
            cognito_user_pools=[user_pool]
        )

        api.root.add_method(
            "ANY",
            apigateway.LambdaIntegration(backend_function),
            authorizer=authorizer,
            authorization_type=apigateway.AuthorizationType.COGNITO
        )

        items = api.root.add_resource("items")
        items.add_method(
            "ANY",
            apigateway.LambdaIntegration(backend_function),
            authorizer=authorizer,
            authorization_type=apigateway.AuthorizationType.COGNITO
        )

        items.add_resource("{proxy+}").add_method(
            "ANY",
            apigateway.LambdaIntegration(backend_function),
            authorizer=authorizer,
            authorization_type=apigateway.AuthorizationType.COGNITO
        )

仔细阅读这段 CDK 代码，可以清晰地看到所有资源的创建，以及复杂的关联关系的建立，还有各种 IAM 授权，都被 Amazon Q 以 CDK 的形式处理得十分妥当，这无疑大大简化了开发者的负担。

另外，Amazon Q 还提供了关键的 Lambda 实现代码，甚至自动编写了测试用的一个叫做 items 的 RestAPI 作为样例，展示了完整的 CRUD 过程。如图所示。

执行 cdk deploy 来进行代码部署（过程与前两个例子一致，此处从略）。创建出来的资源如下图所示。

API Gateway 资源

受到 Cognito 保护的/items 接口

关联到 Lambda 作为后端

Docker Image 类型的 Lambda

为了方便测试，手动在 Cognito 里创建一个用户（模拟 signup）。进入对应的 Cognito UserPool 中，选择 User，点击“Create User”来创建用户，如下图所示。

创建用户成功后，效果如下图所示，请务必记录初始密码！测试程序第一次登录后会要求用这个密码来登录，且会要求修改密码，这个初始密码仅能用一次。

还要对 App Client 的鉴权方式进行一下配置，调整 Authentication flows 的选项，如下图所示。

在 CDK 工程中，创建一个 tests 的目录，再次使用 Amazon Q，编写测试代码，来模拟从鉴权，到调用所有 API 的全部过程。提示词如下。

requirements:
accroding to this cdk project, please write a python test application which includes:
1) auth congnito user pool (handle password challege is required) and get/print the id token.
2) use id token to auth apigateway, test /items rest apis

Amazon Q Developer 将创建如下代码。

import boto3
import os
import requests
from botocore.exceptions import ClientError

def check_pro_status(custom_attrs):
    """Check if user is pro and return paid status"""
    try:
        # Check if custom:pro exists and its value
        if 'custom:pro' not in custom_attrs:
            paid = False
        else:
            paid = custom_attrs['custom:pro'].lower() == 'yes'

        return {
            'paid': paid,
            'custom_attributes': custom_attrs
        }

    except Exception as e:
        print(f"Error checking pro status: {e}")
        raise


def test_api_with_cognito_auth():
    # First get the Cognito access token
    # Initialize Cognito Identity Provider client
    cognito_idp = boto3.client('cognito-idp')
    
    # Replace these with your actual values
    USER_POOL_ID = os.getenv('COGNITO_USER_POOL_ID')
    CLIENT_ID = os.getenv('COGNITO_CLIENT_ID')
    USERNAME = os.getenv('COGNITO_USERNAME')
    PASSWORD = os.getenv('COGNITO_PASSWORD')
    
    try:
        # Attempt to authenticate
        auth_response = cognito_idp.initiate_auth(
            AuthFlow='USER_PASSWORD_AUTH',
            ClientId=CLIENT_ID,
            AuthParameters={
                'USERNAME': USERNAME,
                'PASSWORD': PASSWORD
            }
        )
        
        # Check if password needs to be changed
        if auth_response.get('ChallengeName') == 'NEW_PASSWORD_REQUIRED':
            print("Password change required...")
            
            # Respond to the challenge with a new password
            new_password = 'NewPassword123!'  # Replace with desired new password
            challenge_response = cognito_idp.respond_to_auth_challenge(
                ClientId=CLIENT_ID,
                ChallengeName='NEW_PASSWORD_REQUIRED',
                Session=auth_response['Session'],
                ChallengeResponses={
                    'USERNAME': USERNAME,
                    'NEW_PASSWORD': new_password
                }
            )
            
            # Get the tokens from the challenge response
            tokens = challenge_response['AuthenticationResult']
            access_token = tokens['AccessToken']
            print("Password changed successfully!")
            
        else:
            # Get the tokens from the initial auth response
            tokens = auth_response['AuthenticationResult']
            access_token = tokens['AccessToken']
            id_token = tokens['IdToken']
        
        print(f"Access Token: {access_token}")
        print(f"ID Token: {id_token}")
        #create a new function to get custome attributes
        response = cognito_idp.get_user(
            AccessToken=access_token
        )
        pro = False
        custom_attrs = response['UserAttributes']
        if 'custom:pro' not in custom_attrs:
            pro = False
        else:
            pro = custom_attrs['custom:pro'].lower() == 'yes'

        if pro:
            print("User is pro")
        else:
            print("User is not pro")
        
        # Now use the access token to call the API
        api_url = os.getenv('API_ENDPOINT')
        headers = {
            'Content-Type': 'application/json'
        }
        headers = {
            'Authorization': f'Bearer {access_token}',
            'Content-Type': 'application/json'
        }
        headers = {
            'Authorization': f'Bearer {id_token}',
            'Content-Type': 'application/json'
        }
        # Test GET /items endpoint
        response = requests.get(f"{api_url}/items", headers=headers)
        assert response.status_code == 200
        items = response.json().get('items', [])
        assert isinstance(items, list)
        
        # Test POST /items endpoint
        test_item = {
            "id": "test-item-1",
            "name": "Test Item",
            "description": "This is a test item"
        }
        response = requests.post(f"{api_url}/items", headers=headers, json=test_item)
        assert response.status_code == 200
        assert response.json()['message'] == "Item created"
        
        # Test GET /items/<id> endpoint
        response = requests.get(f"{api_url}/items/test-item-1", headers=headers)
        assert response.status_code == 200
        assert response.json()['id'] == "test-item-1"
        
        # Test PUT /items/<id> endpoint
        updated_item = {
            "name": "Updated Test Item",
            "description": "This is an updated test item"
        }
        response = requests.put(f"{api_url}/items/test-item-1", headers=headers, json=updated_item)
        assert response.status_code == 200
        assert response.json()['message'] == "Item updated"
        
        # Test DELETE /items/<id> endpoint
        response = requests.delete(f"{api_url}/items/test-item-1", headers=headers)
        assert response.status_code == 200
        assert response.json()['message'] == "Item deleted"
        print(response.status_code)
        print(response.json())

    except ClientError as e:
        print(f"Authentication error: {str(e)}")
        raise

if __name__ == '__main__':
    test_api_with_cognito_auth()

浏览代码，可以观察到 Amazon Q Developer 非常完美地进行了 Cognito UserPool 的鉴权，甚至可以在第一次运行，需要修改密码的场景，会提示用户修改密码，大大节约了常规调试同样功能所需要的时间开销。

运行测试代码，观察结果（从略）。

结论

开发者利用 Amazon Q Developer 的强大能力，前后仅需 10 几行自然语言描述，即可完成相当复杂的 Serverless 资源创建和配置，并可以帮助开发者轻松编写测试代码验证业务接口的可用性，对工作效率的提升，令人叹为观止。

最后

本文以创建/维护亚马逊云资源作为主要内容，提供了简单易懂、图文并茂的实际代码用例，对 AmazonQ Develop 如何能够加速亚马逊云资源开发的具体操作过程进行了详细描述。

本篇作者

本期最新实验为《Agentic AI 帮你做应用 —— 从0到1打造自己的智能番茄钟》
✨ 自然语言玩转命令行，10分钟帮你构建应用，1小时搞定新功能拓展、测试优化、文档注释和部署
💪 免费体验企业级 AI 开发工具，质量+安全全掌控
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

大语言模型助力 Support Case 分析，提升云服务效率

2025-04-22T09:17:14+08:00

1. 背景

技术工单（Support Case）是企业在进行云平台操作的时候通常会用到的一种技术支持类型，提供的技术支持通常包括所有的云服务的使用问题、账单问题、限制额度提升等等。对于云平台的管理者而言，对各个 BU 所提的工单进行统计管理和分类，可以更好地追踪各个 BU 的服务使用情况、大家的知识短板、责任划分等等，并且将分析结果实施呈现在 BI 报表中，方便云平台团队更好地对大家进行功能辅助。

2. 整理和分析技术支持工单的意义

识别常见问题：通过分析大量案例，可以发现哪些问题最常见，帮助团队针对这些问题提供更好的文档支持或改进服务。
知识库建设：将解决问题的方法和经验记录下来，形成企业内部知识库，以便在未来遇到类似问题时能够快速找到解决方案。
制定培训计划：如果分析发现某些问题频繁出现，可以为支持团队制定针对性的培训计划，提升团队的技术水平。
报告与决策支持：总结分析的结果可以用于内部报告，支持管理层的决策，尤其是在资源分配和服务策略调整方面。
预测未来需求：通过分析过去的工单，可以预测未来可能出现的需求或问题，提前准备资源和解决方案。

3. 解决方案概述

架构图：

组件描述：

Amazon EventBridge 定时触发 Amazon Lambda，可以在一周、一个月甚至更长的时间内进行 Lambda 的定时触发，通过 Support API（至少需要订阅商业级支持）进行 Support Case 的整理工作。
Lambda 中的代码将提取 Support Case 的列表和具体内容，并将以 csv 格式存储到 Amazon S3 桶，形成当前周期 Support Case 的列表文件。
S3 上新增的 Support Case 文件将触发一个新的 Lambda，该 Lambda 将会执行大语言模型的调用工作。
Lambda 将调用 Amazon Sagemaker（中国区）或者 Amazon Bedrock（海外区）进行 Support Case 的根因分析。
分析好的根因可以发送到 Amazon QuickSight Dashboard 进行可视化展示和分析。

4. 部署说明

1、对于订阅了企业级和准企业级支持的客户，可以直接联系您的 TAM 来完成 Support Case 整理工作. 商业级支持的客户可通过 Support API 拉取最近的 Support Case，将 Case 的元数据直接生成 csv 存到 S3，每个 Case 的回复内容整理成以 Case 命名的 txt 文件存到 S3。示例代码如下：

import boto3
from datetime import datetime, timedelta
import pandas as pd
import io
bucket_name = 'support-case-blog'
date = datetime.now().strftime("%Y-%m")

# support api ak/sk
aws_access_key_id = "ak"
aws_access_key_id = "sk"

# s3 bucket ak/sk
aws_access_key_id1 = "ak1"
aws_access_key_id1 = "sk1"

session = boto3.Session(
    aws_access_key_id=aws_access_key_id,
    aws_secret_access_key=aws_secret_access_key,
    region_name='cn-north-1'
)

session1 = boto3.Session(
    aws_access_key_id=aws_access_key_id1,
    aws_secret_access_key=aws_secret_access_key1,
    region_name='cn-north-1'
)

s3_client = session1.client('s3')
# 创建support客户端
support_client = session.client('support')

# 计算2年前的日期
two_years_ago = datetime.now() - timedelta(days=730)

# 设置过滤器
filters = [
    {
        'name': 'AfterTime',
        'values': [
            two_years_ago.strftime('%Y-%m-%dT%H:%M:%SZ')
        ]
    }
]

# 获取案例列表

def get_cases():
    cases = []
    next_token = ''
    while True:
        if next_token:
            response = support_client.describe_cases(
                includeCommunications=True,
                includeResolvedCases=True,
                afterTime=two_years_ago.strftime('%Y-%m-%dT%H:%M:%SZ'),
                nextToken=next_token
            )
        else:
            response = support_client.describe_cases(
                includeCommunications=True,
                includeResolvedCases=True,
                afterTime=two_years_ago.strftime('%Y-%m-%dT%H:%M:%SZ')
            )
        cases.extend(response['cases'])
        if 'nextToken' in response:
            next_token = response['nextToken']
        else:
            break
    return cases

def get_communications(caseId):
    communications = []
    next_token = ''
    while True:
        if next_token:
            response = support_client.describe_communications(
                caseId = caseId,
                afterTime=two_years_ago.strftime('%Y-%m-%dT%H:%M:%SZ'),
                nextToken=next_token
            )
        else:
            response = support_client.describe_communications(
                caseId = caseId,
                afterTime=two_years_ago.strftime('%Y-%m-%dT%H:%M:%SZ'),
            )
        communications.extend(response['communications'])
        if 'nextToken' in response:
            next_token = response['nextToken']
        else:
            break
    return communications

# 创建一个空的list
data = []
cases = get_cases()

# 遍历每个案例并将数据添加到列表中
for case in cases:
    communications = get_communications(case['caseId'])
    # 将当前case里面的所有案例回复整理到一个以case号命名的txt文件， 并上传到s3
    replies = '\n'.join(comm['body'] for comm in communications)
    s3_client.put_object(Body = replies.encode('utf-8'), 
                         Bucket=bucket_name, 
                         Key = date + '/repies/' + case['displayId'] + '.txt')
    data.append({
        'displayId': case['displayId'],
        'subject': case['subject'],
        'submittedBy':  communications[-1]['submittedBy'],
        'timeCreated': case['timeCreated'],
        'severityCode': case['severityCode'],
        'serviceCode': case['serviceCode'],
        'categoryCode': case['categoryCode']
    })

# 创建DataFrame
df = pd.DataFrame(data)
csv_bytes = df.to_csv(None).encode()
s3_client.put_object(
    Bucket = bucket_name,
    Key = date + '/' + date + '.csv',
    Body = csv_bytes
)

2、代码运行后 S3 桶里面对应的 prefix 下面会有一个包含所有 case 元数据的 csv 文件和以 case 号命名的 txt 文件，包含所有的 case 回复信息。如下图所示：

3、收集到 Case 内容后，对于中国区的用户可以利用 SageMaker 上部署的大语言模型的能力，帮我们总结 Case 的内容，对于海外区的用户可以通过调用 Bedrock 来总结。例如 Case 里描述发生的问题，最终定位到的 Root Cause，以及对 Case 做一个分类（工程师对服务不熟悉导致的配置错误/对服务相关特性的咨询/亚马逊云科技底层故障/提限相关/服务本身限制等）。示例代码如下：

import boto3
from datetime import datetime, timedelta
import pandas as pd
from transformers import AutoTokenizer
import sagemaker
import json
import os
from sagemaker import Model, image_uris, serializers, deserializers

# 创建Sagemaker Client
sagemaker_client = boto3.client(
    'sagemaker-runtime',
     aws_access_key_id=aws_access_key_id,
     aws_secret_access_key=aws_secret_access_key,
     region_name=aws_region
)

# 创建S3 Client
session1 = boto3.Session(
    aws_access_key_id=aws_access_key_id1,
    aws_secret_access_key=aws_secret_access_key1,
    region_name=aws_region
)
s3 = session1.client('s3')

import os
bucket_name = 'support-case-blog'
prefix = '2024-09/'

# 创建本地目录存储下载的文件
local_dir = 'cases'
os.makedirs(local_dir, exist_ok=True)

# 列出具有指定前缀的对象
response = s3.list_objects(Bucket=bucket_name, Prefix=prefix)

# 下载所有回复到本地
for obj in response.get('Contents', []):
    key = obj['Key']
    if key.startswith(prefix):
        local_path = os.path.join(local_dir, key[len(prefix):])
        print(f'Downloading {key} to {local_path}')
        try:
            s3.download_file(bucket_name, key, local_path)
        except Exception as e:
            print(f'Error downloading {key}: {e}')

print('Download complete')

# 设置超参
parameters = {
    "max_new_tokens": 8192,
    "do_sample": True,
    "top_p": 0.9,
    "temperature": 0.1,
    
    #"max_token": 400,
    #"do_sample": True,
    #"top_p": 0.7,
    #"temperature": 0.7,
    #"top_k": 50,

}

contentType = "application/json"
endpoint_name = "endpoint_name"
# 定义prompt
prompt_start = """

任务定义：
下面给你一些"已知信息"，"已知信息"是一个AWS 的support case通常会包含通常会包含"case ID:", "问题描述"，"问题分析"，"问题反馈"，"解决方案"等。请分析输入的case，
对case输出一个100字以内的总结， 发生了什么问题，根本原因是什么，是配置错误还是aws服务故障等
已知信息："

"""

prompt_end = """
"
输出要求：
对case输出一个简单的总结，包括 caseID, 问题总结，根本原因，问题归类：配置错误/服务故障/咨询 三类
每个字段只用一句话表达，不可以带“,”号
请将数据以用；以CSV格式返回：

样例输出
1111111111111,用户需求误解,主备概念混淆,配置错误
2222222222222,EBS卷挂载失败,数据卷故障,服务故障
33333333333333,数据库实例升级安排与沟通,咨询

"""

#创建 invoke 函数

endpoint_name = 'endpointname'
model_snapshot_path = "model_snapshot_path"
tokenizer = AutoTokenizer.from_pretrained(model_snapshot_path, use_fast=False)
sagemaker_session = sagemaker.Session()
predictor = sagemaker.Predictor(
    endpoint_name=endpoint_name,
    sagemaker_session=sagemaker_session,
    serializer=serializers.JSONSerializer(),
)

def invoke_mixtral(user_prompt):
    messages = [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": user_prompt}
    ]

    inputs = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    response = predictor.predict(
        {
            "inputs": inputs,
             "parameters": {
                "max_new_tokens":8192,
                "do_sample":True,
                "temperature":0.01,
                }
        }
    )
    text = json.loads(str(response, 'utf-8'))
    return text["generated_text"]

print(invoke_mixtral("hello"))

#调用sagemaker，获取case总结

file_path = 'cases/repies'
summary_path = 'cases/summaries'
files = []
summary = []
with os.scandir(file_path) as entries:
    # 筛选出文件，按文件大小排序（从大到小）
    sorted_files = sorted(
        (entry for entry in entries if entry.is_file()),
        key=os.path.getsize)

    # 打印排序后的文件列表及其大小
    for file in sorted_files:
       files.append(file.name)

for file in files:
    case_id = file.split(".")[0]
    with open(file_path + '/' + file, 'r') as file:
        content = file.read()
        prompt = prompt_start + content + prompt_end
        response = ""
        answer = None
        try:
            answer = invoke_mixtra(prompt)
            output = summary_path + case_id +'.txt'
            with open(output, 'w', encoding='utf-8') as file1:
                file1.write(answer)
            print(answer)
        except Exception as e:
            print(response, e)

#调用Bedrock，获取case总结           
# 创建 Bedrock 客户端
client = boto3.client("bedrock-runtime", region_name="us-east-1")
# 设置模型 ID
model_id = "anthropic.claude-3-sonnet-20240229-v1:0"

for file in files:
    case_id = file.split(".")[0]
    with open(file_path + '/' + file, 'r') as file:
        content = file.read()
        prompt = f"{prompt_start}{content}\ncase ID:{case_id}{prompt_end}"
    # 设置请求参数
        request = {
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 8192,
            #"top_p": 0.9,
            "temperature": 0.1,
            "messages": [
                {
                    "role": "user",
                    "content": [{"type": "text", "text": prompt}],
                }
            ],
        }
        
        try:
            # 调用模型并处理响应
            response = client.invoke_model(modelId=model_id, body=json.dumps(request))
            model_response = json.loads(response["body"].read())
            response_text = model_response["content"][0]["text"]
            # 格式化输出
            print(f"{response_text}")
        except (ClientError, Exception) as e:
            print(f"ERROR: Can't invoke '{model_id}'. Reason: {e}")
            continue

4、模型总结后的 case 如下图：

5. QuickSight 展示结果

通过上述方法，我们会得到 2 个 csv 文件，一个包含所有 Support Case 的元数据信息，一个包含所有 Support Case 的总结结果。这里，我们模拟了 200 个 case 的数据，生成了 2 个 csv。将这 2 个 csv 作为数据源导入 QuickSight 后，我们可以对这些数据进行展示和分析。

1、在 QuickSight 数据，选择刚才导入的数据集，并把问题归类作为分类字段，视觉类型选择饼图，可以对 case 按问题归类分类。例如统计数据是配置错误类 67 个，服务故障类 67 个，咨询类 66 个，可以看到如下 3 类 Case 的占比情况：

2、按 ServiceCode 进行分类，筛选中筛选出配置错误的 case 类别，可以看到工程师主要是对哪些服务不熟悉导致有配置错误。例如配置错误的 case 里面 Amazon EC2 18 个，S3 18 个，Amazon EMR 13 个，Amazon Relational Database Service（Amazon RDS） 13 个， Amazon Elastic Kubernetes Service（Amazon EKS） 5 个。可以得到下图：

3、继续筛选出对应的服务，比如 EMR，按照 submittedBy 字段分类，可以看到哪些部门的人对相应的服务配置错误较多，可对不同团队提供针对性的培训。例如这里筛选出对 EMR 不大熟悉的 xiaoming 和 lisi，可以针对他们所在的部门进行 EMR 的培训。

6. 成本

以北京区（cn-north-1）每个月分析 100 个 Case 为例：

5MB 左右的存储空间（按 1GB S3 Standard 计算） + 100 次 PUT 请求 + 100 次 GET 请求

单价：每 GB ¥ 0.195，每 1000 个 PUT 请求 ¥ 0.0045，每 10000 个 GET 请求 ¥ 0.015

Amazon S3 价格参考

EventBridge

每月 1 次自定义事件

单价：每 100 万个发布的自定义事件 ¥6.75

Amazon EventBridge 价格参考

Lambda

每月 2 次请求 + 每次 10 分钟运行时间（X86, 128MB 内存）

单价：每个请求 ¥0.00000136，每 1 毫秒运行 ¥0.0000000142

Amazon Lambda 价格参考

QuickSight

1 个作者 + 5 个会话

单价：作者每月 ¥161.52，读者每个会话每月 ¥2.02

Amazon QuickSight 价格参考

SageMaker

建议复用现有的 Endpoint

Amazon SageMaker 价格参考

海外区同理：

Bedrock（us-east-1）

每月 100 万 Input Token + 20 万 Output Token

单价：Claude 3.5 Sonnet，每 1000 个 Input Token 的价格 $0.003，每 1000 个 Output Token 的价格 $0.015

Amazon Pricing Calculator

具体费用列表如下：

7. 总结

利用大语言模型整理技术工单（Support Case）具有显著价值，可通过分析大量案例识别常见问题、建立知识库、制定培训计划、支持决策及预测需求。方案采用 EventBridge 定时触发 Lambda 函数，通过 Support API 整理工单数据，将其存储至 S3，利用 SageMaker 或 Bedrock 进行分析，分类问题类型并生成总结报告。分析结果可在 QuickSight 上展示，支持企业优化资源分配和服务策略。该解决方案架构清晰、成本低廉，为企业提供高效的技术支持工单管理与分析能力。

8. 参考链接

[1] https://docs.aws.amazon.com/zh_cn/code-library/latest/ug/python_3_bedrock-runtime_code_examples.html

[2] https://dev.amazoncloud.cn/column/article/65eb00090543436a639bbac6

9. 补充信息

企业支持计划

企业支持计划可为在亚马逊云科技上运行关键业务/任务型工作负载的客户以及符合以下条件的任何客户提供资源：

专注于通过主动式管理提高效率和可用性；
按照最佳实践制定架构完善且运作良好的解决方案；
利用亚马逊云科技专业知识为启动和迁移提供支持。

技术客户经理（TAM）

对于企业级客户，TAM 具有亚马逊云科技全部服务的专业技术知识，并且详细了解您的使用案例和技术架构。TAM 与亚马逊云科技解决方案架构师共同协作，帮您启动新项目，并在整个实施生命周期中提供最佳实践建议。TAM 将担任您的主要联系人，满足您的持续支持需求，您可以与 TAM 直接电话联系。

本篇作者

本期最新实验为《大模型选型实战 —— 基于Amazon Bedrock测评对比和挑选最合适业务的大模型》
✨ 立即解锁当下最火爆的AI大模型，带你零基础玩转 DeepSeek、Nova 等顶尖大预言模型。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！🚀

基于亚马逊云科技 Amazon Bedrock Tool Use 实现 Generative UI

2025-04-21T11:54:13+08:00

背景

在当前 AI 应用开发浪潮中，越来越多的开发者专注于构建基于大语言模型（LLM）的 chatbot 和 AI Agent。然而，传统的纯文本对话形式存在局限性，无法为用户提供足够直观和丰富的交互体验。为了增强用户体验，开发者们开始探索在对话界面中动态插入 UI 组件的解决方案。

虽然 LLM 具备生成 HTML/CSS 代码的能力，但这种方式往往缺乏标准化和可靠性，生成的代码质量参差不齐，难以维护和复用。特别是在企业级应用中，我们需要确保生成的 UI 组件符合既定的设计规范和技术标准。

因此，一个更优的方案是利用 LLM 的 Tool Use（工具调用）能力，通过预定义的函数接口来生成标准化的 Web 前端组件。这种方法不仅能确保组件的质量和一致性，还能够更好地与现有的前端框架和组件库进行集成。本文将探讨如何基于 Amazon Bedrock 的 Tool Use 功能来实现这一目标，构建可靠、可复用的生成式 UI 解决方案。

传统方法的局限性

在传统的 LLM 生成 UI 实践中，直接让模型生成 HTML/CSS 代码存在诸多挑战：

输出的不确定性

生成代码的质量不稳定，可能会出现语法错误导致的 HTML 无法正确渲染；
同样的自然语言输入描述可能产生完全不同的输出样式；
浏览器直接渲染 LLM 输出的代码存在安全性问题。

工程化问题

难以与现代前端工程体系深度整合；
组件复用性差，无法建立统一的设计规范；
无法高效利用成熟的组件库（如 Ant Design、MUI 以及 Shadcn 等）。

生态系统割裂

无法高效利用成熟的组件库（如 Ant Design、Material-UI）；
样式系统难以统一，影响产品设计一致性；
缺乏与现代构建工具和开发流程的无缝衔接。

Tool Use 方案概述

基于 Tool Use 的 UI 生成方案提供了一个更加结构化和可控的解决方案：

核心架构

预定义标准化组件接口，形成可调用的组件集合；
通过 JSON Schema 严格约束组件结构和属性，并允许组件嵌套组件的方式；
采用递归组合模式构建复杂的组件树。

工作流程

用户输入 → LLM 解析需求 → 组件选择与组合 → 生成 JSON 组件树 → 前端渲染

技术优势

可靠性：从 LLM 直接生成代码转换为 LLM 选择组件再组合，确保生成可预期的结果。
可维护性：标准化的组件定义便于统一管理和更新。
扩展性：易于整合新的组件。
安全性：LLM 只输出 JSON 组件树，浏览器端不需要直接渲染 HTML，提高安全性。

生态整合

无缝对接现有组件库；
支持主题定制和样式覆盖，比如通过 Tailwind 等方式，主题样式可复用；
便于引入状态管理和数据流方案，比如可以动态生成 Checkout 组件等完成交易类操作行为。

实现方案详解

本方案的实现主要包含两个核心部分：组件工具定义和前端渲染实现。让我们深入了解每个部分的具体实现细节。

组件工具定义

我们将生成 UI 组件抽象成 LLM 可用的 1 个工具，基于 Tool Use JSON Schema 来定义组件生成工具，这种方式具有以下优势：

支持组件的递归嵌套
确保生成的组件结构符合预期

const generateUI = {
  name: 'generateUI',
  description: 'Generate UI components dynamically to display data only when user ask you to render a UI component based on the data user provided. If other tool already used, you dont have to use this tool to generate component.',
  input_schema: {
    type: 'object',
    properties: {
      component: {
        anyOf: [
          { $ref: '#/$defs/CardList' },
          { $ref: '#/$defs/Email' },
          { $ref: '#/$defs/ProductCard' },
          { $ref: '#/$defs/Table' }
        ]
      }
    },
    required: ['component'],
    $defs: {
      component: {
        anyOf: [
          { $ref: '#/$defs/CardList' },
          { $ref: '#/$defs/Email' },
          { $ref: '#/$defs/ProductCard' },
          { $ref: '#/$defs/Table' }
        ]
      },
      CardList: {
        type: 'object',
        description: 'Vertical Card List component.',
        properties: {
          name: { type: 'string', enum: ['CardList'] },
          children: { type: 'array', items: { $ref: '#/$defs/component'}}
        },
        required: ['name', 'children']
      },
      Email: {
        type: 'object',
        properties: {
          name: { type: 'string', enum: ['Email'] },
          to: { type: 'string', description: 'Email sent to address' },
          from: { type: 'string', description: 'Email sent from address' },
          subject: { type: 'string', description: 'Email subject' },
          html: { type: 'string', description: 'Email content in html format' },
        },
        required: ['name', 'to', 'from', 'subject', 'html']
      },
      ProductCard: {
        type: 'object',
        properties: {
          name: { type: 'string', enum: ['ProductCard'] },
          image: { type: 'string', description: 'Product image url' },
          title: { type: 'string', description: 'Product title' },
          price: { type: 'string', description: 'Product price, including currency symbol (e.g., $
20 €15 ¥100' },
          description: { type: 'string', description: 'Product description' },
        },
        required: ['name', 'image', 'title', 'price', 'description']
      },
      Table: {
        type: 'object',
        properties: {
          name: { type: 'string', enum: ['Table'] },
          headers: {
            type: 'array',
            items: { type: 'string', description: 'Table headers'}
          },
          rows: {
            type: 'array',
            items: { type: 'array', items: { type: 'string', description: 'Each column value based on headers'}},
            description: 'Each row'
          }
        },
        required: ['name', 'headers', 'rows']
      }
    }
  }
}

组件定义中包含了几种常用的 UI 组件类型：

CardList：用于垂直展示卡片列表
Email：邮件展示组件
ProductCard：商品卡片组件
Table：表格组件

每个组件都定义了必要的属性和类型约束，确保生成的 JSON 数据结构的完整性。

前端渲染实现

前端渲染层采用了组件映射和递归渲染的方案，实现了灵活的组件树构建：

const componentMap = {
  Email: Email,
  CardList: CardList,
  ProductCard: ProductCard,
  HorizontalScrollArea: HorizontalScrollArea,
  Table: TableComponent
}

const renderComponent = (component) => {
  const { name, children = [], ...props } = component
  if (name) {
    return React.createElement(
      componentMap[name],
      props,
      ...children.map(item => renderComponent(item))
    )
  }
}

组件映射：通过 componentMap 建立组件名称到实际组件的映射关系。
属性传递：确保组件属性被正确传递到对应的 React 组件。
递归渲染：支持任意深度的组件嵌套结构。
动态创建：使用 createElement 动态构建组件树。

LLM 输出示例

比如输入包含了商品信息，并且 Agent 应用决策需要渲染组件，那么输出如下，这个组件树可在前端动态渲染。

const uiTree = {
  name: 'CardList',
  children: [{
    name: 'ProductCard',
    image: 'product1.jpg',
    title: 'Product 1',
    price: '$99.99',
    description: 'Amazing product'
  }, {
    name: 'ProductCard',
    image: 'product2.jpg',
    title: 'Product 2',
    price: '$149.99',
    description: 'Another great product'
  }]
}

示例应用场景

动态生成 Table

电商商品推荐，生成商品列表

生成 DSL

通过 Tool Use 的 JSON Schema 实现组件生成，实际上揭示了一种可能更普遍的模式：利用结构化模式定义来约束和引导 LLM 的输出。这种方法本质上是在设计一套领域特定语言（DSL），它不仅仅局限于工具调用，更是在 LLM 和下游系统之间构建了一层可靠的抽象桥梁。

这种抽象模式具有以下优势：

输出可控性

通过 Schema 约束确保输出格式符合预期；
降低解析和验证的复杂度；
提供类型安全和结构化保证。

系统解耦

LLM 不需要了解下游系统的具体实现细节；
下游系统可以独立演进而不影响 LLM 调用层；
便于在 LLM 和系统之间添加中间件层（如验证、转换、日志等）。

应用场景扩展除了 UI 组件生成，这种模式可以扩展到多个领域：

数据查询：将自然语言转换为结构化查询语言（比如 GraphQL 或自定义查询 DSL），尤其是 text2sql 场景，LLM 生成的 SQL 直接运行查询并不可靠，而且还需要做额外的提示词工程来规避不同计算引擎 SQL 语法兼容性的问题；
工作流编排：通过 JSON 描述任务流程和依赖关系；
配置生成：为复杂系统生成规范化的配置文件。

安全性增强

避免直接执行 LLM 生成的代码；
提供验证和净化的中间层；
实现细粒度的权限控制和行为约束。

实践建议：

抽象层设计

保持简单，避免过度抽象，当 1 个 Tool 的 schema 定义过于复杂的时候，适当考虑拆分 Tool；
预留扩展空间。

验证机制

实现严格的 Schema 验证；
添加运行时类型检查。

这种基于 Schema 的抽象模式正在成为 AI 原生应用开发中的一种最佳实践。它不仅提供了一种规范化的方式来处理 LLM 输出，更为构建可靠、可维护的 AI 系统提供了重要的架构基础。随着 AI 应用的不断发展，这种模式将在更广泛的场景中发挥作用，帮助开发者构建更加健壮和可扩展的 AI Agent 系统。

本篇作者

本期最新实验为《大模型选型实战 —— 基于Amazon Bedrock测评对比和挑选最合适业务的大模型》
✨ 立即解锁当下最火爆的AI大模型，带你零基础玩转 DeepSeek、Nova 等顶尖大预言模型。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！🚀

相得益彰 — 基于 GraphRAG 事理图谱驱动的实时金融行情新闻资讯洞察

2025-04-20T10:38:12+08:00

*本文为亚马逊云科技博客文章，仅用于技术分享，不构成投资建议或金融决策支持。文中涉及的公司名称仅用于技术示例，不代表 AWS 观点或与这些公司的商业合作关系。

背景介绍

在当今这个信息爆炸的时代，金融市场每天都在产生海量的新闻资讯。这些新闻不仅仅是简单的信息，更蕴含着丰富的企业动态、行业变化和潜在风险信号。一则新闻背后往往隐藏着复杂的事件链条——一家公司的高管变动可能与其新业务布局相关，而这个业务转型又可能暗示着财务状况以及股市的变化。

信息大爆炸的时代，新闻资讯对金融市场的影响力日渐加强。每一个投资者每天都需要关注大量的各类金融信息。对于金融投资机构而言，如何对海量资讯进行有效分析，提供更准确的投资决策辅助，从而增加自身金融服务的价值，提高用户粘性，也是一个亟待解决的问题。

面对庞大的信息流，传统的人工分析方式早已力不从心。为了有效地捕捉和分析这些复杂的关联信息，我们需要一个智能化的解决方案。本文针对金融市场新闻资讯分析的场景，提出基于 LLM+GraphRAG 的解决方案，通过 LLM 对新闻资讯进行分析，提取图数据的三元组信息（实体-关系-实体），并存储于图数据库中。在进行知识问答时，从知识图谱中检索相关联的内容，转化为更丰富的上下文的信息提供给 LLM，以提高针对复杂金融资讯场景的智能知识问答的准确度。

需求分析

对金融资讯进行分析的目的在于全面了解金融市场及特定投资标的的动态，尤其是某些重要事件，判断其对金融市场的影响，从而做出不同的投资决策。因此，核心的需求集中在三点：一是信息覆盖的范围必须广，需要涵盖整个市场的主要资讯；二是针对特定投资标的，需要识别事件的重要性，适当剔除对投资标的行情影响不大的信息，且可以按照重要性进行排序；三是需要识别出新闻资讯与投资标的的关系，与投资标的进行关联，以辅助用户针对投资标的进行分析。在具体的落地方案上，可以通过智能应答机器人，为用户提供金融市场投资的辅助分析，基于用户的问题将新闻资讯的分析结果整合并答复用户。

GenAI 和知识图谱的结合：构建可信、可解释的 GraphRAG

在人工智能快速发展的今天，大语言模型（Large Language Model, LLM）凭借其强大的参数量和海量的训练数据，展现出了优秀的自然语言理解和生成能力。然而，作为一个隐式生成模型，LLM 也面临着“幻觉”问题和可解释性不足的挑战。为了克服这些局限性，业界普遍采用 Retrieval Augmented Generation（RAG）技术。RAG 通过检索相关文档片段来为模型提供知识支撑，提升回答的准确性。但在处理复杂的综合性问题时，传统 RAG 方法也显得力不从心，因为它难以有效地连接和整合来自多个文档的知识。

知识图谱（Knowledge Graph）是通过图结构来组织和展现知识关联，它将实体（如企业、人物、产品）作为节点，实体间的各种关系作为边，构建成一张信息网络。这种结构不仅能直观地展现数据间的关联性，还具备极强的可解释性。然而，知识图谱的构建因场景而异 – 企业风控领域关注公司关联关系，旅游服务领域侧重地理景点连接，医疗领域则构建疾病症状知识网络，每个领域都需要根据其特定需求来设计和构建适合的知识结构。

将 GenAI 与知识图谱结合，我们可以实现双向赋能：

利用大模型的自然语言处理能力，辅助知识图谱的自动构建。
借助知识图谱的结构化信息，增强 RAG 系统处理复杂关联性问题的能力。

这种结合让我们能够构建一个既有 AI 效率，又有知识图谱可解释性的智能系统。通过将散落在不同新闻报道中的信息片段进行智能提取和关联，我们构建了一个动态演进的知识图谱。这个知识图谱不仅能够清晰地展现近期企业发展动态，更能够为信用风险分析提供数据支撑，帮助分析师快速识别潜在的风险信号。

技术方案

事理图谱的构建

为了构建一个全面的企业事理图谱，我们首先定义了金融领域的核心实体类型和关系类型。在实体层面，我们关注五类关键实体：企业（Organization）、事件（Event）、时间（Date）、人物（Person）和产品（Product）。这些实体构成了图谱的基础节点。

在关系层面，我们构建了一个多维度的关系网络，以捕捉企业生态系统中的复杂互动：

企业间关系：刻画企业之间的竞争、合作、投资等互动
人事关系：追踪企业与人物之间的雇佣、任职变动等关联
事件关联：记录企业参与的各类事件，以及事件之间的时序关系

为了确保实体和关系抽取的准确性，我们采用了 Claude Sonnet 3.5 大语言模型作为核心引擎。Claude 通过深度语义理解，从新闻文本中识别实体并判断其关系类型。这种方式相比传统的规则基础方法，能够更好地理解文本中的隐含关系和上下文信息。

经过处理的实体和关系数据最终被存储在 Amazon Neptune 图数据库中，形成一个动态更新的知识网络。Neptune 的图数据库特性为我们提供了高效的图查询能力，使得我们能够快速追踪企业发展脉络，发现潜在的风险信号。这个事理图谱不仅记录了静态的企业知识，更重要的是通过事件和时序关系的刻画，展现了企业发展的动态过程，为后续的风险分析提供了可靠的数据基础。

我们选取了一些 LLM 进行抽取实体之后的输出作为展示：

有了 LLM 抽取出来的实体信息并且梳理了实体之间的事件关联之后，我们可以把这些数据灌入图数据库，来构建我们的知识图谱便于后续的遍历。

事理图谱的信息查找和可视化

基于 Neptune 图数据库强大的图查询能力，我们实现了多维度的信息检索和知识探索。

在查询层面，Neptune 支持多种查询模式：

实体关联查询：快速获取某个企业的所有相关实体，如竞争对手、合作伙伴、核心人员等。
事件发展追踪：通过”Prior Event”关系，追溯企业相关事件的完整时序脉络。
竞争态势分析：基于”Competitors”关系，绘制企业的竞争全景图。

如从 Neptune 图数据库中检索属性 name 的值等于 “Apple” 的顶点，并返回这些顶点的属性值映射：

gremlin> g.V().has('name', 'Apple').valueMap()
==>[name:[Apple]]

获取与顶点‘Apple’相连接的所有边及其相邻顶点的路径，筛选出竞争关系和合作关系的组织：

# 竞争关系
gremlin> g.V().has('name', 'Apple').bothE('Competitors').otherV().path()

# 合作关系
gremlin> g.V().has('name', 'Apple').bothE('Partners').otherV().path()

在可视化呈现方面，我们借助 Neptune Graph Explore 功能进行直观的图形化展示方式。如图所示，以苹果公司（Apple）为中心，我们可以清晰地看到：

竞争关系网络：Google、Tesla、华为、Epic Games 等竞争对手
商业生态：与 Curiosity Inc 的合作伙伴关系
人员关联：如 Eddy Cue 等核心管理人员
事件发展链：通过”Prior Event”关系串联起的事件发展脉络，从 2023 年 11 月到 2024 年 3 月的一系列关键事件

事理图谱的更新

同一个事件或公司常常会出现在不同媒体的报道中，且表述方式各异。为了保持图谱的一致性和准确性，我们需要一套有效的实体对齐和消歧机制，确保不会创建重复的实体节点。根据不同实体类型的特点，我们采用了差异化的对齐策略：

“短文本”企业对齐

对于短文本，如企业实体，由于其名称通常较为规范且简短（如”Apple Inc”、”AAPL”），我们主要采用字符串编辑距离（Edit Distance）进行相似度计算。这种方法能够有效处理公司全称与简称的对应、不同语言的企业名称表述等细微的拼写差异或格式变化。

“长文本”事件对齐

对于长文本，如事件实体，其特点是描述往往较长且形式多样。例如，同一个企业并购事件可能有多种不同的表述方式。针对这种情况，我们采用语义相似度匹配，利用 BGE 系列 embedding 提取事件描述的核心语义特征，计算事件描述之间的语义相似度，判断是否为同一事件。

通过这种分层的对齐策略，我们既保证了对齐的准确性，又提高了处理效率，使图谱能够准确反映最新的市场动态。

基于事理图谱的知识增强问答（GraphRAG）

传统的 RAG 方法通常只能检索到单一文档片段，难以处理需要多方面信息综合分析的复杂问题。为此，我们设计了基于事理图谱的知识增强问答系统（GraphRAG），通过图谱的多维度查询和关系推理，为大语言模型提供更全面的知识支撑。

多路知识检索

我们的检索策略采用双重方式定位相关信息：

关键词匹配：通过抽取问题中的关键实体（如公司名、人名、事件），直接定位图谱中的相关节点。
语义搜索：利用向量相似度，找到语义相关但表达形式不同的实体和事件。

知识关系补充

仅有单个节点的信息是不够的，我们通过图的多跳查询扩展相关关联知识：

实体关系链接：追踪实体之间的直接和间接关联。时序脉络梳理：通过事件的时序关系，构建完整的发展链条。
多维度关联：综合企业、人物、事件等多个维度的关联信息。

知识融合问答

在知识融合问答阶段，系统会将从图谱中检索到的结构化知识进行智能处理和整合，转化为富有上下文的信息提供给 Claude。这些信息包含了实体的核心属性与特征、实体之间的关联类型与关系属性，以及事件发生的时序脉络与因果关联。

例如，当分析一家科技公司的发展态势时，系统不仅能提供该公司的基础信息，还能梳理出其近期的重大事件、与竞争对手的互动关系、高管的人事变动等多维度信息。

这种基于图谱的知识增强机制，使得系统能够提供多角度的信息支撑，确保每个结论都能追溯到具体的图谱数据，并通过关联信息的整合实现更深层次的逻辑推理。这不仅提升了回答的准确性和可信度，更为复杂问题的分析提供了系统性的知识基础。

我们截取了两个样例，通过例子的回答，我们发现 GraphRAG 在问题范围比较宽泛情况下，回答的广度上更加优秀。而这和实际海量金融行情新闻的特征是比较符合的。

Query	Answer(Vector RAG)	Answer(GraphRAG)	Accuray Winner	Comprehensive Winner
Analyze recent trends of stock Apple?	Before I provide any analysis, please note that this information is for educational purposes only and should not be considered financial advice. Investors should always do their own research and consult with a qualified financial advisor before making investment decisions.\n\nRecent trends for Apple (AAPL) stock:\n\n1. Performance: Apple stock has shown strong performance in recent months, reaching new all-time highs.\n\n2. Product launches: The company’s recent product launches, including the iPhone 15 series and new MacBook models, have generally been well-received by the market.\n\n3. Services growth: Apple’s services segment, including Apple Music, iCloud, and the App Store, continues to show robust growth, contributing significantly to the company’s revenue.\n\n4. AI focus: Apple has been increasing its focus on artificial intelligence, particularly in its devices and software, which has garnered investor interest.\n\n5. Supply chain improvements: The company has been working on diversifying its supply chain, which may help mitigate future disruptions.\n\n6. Share buybacks: Apple continues its substantial share repurchase program, which can support the stock price.\n\n7. Dividend growth: The company has been consistently increasing its dividend, albeit at a modest rate.\n\n8. Market sentiment: As one of the largest companies by market capitalization, Apple stock is often influenced by broader market trends and macroeconomic factors.\n\nRemember, past performance does not guarantee future results, and stock prices can be volatile. Always consider your personal financial situation and risk tolerance before making investment decisions.	Before I provide any analysis, please note that this information is for educational purposes only and should not be considered financial advice. Investors should always do their own research and consult with a qualified financial advisor before making investment decisions.\n\nApple (AAPL) stock has shown some notable trends recently:\n\n1. Performance: Apple has generally outperformed the broader market in recent months, with the stock showing resilience despite some tech sector volatility.\n\n2. Product Cycle: The stock often experiences movement around new product launches and earnings reports. The anticipation of new iPhone models and other product releases can influence stock performance.\n\n3. Services Growth: There’s been increased focus on Apple’s services segment, which includes offerings like Apple Music, iCloud, and the App Store. This recurring revenue stream has been a key driver of growth.\n\n4. Market Cap Milestones: Apple has frequently traded as one of the world’s most valuable companies by market capitalization, often competing for the top spot.\n\n5. Dividend and Buybacks: Apple has maintained a dividend and share repurchase program, which can affect stock price and investor sentiment.\n\n6. Economic Factors: Like many tech stocks, Apple can be sensitive to macroeconomic factors such as interest rates, inflation, and global supply chain issues.\n\n7. AI and New Technologies: There’s growing interest in Apple’s potential moves in artificial intelligence and augmented reality, which could impact future stock performance.\n\nRemember, past performance does not guarantee future results. The stock market is inherently unpredictable, and many factors can influence a stock’s performance.	GraphRag provides a well-rounded view of Apple’s recent stock performance trends, touching on key factors like market resilience, product cycles, services growth, and external economic influences. The insights are accurate reflections of trends observed in the market, without specific inaccuracies or misleading statements.	GraphRag offers a detailed analysis of multiple aspects influencing Apple’s stock, including performance metrics, product cycles, services growth, market capitalization, dividends, macroeconomic factors, and future technology interests. This thorough examination provides a holistic view of the stock’s recent trends, making it comprehensive in its coverage.
Who are Tesla’s competitors?	Tesla faces competition from several companies in the electric vehicle (EV) and autonomous vehicle markets:\n\n1. BYD: A Chinese EV manufacturer that recently beat Tesla for the top spot in a competitive assessment of EV Original Equipment Manufacturers (OEMs) [citation:2].\n\n2. SAIC Motor Corp. Ltd.: This Chinese state-owned automobile manufacturer saw more new vehicle registrations in the European Union in July than Tesla [citation:3].\n\n3. Volkswagen: Europe’s best-selling car brand, which saw vehicle registrations rise by nearly 4% in the first seven months of 2024 [citation:3].\n\n4. XPeng: A Chinese EV maker that recently unveiled its first mass-market electric car, the MONA MO3, priced significantly lower than Tesla’s current offerings [citation:5].\n\n5. Waymo (Alphabet Inc.) and Baidu Inc.: Competitors in the robotaxi market, where Tesla is also aiming to establish dominance [citation:1].\n\n6. General Motors (GM) and Ford: Traditional automakers transitioning to EVs, though they have faced challenges in this transition [citation:6].\n\n7. Uber: While not a direct competitor in EV manufacturing, Uber is competing with Tesla in the autonomous vehicle market [citation:4].\n\nIt’s worth noting that the EV market is highly competitive and rapidly evolving, with both established automakers and new startups entering the field [citation:6].	Tesla faces competition from several companies across different sectors:\n\n1. In the electric vehicle market:\n – XPeng, a Chinese EV manufacturer, is described as one of Tesla’s main rivals in China. XPeng has beaten Tesla to market with a mass-market electric car, competing directly in the lower-priced EV segment [citation:7].\n – SAIC Motor Corp. Ltd. surpassed Tesla in new vehicle registrations in the European Union in July 2024 [citation:11].\n – Polestar is mentioned as being impacted by Tesla’s price war in the EV market [citation:19].\n\n2. In autonomous driving technology:\n – XPeng is reportedly following Tesla’s approach by adopting pure vision driving for its Model F57 [citation:1].\n – SODA.Auto has adopted a strategy similar to Tesla’s for developing self-driving vehicle (SDV) tools [citation:13].\n\n3. In the robotaxi market:\n – Uber Technologies is a potential competitor, with plans to integrate GM’s Cruise vehicles into its ride-hailing network [citation:17].\n\n4. In humanoid robotics:\n – Several Chinese companies are developing their own humanoid robots, inspired by Tesla’s Optimus citation:4.\n\n5. In the broader technology sector:\n – Tesla is part of the ‘Magnificent 7’ group of influential tech companies, implying competition with other major tech firms [citation:25].\n\n6. In energy storage:\n – While not direct competitors, Tesla’s energy storage products contribute to grid management, potentially competing with traditional energy solutions citation:6.\n\nIt’s worth noting that Tesla maintains a strong position in brand loyalty despite this competition [citation:21].	NaiveRag accurately highlights specific geopolitical tensions and macroeconomic challenges impacting the semiconductor industry, including U.S. export restrictions and inflation concerns. It also references the cyclical nature of the industry, providing a factual basis for its claims, which aligns with current industry trends.	GraphRag presents a more extensive list of both challenges and opportunities. It covers a variety of challenges, such as supply chain disruptions, talent shortages, and environmental concerns, and offers opportunities related to government investments and sustainability initiatives. This wider coverage provides a fuller understanding of the current landscape in the semiconductor industry.

结语与展望

本文介绍了一个基于事理图谱的智能金融分析系统 GraphRAG，通过将大语言模型 Claude 与知识图谱技术相结合，为复杂的金融分析场景提供了创新解决方案。

不同于传统 Vector RAG 方法仅能检索单一文档片段的局限，GraphRAG 特别适合处理需要多维度信息综合分析的复杂问题。例如，当分析一家企业的信用风险时，系统能够同时考虑其历史经营事件、高管变动、竞争态势、合作伙伴等多个维度的信息，通过图谱的关联关系，揭示出可能隐藏的风险信号。另外，由于金融市场强监管的特点，对基于 LLM 的智能化应用存在一定的准入门槛，而 GraphRAG 可以提高回答的可解释性，增强答案的真实性验证能力，对于 GenAI 在金融行业的落地推广也有帮助。

未来，我们将继续优化系统性能，探索更多的应用场景，为金融市场的智能分析提供更强大的技术支持。这个结合了最新 AI 技术的解决方案，展现了金融科技创新的无限可能。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

基于 LobeChat 构建企业内部 LLM 知识库平台

2025-04-19T11:45:08+08:00

1. LobeChat 介绍

LobeChat 是一款开源的 AI 对话应用，专为用户打造高效便捷的智能对话解决方案。通过与 Amazon Bedrock 的深度集成，LobeChat 可以无缝调用多种强大的大语言模型，包括 Amazon Titan、Anthropic Claude、AI21 Labs 等，充分利用 Bedrock 的灵活性和扩展能力，为用户提供优质的对话体验。

LobeChat 提供丰富的功能扩展，包括多轮对话、知识库问答和自定义 API 调用，特别适合企业在客户服务、业务咨询以及内部知识管理等多种场景中使用。对于企业内部知识库管理，LobeChat 能够高效整合分散的信息资源，构建统一的知识问答平台，帮助员工快速获取所需信息，大幅提升内部协作与效率。

借助 Amazon Bedrock 的无服务器架构，LobeChat 可灵活应对业务增长需求，实现高度可扩展的服务能力，同时确保高安全性与高可靠性。这使其成为零售、电商等企业在内部知识管理、智能问答和高效运营中不可或缺的智能化工具。LobeChat 为企业实现数字化转型提供了强大的支持，并助力打造高效、智能的工作流程。

2. 部署架构图

本架构展示了 LobeChat 与亚马逊云科技服务集成的整体流程，提供高效、灵活的 LLM 知识库解决方案：

用户认证与访问加速：
- 使用 Amazon Cognito 进行用户登录和身份验证，确保安全访问。
- 通过 Amazon CloudFront 提供低延迟和高速的内容分发，优化全球访问速度，确保全球用户均能享受到快速稳定的服务，提升用户体验。
系统部署与存储：
- ECR (Elastic Container Registry)：用于存储 LobeChat 镜像，通过 EC2 进行镜像构建和推送，并直接部署到 EC2 实例，实现镜像构建与部署的高效性。
- Amazon S3：存储知识库的原始文件，为后续处理提供数据支持，支持大规模非结构化数据的管理。
- Amazon RDS for PostgreSQL：用于存储知识库向量，支持高效的检索和管理。RDS 提供的数据库自动扩展和备份功能，确保了数据的高可用性和容灾能力。
模型集成与嵌入：
- 对接 Amazon Bedrock，支持 Claude 3.5 Sonnet v2 和 Llama 等多种大语言模型，满足不同场景下的生成式 AI 需求，保证系统的强大处理能力。
- 使用 Titan Embedding 作为知识库的嵌入模型，提供高质量的文本向量化能力。
高效、安全的知识库管理：
- 通过 RDS 和 S3，LobeChat 能够高效存储和管理大规模的结构化与非结构化数据，优化了知识库的检索速度与准确性。
灵活的 AI 模型支持：
- 集成多种强大的 AI 模型（如 Claude 3.5 Sonnet v2 和 Llama）和 Titan Embedding，确保系统能够满足各种自然语言处理任务的需求。
- Amazon Bedrock 的弹性和多模型支持让企业可以根据需求选择最合适的模型，并进行灵活的定制。
  3. 部署说明

3.1 确定 LobeChat 访问域名

对于 Amazon Cognito 和 LobeChat 来说，域名是必不可少的，因为它能够有效防止开放重定向攻击，确保回调请求来源的合法性，避免恶意攻击者通过伪造 IP 地址绕过安全验证。同时，域名支持 HTTPS 加密通信，确保敏感数据在传输过程中得到保护。使用域名还简化了跨多个环境（如开发、生产环境）的管理，增强了系统的可扩展性和灵活性。总之，必须使用域名，以确保遵循 OAuth2.0 等身份验证标准，从而保障系统的安全性、合规性和可靠性。

本方案中将使用 lobechat.xxx.com 作为示例，您在部署时请更改为您自己合适的域名。

3.2 创建 Amazon Cognito

Amazon Cognito 是一项由 AWS 提供的身份管理服务，旨在简化用户身份验证、授权和用户数据同步。它允许开发者轻松地在应用程序中实现用户注册、登录、身份验证和访问控制功能，同时保证安全性和可扩展性。Cognito 主要面向移动应用和 Web 应用开发者，提供了多种身份验证方式，支持单点登录（SSO）和社交登录。

创建 Cognito 用户池

应用程序类型选择《传统的 Web 应用程序》
命名您的应用程序修改为 LobeChat
登录标识符的选项选择电子邮件
点击创建

设置允许的 URL

在《编辑管理登录页面》设置允许回调 URL 和运行的注销 URL，分别为 https://lobechat.xxx.com/api/auth/callback/cognito 和 https://lobechat.xxx.com。

在《编辑管理登录页面》设置允许回调 URL 为 https://lobechat.xxx.com/api/auth/callback/cognito。

记录应用程序的客户端 ID 和客户端密钥，后续会在 LobeChat 的环境文件中进行配置使用

本示例的客户端 ID 为：6r1gj6jvt6a61cagvtfbvv9b1t，客户端密钥为：ctooihnq68bjenrdkae2k5scdf03273l4enqusov7m67b8ge5s。

3.3 启动 EC2

登录亚马逊云科技管理控制台，导航到 EC2 控制面板

“Amazon Machine Image (AMI)” 选择 “Amazon Linux 2023 AMI”，实例类型选择 m5.xlarge。
设置密钥对、网络、存储等其他设置。
点击下一步，启动 EC2。

3.4 创建 RDS 数据库

选择 PostgreSQL 引擎

数据库实例选择 db.m6gd.large

使用 SSH 连接到 EC2 实例

ssh -i "your-key-pair.pem" ec2-user@your-instance-public-dns

sudo yum update -y
sudo yum install -y docker
sudo systemctl start docker
sudo systemctl enable docker
sudo docker pull public.ecr.aws/p6j6k0r6/lobechat:v1.45.6

vim .env

修改以下红色参数

# lobechat 域名
APP_URL=https://lobechat.xxx.com

KEY_VAULTS_SECRET=Kix2wcUONd4CX51E/ZPAd36BqM4wzJgKjPtz2sGztqQ=
DATABASE_DRIVER=node
NEXT_PUBLIC_SERVICE_MODE=server

# RDS控制台中查找DATABASE连接字符串
DATABASE_URL=postgresql://postgres:xxx@lobe.xxxx.us-east-1.rds.amazonaws.com:5432/lobe?sslmode=verify-ca&sslrootcert=/app/migrations/global-bundle.pem

NEXT_AUTH_SECRET=NX2kaPE923dt6BL2U8e9oSre5RfoT7hg
NEXT_AUTH_SSO_PROVIDERS=cognito
NEXTAUTH_URL=https://lobechat.xxx.com/api/auth

# Cognito 控制台中查找以下参数
AUTH_COGNITO_ID=24uf3puaedui42l7bqo3a1pedb
AUTH_COGNITO_SECRET=metel8pebtoa0m2n84gjba1q9rcsikke1bm6j5vnoo7k4e15deh
AUTH_COGNITO_ISSUER=https://cognito-idp.us-east-1.amazonaws.com/us-east-1_eulDPpxHE

# 请设置S3的AK、SK以及S3桶路径
S3_ACCESS_KEY_ID=S3_ACCESS_KEY
S3_SECRET_ACCESS_KEY=S3_SECRET_ACCESS_KEY
S3_ENDPOINT=https://s3.amazonaws.com
S3_BUCKET=lobechat-ho0gviwonb
S3_PUBLIC_DOMAIN=https://s3.us-east-1.amazonaws.com
S3_SET_ACL=0
S3_ENABLE_PATH_STYLE=0

#以下参数可部署https://github.com/aws-samples/bedrock-access-gateway 方案获取
OPENAI_API_KEY=bedrock
OPENAI_PROXY_URL=http://bedroc-proxy-mwsd23mebajk-113420711.us-east-1.elb.amazonaws.com/api/v1
OPENAI_MODEL_LIST=text-embedding-3-small

ENABLED_AWS_BEDROCK=1

# 设置Bedrock的AK、SK
AWS_ACCESS_KEY_ID=BEDROCK_ACCESS_KEY
AWS_SECRET_ACCESS_KEY=BEDROCK_SECRET_ACCESS_KEY
AWS_REGION=us-east-1

修改参数后，执行以下命令：

docker run -d --name lobe-chat -p 3210:3210 --env-file .env --restart always public.ecr.aws/p6j6k0r6/lobechat:v1.45.6

3.5 配置 CloudFront

创建 CloudFront 分配，设置自定义源为 EC2 地址，以及端口号

配置域名及证书

创建分配，待部署完成后，访问 https://lobechat.xxxx.com 进行 Lobechat 访问

3.6 访问 Lobechat

点击左上角进行登录，跳转到 Amazon Cognito 页面进行用户登录，如下：

登录成功后，进入首页，如下：

添加知识库，上传知识库文件，如下：

对上传的知识库进行 Chunking 向量存储，如下：

点击 Chunking 后，将调用 Embedding 模型进行自动向量化，如下：

使用知识库进行对话，点击对话框上的书架进行知识库的选择即可，如下：

对话框中提出问题后，LobeChat 将自动引用知识库进行回答，如下：

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

在 Amazon Graviton 上运行大语言模型：CPU 推理性能实测与调优指南

2025-04-19T10:42:14+08:00

引言

在生成式 AI 浪潮中，GPU 常被视为大模型推理的唯一选择。然而，随着 ARM 架构的崛起和量化技术的成熟，CPU 推理的性价比逐渐凸显。本文基于 Amazon Graviton 系列实例与 llama.cpp 工具链，实测了 Llama 3、DeepSeek 等模型的推理性能，揭示 CPU 在大模型推理中的潜力。

CPU 运行大模型的核心场景

在以下场景中，CPU 可作为经济高效的解决方案：

边缘推理与实时交互：低延迟需求的场景（如客服机器人、轻量化 AI 助手）中，CPU 无需复杂硬件部署即可满足实时响应。
成本敏感型业务：通过量化技术压缩模型后，CPU 可降低硬件采购与运维成本。
混合架构补充：在 GPU 资源受限时，CPU 可作为弹性资源池处理突发请求。
隐私合规场景：部分场景需避免使用外部加速卡以简化数据流安全管控。
数据预处理和特征工程：文本处理，特征提取，数据清洗，这种依赖单线程库的，CPU 更合适。
无高频调用或高吞吐算力要求场景：CPU 更适合小吞吐但是高延迟敏感、或者虽然高吞吐但是使用频率低的任务。

CPU 与 GPU 的架构差异及性能影响

1. 硬件特性对比

2. 模型加载与推理差异

模型加载：CPU 将模型权重加载到主存（RAM）中，而 GPU 则是将模型权重加载至显存（VRAM）中。
Prompt Token 处理：CPU 会将输入 token 从内存加载到 CPU 缓存中，然后逐步执行推理过程，CPU 能够并行利用多个内核，推理速度与计算核心数量密切相关，但相较 GPU 并行能力有限；GPU 会通过 CUDA 将输入数据加载到显存中，然后并行执行模型推理。
Token 生成：CPU 在生成 token 时需要访问大量的 KV 缓存，在流式推理（Streaming Inference）场景下，每个 token 需要不断访问已有缓存，因此容易受到内存带宽影响，相比较 GPU 内存带宽来讲，CPU 内存带宽瓶颈往往限制 token 生成速度。

总结：GPU 依赖并行计算单元实现高吞吐，而 CPU 需通过批处理与线程绑定提升效率，所以 CPU 更适合低并行度任务或小型模型。

Graviton 运行大模型的架构优化

1. 硬件架构特性

Graviton3 和 Graviton4 的核心改进：

Graviton3 拥有 15 条宽发射通道和两倍更大的指令窗口，相比较 Graviton2 显著提升了指令级并行度。
Graviton3 采用了优化的分支预测器，为更大型的模型提供了更准确的分支预测。它还配备了 16 位 BFloat 支持和 256 位 SVE 矢量计算能力，针对 AI/ML 工作负载进行了专门加速。
存储子系统方面，Graviton3 也做出了重大改进。与 Graviton2 相比，它的 SIMD 带宽提升了一倍，内存访问带宽提高了 50%。同时，它还支持 2 倍内存预取增强，TLS 指令提速约一倍，确保数据高效流动。
Graviton4 也对内存子系统进行了强化，内存带宽比 Graviton3 提升了 75%，确保数据能够高效流动，满足 AI/ML 对存储带宽的旺盛需求。

2. 软件栈优化措施

量化支持：基于 ARM NEON 指令的 8-bit/4-bit 量化算子优化（如 GGML 库）。
线程调度：绑定物理核心避免超线程争抢，NUMA-aware 内存分配。
编译优化：使用 GCC 11 + 或 Clang 14 + 开启 -mcpu=native 与 -O3 优化。

3. Graviton 社区持续活跃

主流的机器学习框架都已经为 Graviton3 的特性做好了充分适配，包括 PyTorch 2.0 及更高版本、TensorFlow 1.9.1 及更高版本，以及 OnnxRuntime 1.17.0 及更高版本、Scikit-learn 1.0 及更高版本等。
llama.cpp 这种创新的开源框架，也已针对 Graviton3 进行了优化。
亚马逊云科技还提供了预装这些优化框架的 Python Wheel 文件和深度学习容器镜像，用户可以一键启动，免去手动配置的麻烦。

性能实测与对比分析

以下数据基于 llama.cpp 测试框架。

1. 典型模型吞吐表现（量化模型）

*下图测试数据针对模型 meta-llama-3-8b-instruct.Q4_0.gguf 和 meta-llama-3-70b-instruct.Q4_0.gguf。

*pp512 指标为 prompt processing 512 个 token，tg128 为生成 128 个 token。

从图中我们可以看出：

与同等规格的 x86 实例相比，Graviton3/4 实例提供了卓越的性价比表现。
对于相同的 llama 模型和测试用例，亚马逊云科技新一代 Graviton4 实例始终拥有明显更高的推理吞吐能力，较上一代 Graviton3 实例的性能提升是显著的。
对于相同实例类型和线程数量，8B 规模的较小模型通常会比 70B 的大规模模型拥有更高的吞吐量表现。

2. DeepSeek 相关蒸馏模型表现（无量化模型）

从图中我们可以看出，Graviton3 实例在 8B 及以下无量化模型表现基本可以满足人眼阅读速度， Graviton4 实例在 32B 及以下都能够达到或者接近人眼阅读速度，对于 prompt 相对较短的场景，Graviton 效价比还是比较可观。

3. 不同实例规格性能

从图中我们可以看到：

随着 vCPU 核心数从 8 核增加到 16 核，再到 24 核，pp512 的吞吐量也呈现出近乎线性的增长趋势，说明对于这类计算密集型的工作负载，增加更多的计算资源能够有效提升系统的 prompt token 处理能力。
另一方面，tg128 模拟了生成 128 个 token 的场景，可以对应文本续写或对话生成等应用。但是，与 pp512 不同的是，tg128 的吞吐量随着 vCPU 核心数的增加，提升空间并不太大。从 8 核到 16 核，吞吐量仅有小幅提升，进一步增加到 24 核时，性能提升也相当有限。

这种现象主要是由于语言模型生成任务本身的特殊性质所决定的。生成过程需要模型在每个时间步都捕捉上下文语义，并根据条件概率预测下一个 token，这种高度串行化的计算模式使得单个请求的延迟降低了对并行化的需求。因此，对于像 tg128 这样的生成任务，单纯增加 vCPU 核心数不太可能带来理想的线性加速比，还需要结合其他的优化手段，比如通过模型剪枝减小参数量、利用更高带宽的内存等来进一步提升生成效率。

4. 不同实例类型性能

从图中可以看出：

较小的 8B 模型由于参数体积更小，对计算资源的利用率更高，因此对实例硬件配置的差异会表现出更明显的性能差异。而对于 70B 这种大规模模型来说，由于计算和内存带宽长期处于饱和状态，不同实例类型之间的性能变化就相对不太显著了。

在部署 Llama/DeepSeek 等大规模语言模型时，我们不仅需要根据具体的应用场景来选择合适的实例规格，还要平衡参数量和硬件资源之间的匹配关系。只有做到有机结合，才能充分释放语言模型的潜能，实现最优的性价比。

5. 关键场景性能

a. 批处理场景测试（model: DeepSeek-R1-Distill-Llama-8B-Q4_0.gguf,instance: c8g-16x）

第一组 prompt 64 token， generate 128 token

第二组 prompt 128 token， generate 128 token

第三组 prompt 256 token，generate 128 token

第四组 prompt 512 token， generate 128 token

所以在生成 128token 的场景测试中，生成 token 的速度可以在 16 个 batch 场景下达到 296 t/s。

b. 首 Token 延迟

从图中我们可以看出：

吞吐量随 Prompt Token 增加先升后降：当 Prompt Token 增加到 pp256 或 pp512 时，吞吐量接近峰值，随后略有下降，即 Prompt Token 的数量对吞吐量的影响存在一个最佳区间。
首 Token 延迟随 Prompt Token 增加而增加：随着 Prompt Token 数量从 pp32 增加到 pp512，首 Token 延迟显著上升。在 pp512 时，延迟达到最大（约 8 秒）。

吞吐量变化原因包括以下几个方面：

Prompt Token 数量少时（如 pp32）：初始化开销较大，资源利用率较低，吞吐量较低。
Prompt Token 数量适中时（如 pp256）：计算单元和硬件资源达到较优的并行处理效率，吞吐量达到峰值。
Prompt Token 数量过多时（如 pp512 重复情况）：数据传输开销增加，硬件资源的带宽限制和缓存效率下降，吞吐量略微下降。

6. TCO 表现（model: DeepSeek-R1-Distill-Llama-8B-Q4_0.gguf,pp=128token tg=128token）

由图中可以看出，Graviton3 可以在 1 美元 cost 下生成 360000 token，而 Graviton4 可以生成多达 420000+ 的 token。这不仅说明 Graviton4 在 CPU 领域处于领先地位，而且对于那些希望从小规模开始，并在 LLM 应用之路上逐步扩展的用户来说，也提供了一个极具吸引力的优势。

调优实践指南

1. 参数调优策略

在本地编译 llama.cpp 并使用-DCMAKE_CXX_FLAGS=”-mcpu=native” -DCMAKE_C_FLAGS=”-mcpu=native”编译参数，可以让 llama.cpp 基于本地 CPU 参数编译，从而达到理想性能。
llama.cpp 支持多种模型量化格式，在实际生产中，在保证模型可以确保 SLA 的前提下可以通过减少权重精度降低内存占用和计算量，从而提高整体性能。
合理设置线程数，通常设置为物理核心数，从而充分利用实例的多核能力。
绑定 CPU 核心，减少跨 NUMA 节点的内存访问延迟。
减少上下文长度（使用合适的 context 长度），调整批处理策略（例如使用合理的 batch-size），简化生成参数等，都可以从不同层面使得 CPU 达到最佳性能。

2. 部署建议

以模型 DeepSeek-R1-Distill-Llama-8B-Q4_0.gguf 为例，在确定运行 4bit 量化的 8B 参数模型所需的虚拟机 vCPU 和内存配置时，需综合考虑模型存储、计算需求和系统开销：

内存需求
- 参数数量：8B（80亿）个参数
- 量化存储：4bit/参数 = 0.5 字节/参数
- 总共参数量内存：
- 推理内存需求：激活值和中间缓存，通常为参数内存的 1-3 倍（8～12GB），取决于输入序列长度和模型结构。
- 系统与框架开销：操作系统和推理框架本身需要额外内存（约 1-2GB）。
- 总内存估算约 4+8+2=14GB
vCPU 配置
- 由上面测试 3 的图可以看出因为推理框架支持多线程，增加 vCPU 可以提升 prompt 处理的吞吐量。但随着 vCPU 核心数增加，token 生成的速度仅有小幅提升，进一步增加到 24 核，系统提升也相当有限。所以我们可以以 8 个 vCPU 进行初始实测，然后逐步调整力争达到客户需求的 SLA。

综上所述，我们可以按照以下配置来测试：

结语

Amazon Graviton 实例通过硬件架构创新与软件生态优化，为 CPU 推理场景提供了高性价比的选择。在 8B~70B 参数规模的模型中，Graviton4 可达到 10-60 t/s 的吞吐表现，结合量化技术与参数调优，可满足生产级 AI 应用的性能与成本需求。未来随着 ARM 指令集与模型编译器的进一步优化，CPU 在大模型推理领域的潜力将持续释放。

本篇作者

本期最新实验为《创新基石 —— 基于 Graviton 构建差异化生成式AI向量数据库》
✨ 在本次实验中，你可以在基于 Graviton 的 EC2 实例上轻松启动 Milvus 向量数据库，加速您的生成式 AI 应用。基于 Graviton 的 EC2 实例为您提供极佳性价比的向量数据库部署选项。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！

生成式 AI 在电商评论场景的应用 : 场景分析和技术选型

2025-04-18T11:03:31+08:00

在当今快速发展的电子商务时代,商品评论已成为连接买家和卖家的重要桥梁。据统计，2022 年全球主要电商平台上新增商品数量超过 1 亿件，累计产生超过 50 亿条用户评论。平均每件商品收到约 50 条评论，热门商品的评论数更是可以轻松突破千条大关。这些数字充分体现了商品评论在电商生态中的重要地位。

商品评价的重要性

对于购买者而言，其他消费者的真实体验和反馈往往是做出购买决策的关键因素。研究显示，超过 95%的在线购物者会在做出购买决定前阅读商品评论[1]。平均每次购物之间会查看至少 10 行评论信息[2]。一份详实、客观的评论不仅能帮助潜在买家了解商品的优缺点，还能提供实际使用体验，从而降低购买风险，提高购物满意度。

对于卖家来说，商品评论则是一面照妖镜，直接反映了产品质量、服务水平以及客户满意度。数据表明，商品评分每提高一星，销量平均可提升 5-9% [3]。通过分析评论，卖家可以及时发现并解决产品或服务中存在的问题，不断改进和优化，从而提升品牌形象和客户忠诚度。此外，积极的评论还能成为吸引新客户的有力工具，为产品带来更多曝光和销量。

传统电商中商品评价的挑战

尽管商品评论对买家和卖家都至关重要，但传统的评论处理方式存在诸多问题，无法充分发挥评论的价值。以下是当前商品评论系统面临的主要痛点：

C 端用户体验不佳：

过去，商品的介绍信息主要通过传统的列表、标签等形式呈现，难以快速传达核心信息。C 端用户（即消费者）通常需要手动点击和刷新评论列表，自行总结最近多数用户的评价或者产品的关键信息。这个过程不仅耗时耗力，还可能导致以下问题：

信息过载：面对大量评论，用户难以提取关键信息。
偏见风险：用户可能过度关注极端评价，忽视了更具代表性的中立意见。
时间成本高：需要花费大量时间阅读和筛选评论，影响购物效率。
难以全面把握：用户可能错过重要信息，无法全面了解产品的优缺点。

对 B 端商家的影响：

用户评论处理效率低下
- 人工成本高：通常需要售后专人阅读大量评论信息，耗费大量人力资源。
- 处理速度慢：人工处理评论的速度远远跟不上评论产生的速度，导致信息滞后。
- 主观性强：不同人员对评论的理解和总结可能存在差异，影响决策的准确性。
- 难以量化：传统方法难以对评论进行精确的量化分析，不利于数据驱动决策。
产品迭代周期长
- 产品迭代需要 40 天以上：从评价中总结有效的产品和服务改进方案，到实际执行和见效，整个过程耗时过长。
- 市场反应迟缓：无法及时响应用户需求和市场变化，可能导致竞争力下降。
- 问题积累：长周期导致问题不断累积，可能造成更严重的负面影响。
数据价值未被充分挖掘
- 趋势预测困难：难以从评论中及时发现新兴趋势和潜在机会。
- 竞品分析不足：缺乏有效工具对比分析竞品评论，难以精准把握市场定位。
- 用户洞察有限：难以深入分析用户需求和行为模式，影响产品开发和营销策略。

商品评论信息的特点

综合分析多条评论：

需要综合多条评论以获得完整的产品情况。
不同类型商品和用户群体的评论关注点不同。
需要考虑时间因素和重点提取。

多样化场景：

C 端用户需要快速浏览和决策辅助。
B 端用户需要产品改进、市场洞察和竞品分析。

离线处理：

通常不需要实时处理，批量处理即可。
优化资源使用和深度分析。

大数据处理：

处理大量评论数据，支持增量更新。
多语言支持和情感分析。

信息质量不均：

需要过滤垃圾评论和验证真实性。

GenAI 在电子商务评价中应用场景

GenAI 凭借其强大的自然语言处理能力，可以高效地分析和总结大量评论、提取关键信息、识别情感倾向，甚至生成简洁明了的评论摘要。这不仅能帮助买家快速了解商品的优缺点，也能为卖家提供有价值的分析，辅助决策和改进。

应用场景总结

根据评论的应用场景和 GenAI 的特点，我们将应用场景归纳为 2 类：

GenAI 方案设计

平台选择：Amazon Bedrock 是亚马逊云科技提供的一个强大的生成式 AI 服务平台。它允许开发者无缝接入多种顶级基础模型，而无需管理复杂的基础设施。在我们的方案中，我们选择使用 Amazon Bedrock 提供的 Amazon Nova 模型，以及Batch inference，从而基于 Nova 模型离线处理评论信息。

模型选择：Amazon Nova 是新一代最先进的基础模型，具有前沿的智能和行业领先的性价比，可在 Amazon Bedrock 上使用。 Amazon Nova 模型包括三种理解模型和两种创意内容生成模型。

Amazon Nova Pro、Lite 和 Micro 是各自智能级别中速度最快、性价比最高的产品。它们在代理功能和用户界面执行方面也非常出色。通过 Amazon Bedrock 上的文本和视觉微调，您可以定制 Amazon Nova Pro、Lite 和 Micro，以提供满足您需求的最佳智能和成本。

离线批量处理：Amazon Bedrock Batch Inference

使用批量推理，您可以提交多个提示并异步生成响应。批量推理通过发送单个请求并在 Amazon S3 存储桶中生成响应，帮助您高效地处理大量请求。在您创建的文件中定义模型输入后，您需要将相应文件上传到 S3 存储桶。然后，您需要提交批量推理请求并指定 S3 存储桶。作业完成后，您可以从 S3 检索输出文件。您可以使用批量推理来提高对大型数据集的模型推理性能。

高效处理：能够一次性处理大量评论，提高处理效率。
成本优化：通过批量处理降低 API 调用频率，优化成本。
灵活调度：可以在系统负载较低时进行处理，优化资源利用。
深度分析：有更充足的时间进行全面、深入的分析。

语义检索：Amazon Bedrock Knowledge Bases

借助 Amazon Bedrock 知识库，您可以将专有信息集成到您的生成人工智能应用程序中。进行查询时，知识库会搜索您的数据以查找相关信息来回答查询。为了支持基于语义的评论检索，我们引入知识库和向量化存储：

使用适当的嵌入模型将评论内容向量化。
将向量化后的评论存储在专门的向量数据库中（如 Amazon OpenSearch）。
实现基于语义的相似度搜索，支持更准确的评论检索。

这种方法允许我们根据总结中的关键词或概念，快速找到最相关的原始评论，大大提高了检索的准确性和效率。

通过这种设计，我们创建了一个强大、灵活且可扩展的 GenAI 解决方案，能够有效处理大规模电商评论数据，为C端和B端用户提供高质量的分析结果。在接下来的章节中，我们将深入探讨这个方案的具体实现细节和最佳实践。

总结

在这篇博客中，我们深入探讨了 GenAI 技术在电商评论场景中的应用，特别聚焦于场景分析和技术选型。我们首先阐述了商品评论对买家和卖家的重要性，揭示了传统评论处理方法面临的诸多挑战，如信息过载、效率低下和产品迭代周期长等问题。

随后，我们详细分析了电商评论处理的独特特点，包括需要综合分析多条评论、适应多样化的C端和B端场景、处理大量数据等。这些特点为 GenAI 的应用提供了广阔的空间。

在技术选型方面，我们提出了一个基于亚马逊云科技服务的综合解决方案。核心技术包括使用 Amazon Bedrock 的 Nova 模型进行评论分析，利用 Batch Inference 实现高效的离线处理。

在接下来的两篇博客中，我们将进一步深入探讨具体的实现细节，包括离线数据分析处理的流程，以及如何实现基于语义的评论信息查询。这些内容将为读者提供更全面、实用的 GenAI 应用指南，助力电商平台在评论处理方面实现质的飞跃。

GenAI 在电商评论场景的应用 2 – 离线数据分析处理介绍如何使用 Batch Inference + Nova 离线处理评论数据，同时对方案的成本进行分析。
GenAI 在电商评论场景的应用 3 – 根据关键词根据语义查询评论信息介绍在评论的总结中，如何实现根据关键词反像查询相关的评论记录。

引用

[1]. Local Consumer Review Survey 2023

[2]. The-importance-of-Reviews-for-Business

[3]. Shocking Online Review Statistics (2025)

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

在亚马逊云科技环境上基于 Dify Agent 快速部署 text2SQL 智能数据分析助手

2025-04-18T10:29:22+08:00

背景

数据已成为企业最宝贵的资产之一，大多数企业虽然收集了海量数据，却只能利用其中很小一部分创造实际价值。这种”数据富有但洞察贫乏”的状态主要源于数据访问和分析的技术门槛。传统数据分析流程通常要求用户掌握 SQL 等专业查询语言，这导致企业中只有少数技术人员能够真正”解锁”数据的价值，形成了明显的分析瓶颈。

智能 Agent 技术的出现正在根本性地改变这一局面。作为一种能够理解用户意图、自主执行复杂任务的 AI 系统，Agent 特别适合担任业务人员与数据之间的”翻译官”角色。在数据分析领域，text2SQL Agent 能够：

消除技术壁垒：业务用户只需用自然语言表达分析需求，无需了解 SQL 语法或数据库结构
实现上下文理解：Agent 能够理解业务术语和行业特定语境，提供更精准的查询转换
自主执行复杂分析：不仅生成 SQL，还能执行查询、解释结果、生成可视化报表
持续学习优化：根据用户反馈不断改进查询质量和结果呈现

通过 Agent 技术，企业能够：

扩大数据影响范围：让每一位员工都成为潜在的数据分析师，不再局限于技术团队
加速数据到决策的转化：将分析周期从数天缩短至数分钟，实现接近实时的数据驱动决策
释放创新潜能：当业务专家能够自由探索数据时，往往能发现技术人员难以察觉的业务机会
转变数据团队角色：使数据专家从日常查询工作中解放出来，转向更具战略性的数据治理和高级分析

在实际应用中，数据分析 Agent 已在多个行业展现出显著价值。营销团队可以实时分析活动效果，无需等待分析报告；财务部门能够快速审查异常交易；产品经理可以独立探索用户行为数据，发现改进机会。这种即时的数据洞察能力正在成为企业竞争优势的关键来源。

目前，构建企业级 text2SQL Agent 已变得越来越便捷。亚马逊云科技为 GenAI 和智能体应用提供全面优势：集成顶级基础模型的 Bedrock 平台、全托管知识库实现高效 RAG、企业级安全与合规保障、按需付费的成本结构、简化的开发工具及丰富 API，帮助企业快速构建可靠 AI 应用，降低技术复杂性和运营风险，加速业务创新与转型。开源工具如Dify提供了开箱即用的 Agent 构建能力，使开发者能够快速部署具备数据分析能力的智能助手。通过结合大语言模型的自然语言理解能力与专业的数据库连接工具，企业可以在短时间内构建一个定制化的数据分析助手，无需大量的开发资源投入。

随着生成式 AI 技术的不断成熟，Agent 驱动的数据分析模式将从创新走向主流，成为释放企业数据价值的标准方法。本文将详细探讨如何在亚马逊云科技环境上基于 Dify Agent 快速部署一个企业内部的数据分析助手应用。

方案介绍

关于 GenAI Agent

Agent-智能体应具备类似人类的思考和规划能力，拥有记忆甚至情感，并具备一定的技能以便与环境、智能体和人类进行交互，能完成特定的任务内容。基于 LLM 大语言模型的 Agent 工程实现上可以拆分出四大核心模块：规划、记忆、工具、行动，如下是典型的 Agent 框架示意图。

目前业界可以实现 Agent 编排的框架和工具有很多，例如：

Amazon Bedrock Agent。特点：全托管。Amazon Bedrock Agent 支持集成 Bedrock 内置的安全/可用性机制/RAG 等能力，便捷集成 AWS 各种服务，新增的 Multi-Agent 协作可以应对复杂工作流程编排需要。
Langgraph。特点：丰富灵活。Langchain 推出的 Agent 应用编排开发工具，提供了更细粒度和灵活的编排能力，允许开发者通过编程方式自定义和优化 AI Agent 的行为。需要开发者具备一定的编程基础‌。
Dify。特点：低代码，开箱即用。支持多种 LLM 模型，采用低代码可视化的方式，支持 Agent/workflow 等的编排，非程序员也可以快速上手。

在亚马逊云科技部署 Agent 方案的优势

亚马逊云科技为部署 Dify 和 GenAI Agent 解决方案提供了独特优势：

亚马逊云科技通过 Amazon Bedrock 提供了全托管的基础模型服务，允许企业无缝访问 Anthropic Claude、Amazon Nova、AI21、Cohere 等领先的基础模型，这为 Dify Agent 提供了强大的底层能力支撑。企业无需自建复杂的模型基础设施，即可快速部署具备先进理解和推理能力的智能应用。也可以结合 Amazon Bedrock Knowledge Base 和Amazon Bedrock Guardrails 提升内容准确性和增加内容审查安全护栏等。
亚马逊云科技拥有完整的数据服务体系，从数据存储（S3、RDS）、数据处理（EMR、Glue）到数据分析（Redshift、Athena），为 Agent 提供了端到端的数据管道支持。
作为企业级云计算领导者，亚马逊云科技提供了全面的安全控制机制，包括 IAM 身份认证、KMS 加密、VPC 网络隔离等，解决了企业对 AI 应用中数据安全、访问控制的严格要求。
丰富的 API 和服务集成能力，使 Dify 等框架部署的 Agent 能够轻松连接企业现有的数据源、应用系统和业务流程。无论是通过 AWS Lambda 实现自定义逻辑，还是利用 Amazon EventBridge 构建事件驱动的 Agent 流程，都能够实现高度定制化的企业智能解决方案。
遍布全球的数据中心和可用区，为跨国企业提供了低延迟、高可用的部署环境，确保 Agent 服务的全球一致性体验，同时满足不同地区的数据主权合规要求。

对于正在考虑部署企业级 Agent 解决方案的组织而言，亚马逊云科技提供了从基础设施、安全合规到 AI 服务的完整技术栈，使其成为构建、部署和扩展 Agent 的理想平台选择，能够加速企业从概念验证到生产级应用的转变过程。

关于 Dify

Dify 是一款开源的大语言模型（LLM）应用开发平台，开发者可以快速搭建生成式 AI 应用。Dify 内置了构建 LLM 应用所需的关键技术栈，包括对数百个模型（Amazon Bedrock、DeepSeek 等）的支持、直观的 Prompt 编排界面、RAG 引擎、Agent 框架、灵活的流程编排，并同时提供了一套易用的界面和 API。这为开发者节省了时间，使其可以专注在创新和业务需求上。Dify 是开源的。

低代码主要指 Agent 编排过程，在工具所需要用到的 API 封装和调用还是需要一定的代码，文中会给出示例的代码作为参考。Agent 在调用工具过程中需要与外部环境/数据进行交互，读取和写入主要是通过 API 进行，如果企业内部已经形成标准和规范的 API 池，将大幅提升 Agent 智能体开发的效率。

本文我们基于亚马逊云科技提供的丰富的服务以及 GenAI 能力和 LLM 模型，结合 Dify 可视化编排的能力快速构建一个数据分析助手的 Agent 应用。

流程设计

我们以企业 HR 智能助手场景为例，搭建一个支持 RAG 及 text2SQL 数据分析的智能 Agent。业务流程参考：

部署实战

一、部署 Dify。如果用于测试/POC 场景，可以参考 Dify 官网通过 Docker Compose 部署：https://docs.dify.ai/zh-hans/getting-started/install-self-hosted/docker-compose，或参考如下 workshop 内容部署 Dify 环境：https://catalog.us-east-1.prod.workshops.aws/workshops/2c19fcb1-1f1c-4f52-b759-0ca4d2ae2522/zh-CN。

对于生产环境场景，我们建议通过 Amazon EKS、Amazon S3、Aurora PostgreSQL、ElastiCache for Redis、Amazon Bedrock 部署高可用架构，部署方案参考：https://aws.amazon.com/cn/blogs/china/deploying-high-availability-dify-based-on-amazon-eks/。

参考架构

技术要点

1、架构设计

以 Amazon EKS 为核心：利用 Kubernetes 编排能力部署 Dify 的三个核心业务组件和六个基础组件
高可用性设计：通过增加核心服务副本数量实现高可用
亚马逊云科技托管服务集成：使用 Amazon S3、Aurora PostgreSQL、ElastiCache for Redis 替代内置组件，提升可靠性

2、基础组件配置

向量数据库：使用 Aurora PostgreSQL 作为向量数据库
关系型数据库：使用 Aurora PostgreSQL 存储结构化数据，将关系型数据库与向量数据库统一使用 Aurora 以简化架构
缓存与消息队列：采用 ElastiCache for Redis 处理缓存和 Celery 消息队列

3、部署流程

Helm Charts 部署：便于管理与升级
安全凭证管理：通过 Kubernetes Secret 存储敏感信息（AK/SK、数据库密码等）
服务配置优化：通过 yaml 配置文件定制化部署参数
负载均衡与入口：配置 AWS Load Balancer Controller 创建 ALB 类型的 Ingress

4、安全考量

TLS 加密配置：配置 HTTPS 访问并集成 ACM 证书
Secret 加密：推荐使用 Amazon KMS 加密 Kubernetes Secret
Redis 安全配置：开启密码认证和 SSL 加密传输

5、性能优化

Graviton 处理器：支持使用 AWS Graviton3 实例，提升性价比
多副本扩展：核心服务组件支持水平扩展以应对增长的负载

同时，亚马逊云科技提供丰富的 Serverless 产品能力，全 Serverless 架构部署 Dify 参考：https://github.com/aws-samples/sample-serverless-dify-stack。

此架构基于实际需求优化资源利用率，通过弹性伸缩确保经济效益，客户可以根据自身需求灵活选择。

二、添加知识库

在生产环境中我们建议使用 External Knowledge API 结合 Amazon Bedrock Knowledge Base 提供的丰富的 RAG 能力进行扩展。参考：https://docs.dify.ai/learn-more/use-cases/how-to-connect-aws-bedrock。

技术要点

1、高级检索与定制化

多种高级数据分块选项:语义分块、层次分块、固定大小分块
支持自定义分块代码（Lambda 函数）
与 LangChain 和 LlamaIndex 等框架兼容
使用 GraphRAG 改进检索准确性（通过 Neptune Analytics）

2、强大的 API 功能

Retrieve API：检索包括视觉元素在内的相关结果
RetrieveAndGenerate API：自动增强基础模型提示并返回响应
支持过滤和重新排序，提高结果相关性

3、透明度与可靠性

所有检索信息都提供引用（包括视觉内容）
改进透明度并最小化幻觉
可集成到 Amazon Bedrock Agents中，提供上下文信息

4、多样化的向量存储选择

Amazon Aurora、OpenSearch Serverless、Neptune Analytics
MongoDB、Pinecone和Redis Enterprise Cloud
Amazon Kendra 混合搜索索引

这些功能使开发者能够轻松构建高精度的生成式 AI 应用，同时确保回答基于实际数据并提供适当的来源引用。

三、部署数据库，导入示例数据。这里我们通过 Amazon RDS 创建一个 MySQL 数据库，并使用 MySQL 官方提供的员工管理数据库进行导入 https://github.com/datacharmer/test_db

参考 CLI 命令

aws rds create-db-instance \
--db-instance-identifier mydb \
--db-instance-class db.m7g.large \
--engine mysql \
--engine-version 8.0.40 \
--allocated-storage 20 \
--master-username admin \
--master-user-password xxxxxxxx \
--port 3306 \
--db-name mydatabase \
--storage-type gp3 \
--publicly-accessible \
--backup-retention-period 7 \
--multi-az \
--tags Key=Environment,Value=Development

部署了示例数据库后，编排 Agent 需要通过 tools 调用 API 的方式访问数据库，因此需要部署一个访问数据库的 API Server，如下是运行 API Server 的示例代码，可以通过 Nohup python demo.py & 的方式在服务器上运行。

from starlette.applications import Starlette
from starlette.responses import JSONResponse
from starlette.routing import Route
from sqlalchemy.engine.url import URL
import pymysql
import asyncio
from sqlalchemy import create_engine, text
from typing import List, Dict, Any, Optional, Tuple
from pydantic import BaseModel, validator
import databases
from contextlib import contextmanager

# Data model for database structure information
class DatabaseStructure(BaseModel):
    """Model representing database table structure"""
    name: str 
    fields: List[Tuple[str, str]]
    preview_rows: Optional[List[Tuple]] = None


# Database connection handler
@contextmanager
def create_db_connection(server: str, username: str, pwd: str, database: str):
    """
    Creates and manages database connection
    
    Args:
        server: Database server address
        username: Database login name
        pwd: Database password
        database: Target database name
    """
    try:
        # Construct connection string
        connection_string = f"mysql+pymysql://{username}:{pwd}@{server}:3306/{database}"
        engine = create_engine(connection_string)
        connection = engine.connect()
        yield connection
    except Exception as error:
        raise RuntimeError(f"Database connection error: {str(error)}")
    finally:
        if 'connection' in locals():
            connection.close()


# Retrieve database schema information
async def fetch_schema(request):
    """Endpoint for retrieving database structure information"""
    params = request.query_params
    server = params.get('server')
    username = params.get('username')
    pwd = params.get('pwd')
    database = params.get('database')
    
    if not all([server, username, pwd, database]):
        return JSONResponse({"error": "Missing connection parameters"}, status_code=400)
    
    try:
        with create_db_connection(server, username, pwd, database) as conn:
            # Get all tables
            tables_query = text("SHOW TABLES")
            tables_result = conn.execute(tables_query)
            tables = [row[0] for row in tables_result]
            
            schema_info = []
            
            for table in tables:
                # Get columns information
                columns_query = text(f"DESCRIBE {table}")
                columns_result = conn.execute(columns_query)
                columns = [(row[0], row[1]) for row in columns_result]
                
                # Get sample data
                sample_query = text(f"SELECT * FROM {table} LIMIT 3")
                sample_result = conn.execute(sample_query)
                samples = [tuple(row) for row in sample_result]
                
                table_info = DatabaseStructure(
                    name=table,
                    fields=columns,
                    preview_rows=samples
                )
                schema_info.append(table_info.dict())
                
            return JSONResponse({"database_structure": schema_info})
    except Exception as e:
        return JSONResponse({"error": str(e)}, status_code=500)


# Execute SQL query
async def run_sql_query(request):
    """Endpoint for running SQL queries against the database"""
    data = await request.json()
    sql_statement = data.get('sql_statement')
    server = data.get('server')
    username = data.get('username')
    pwd = data.get('pwd')
    database = data.get('database')
    
    if not all([sql_statement, server, username, pwd, database]):
        return JSONResponse({"error": "Missing required parameters"}, status_code=400)
    
    try:
        with create_db_connection(server, username, pwd, database) as conn:
            result = conn.execute(text(sql_statement))
            
            if result.returns_rows:
                columns = result.keys()
                data = [dict(zip(columns, row)) for row in result]
                return JSONResponse({"result": data})
            else:
                return JSONResponse({"message": "Query executed successfully"})
    except Exception:
        return JSONResponse({"error": "Query execution failed. Please check your SQL syntax."}, status_code=400)


# Routes configuration
routes = [
    Route('/database-schema', endpoint=fetch_schema, methods=["GET"]),
    Route('/query', endpoint=run_sql_query, methods=["POST"]),
]

# Initialize application
api = Starlette(routes=routes)

# Server startup
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(api, host="0.0.0.0", port=8080)

四、部署好 Dify 及 API Server，我们可以进行 Agent 的编排。不同于 Workflow 或基于 DAG 图的编排方式，Dify 中可以基于自然语言和开箱即用的方式快速搭建 Agent。下图展示了 Agent 编排的几项核心元素：

LLM 大语言模型：负责意图识别/观察/思考/规划/迭代等，是 Agent 的大脑。
系统提示词：基于自然语言的方式指导 LLM 按照提示要求和流程完成既定任务。
知识库：通过 RAG 提供专业内容/名字解释/政策文档/企业特有数据等，帮助 LLM 更好地理解和完成任务，给出准确和规范的反馈。
工具：Agent 的核心能力，通过工具调用完成与外部环境的交互，无限拓展 LLM 的能力边界，完成单人甚至多人协作才能完成的特定任务。

五、工具定义。这里我们自定义两个工具，分别完成获取数据库 Schema 和执行 SQL 的任务。基于前面 API Server 的接口定义，我们可以通过 OpenAPI 规范创建自定义工具。OpenAPI 内容也可以通过 Swagger 工具或 LLM 生成。

示例：执行 SQL 查询 API

{
  "openapi": "3.0.0",
  "info": {
    "title": "SQL Query Execution API",
    "description": "API for executing SQL queries against databases",
    "version": "1.0.0"
  },
  "servers": [
    {
      "url": "https://api.example.com/v1",
      "description": "Main production API server"
    },
    {
      "url": "/",
      "description": "Relative server path"
    }
  ],
  "paths": {
    "/query": {
      "post": {
        "summary": "Execute SQL query",
        "description": "Executes a SQL statement against the specified database and returns results",
        "operationId": "executeSqlQuery",
        "requestBody": {
          "description": "Query parameters and database connection information",
          "required": true,
          "content": {
            "application/json": {
              "schema": {
                "type": "object",
                "required": ["sql_statement", "server", "username", "pwd", "database"],
                "properties": {
                  "sql_statement": {
                    "type": "string",
                    "description": "SQL query to execute"
                  },
                  "server": {
                    "type": "string",
                    "description": "Database server address"
                  },
                  "username": {
                    "type": "string",
                    "description": "Database username"
                  },
                  "pwd": {
                    "type": "string",
                    "description": "Database password"
                  },
                  "database": {
                    "type": "string",
                    "description": "Target database name"
                  }
                }
              },
              "examples": {
                "select": {
                  "summary": "Select query example",
                  "value": {
                    "sql_statement": "SELECT * FROM users LIMIT 10",
                    "server": "localhost",
                    "username": "dbuser",
                    "pwd": "password123",
                    "database": "mydb"
                  }
                }
              }
            }
          }
        },
        "responses": {
          "200": {
            "description": "Successful operation",
            "content": {
              "application/json": {
                "schema": {
                  "type": "object",
                  "oneOf": [
                    {
                      "properties": {
                        "result": {
                          "type": "array",
                          "description": "Query results (for SELECT statements)",
                          "items": {
                            "type": "object",
                            "additionalProperties": true
                          }
                        }
                      }
                    },
                    {
                      "properties": {
                        "message": {
                          "type": "string",
                          "description": "Success message (for non-SELECT statements)"
                        }
                      }
                    }
                  ]
                }
              }
            }
          },
          "400": {
            "description": "Bad request - invalid query or missing parameters",
            "content": {
              "application/json": {
                "schema": {
                  "type": "object",
                  "properties": {
                    "error": {
                      "type": "string"
                    }
                  }
                }
              }
            }
          }
        }
      }
    }
  }
}

此外，我们还添加了 3 个 Dify 内置的 Chart 图表可视化工具。

六、Demo 效果演示

政策咨询

数据分析任务

数据可视化

总结

本文介绍了如何基于亚马逊云科技提供的完善的服务以及 GenAI 和大模型能力，通过 Dify Agent 快速构建和部署 text2SQL 智能数据分析助手的实践方案。通过将大语言模型的理解能力与结构化数据查询技术相结合，我们实现了一个能够理解自然语言、精准转换为 SQL 查询并提供数据洞察的智能助手系统。这种实践不仅大幅降低了数据分析的技术门槛，更为企业释放数据价值提供了高效路径。

值得强调的是，智能 Agent 已成为生成式 AI 技术落地应用的关键范式和主要趋势。相比于单纯的对话机器人，Agent 具备了理解、规划、执行和反馈的闭环能力，能够真正完成复杂的业务任务，实现AI从”能对话”到”能工作”的关键跨越。当前，企业可以根据自身技术储备和业务需求，在 Amazon Bedrock、Dify、LangGraph 等不同 Agent 编排框架和技术路线中进行选择，每种方案都具有其独特优势和适用场景。

然而，要将 Agent 技术真正落地为生产级应用，工程化方面还有诸多挑战需要深入探索：

质量保障：如何确保 RAG 检索结果的相关性和全面性，如何提高生成 SQL 的准确性，以及如何验证分析结果与反馈的可靠性
安全与治理：如何实现不同角色人员的数据访问控制，包括认证、授权和租户隔离，保障数据安全的同时不影响使用体验
复杂任务处理：如何通过 Multi-Agent 编排完成涉及多个步骤和多种能力的复杂业务流程，实现更贴近真实业务场景的端到端解决方案
领域适配：如何结合特定行业知识和业务规则，使通用 Agent 演变为真正的领域专家
持续监测：通过监控/日志分析 Agent 运行情况，持续优化成本/架构

相信 Agent 技术将沿着几条清晰的发展轨迹持续演进：首先是能力边界的扩展，从单一任务向复杂工作流程延伸；其次是自主性的提升，减少人工干预，增强自我纠错和学习能力；再次是专业化的深入，形成针对不同领域的专家级 Agent；最后是协作模式的成熟，多 Agent 协同工作将成为解决复杂业务问题的标准方式。在这场 AI 驱动的革命中，早期探索者将获得显著的竞争优势。期待看到更多企业勇于尝试 Agent 技术，构建更加智能、高效的 AI 数据驱动未来。

亚马逊云科技提供完整的 GenAI 解决方案，从 Amazon Bedrock 丰富的的 GenAI 能力，到容器化/Serverless 等高可用部署架构，亚马逊云科技集成丰富的 AI 基础设施、托管数据服务和安全合规框架，支持多种向量数据库和 LLM 模型，全面加速企业 GenAI 应用从开发到生产的全流程。

参考资料

https://catalog.us-east-1.prod.workshops.aws/workshops/2c19fcb1-1f1c-4f52-b759-0ca4d2ae2522/zh-CN

https://aws.amazon.com/cn/blogs/china/deploying-high-availability-dify-based-on-amazon-eks/

https://github.com/aws-samples/sample-serverless-dify-stack

https://docs.dify.ai/learn-more/use-cases/how-to-connect-aws-bedrock

https://github.com/datacharmer/test_db

本篇作者

本期最新实验为《创新基石 —— 基于 Graviton 构建差异化生成式AI向量数据库》
✨ 在本次实验中，你可以在基于 Graviton 的 EC2 实例上轻松启动 Milvus 向量数据库，加速您的生成式 AI 应用。基于 Graviton 的 EC2 实例为您提供极佳性价比的向量数据库部署选项。
📱 即刻在云上探索实验室，开启构建开发者探索之旅吧！
⏩[点击进入实验] 构建无限, 探索启程！

利用大模型实现地理领域文档中英文自动化翻译

2025-04-17T11:07:57+08:00

一、背景描述

在跨国性企业日常经营过程中，经常会遇到专业性较强的文档翻译的需求，例如法律文书、商务合同、技术文档等；以往遇到此类场景，企业内部往往需要指派专人投入数小时甚至数天来整理和翻译，效率低下，严重影响了企业日常经营和生产。如何利用自动化工具来自动化批量处理专业文档翻译的工作，使员工更加专注于业务创新，成为摆在企业面前的重要课题。

随着机器学习和大语言模型等技术的飞速发展，专业文档翻译的自动化成为了可能。客户希望构建一个地理领域专业文档的翻译方案，使其通过大语言模型进行翻译，并且提出如下几点要求：

自动识别文档的语言种类，自动进行中翻英或者英翻中；
翻译后的文档尽可能地保留 Microsoft Office Word 文档中的格式；
尽可能地使用地理专业领域的术语，支持客户的术语表并可以用简单的方式扩展；
避免中式英语，符合英文的语序和表达习惯。

二、方案概述

根据客户需求，我们进行了方案的概念模型设计：

方案执行的流程如下：

用户上传中文/英文文档到“输入文档存储”；
上传完成的动作，触发文档翻译的处理作业，该作业会调用大语言模型；
翻译作业完成后，生成对应的英文/中文文档，结果保存到“输出文档存储”。

基于以上概念模型和流程设计，我们形成了如下的方案组件选型：

文档存储，包括原始输入文档存储和翻译后的输出文档存储，我们选用 Amazon S3，因为该服务支持事件通知，可以触发无服务器资源例如 Amazon Lambda 进行处理；
文档处理，也就是具体的文档翻译作业，我们选择使用 Lambda，并在代码中调用 Amazon Bedrock 上的大模型来实现；
日志记录，开启 Amazon CloudWatch Logs 记录 Lambda 执行过程，方便故障排查和代码调试。

方案部署架构设计如下：

具体执行过程如下：

用户通过亚马逊云科技控制台上传原始文档到 Amazon S3 Input 存储桶；
S3 对象上传成功的通知，触发 Amazon Lambda 调用 Amazon Bedrock 上的大模型执行文档翻译；
Lambda 执行完成后，翻译后的文档自动保存到 S3 Output 存储桶；

用户可以在 Amazon CloudWatch Logs 中查看 Lambda 执行记录。

三、核心代码实现

语种检测

本方案使用 Amazon Bedrock 上的大模型对用户上传的文档，实现了自动化识别其语种是英语还是中文，如果是中文自动翻译成英文，如果是英文则翻译成中文。以下是语种检测部分的代码：

def language_detector(query):
    print("debug")
    model_id = '<you-model-id>'
    print(<you-model-id>')
    response = bedrock.invoke_model(body=_get_complete_lang_detect_prompt(query), modelId=model_id)

    print('<< call <you-model-id>')
    response_body = json.loads(response.get('body').read())
    print(response_body)
    match = re.search(r'<lang>([\s\S]*?)</lang>',  response_body['content'][0]['text'])
    print(f"response_body:{ response_body['content'][0]['text']}")
    if match:
        final_response = match.group(1)
        print(f"> in: {query}")
        print(f"> Language detected: {final_response}")
        return final_response
    else:
        # print(f"> in: {query}")
        print(f"< out: BR ERROR in language detect!!!")
另外，在调用 Amazon Bedrock 上的大模型时，需要按照其格式提供提示词模版，语种检测提示词模板部分的代码如下：

def _get_complete_lang_detect_prompt(query, domain='None'):
    system_prompt = f"""You need to detect the language in the given text. 
                     If the text contains characters from different languages, then you should respond the major ONE language that is used. 
                     Your output will be processed by a program so no explaintaion is needed.
                     NOTE: You are detecting the language in the given text, not the topic it is telling about.
                      <text> + {query} + </text>
                     The result should be in the tag of <lang></lang>. No explanation is needed. <lang>Respond only within these tags and do not provide any additional text outside the tags.</lang>. E.G. <lang>English</lang> or <lang>Chinese</lang>."""

    user_message = {"role": "user", "content": query}
    messages = [user_message]

    return json.dumps({
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 80960,
        "system": system_prompt,
        "messages": messages
    })

文档翻译

本方案中文档翻译使用了 Amazon Bedrock 上的大模型，核心代码如下：

def agent_bedrock(query, to_language, domain="None"):
    model_id = <you-model-id>'
    
    response = bedrock.invoke_model(body=_get_complete_prompt(query, to_language, domain), modelId=model_id)

    response_body = json.loads(response.get('body').read())
    match = re.search(r'<TRANSLATED>([\s\S]*?)</TRANSLATED>', response_body['content'][0]['text'])
    if match:
        final_response = match.group(1)
        # print(f"> in: {query}")
        # print(f"< out: {final_response}")
        return final_response
    else:
        # print(f"> in: {query}")
        print(f"< out: BR ERROR!!!")
        return query

文档翻译对应的提示词如下：

def _get_complete_prompt(query, to_language='English', domain='None'):
    system_prompt = f"""
            You are a helpful and honest AI assistant, now I want you to 
            help in translation for the give text. 
            you will translate the given text to its {to_language} version.  
            The following are the rules to follow during the translation.
            
            * The input will be in <TO_TRANSLATE> tag. they can be words, numbers, or single character, 
                Sometimes they are already in the target language, then only respond the original text into the <TRANSLATED> tag.
            * it is OK if you don't very confident to translate, 
                in such cases, you can give the best translate you can, because we will have human review later on.
            * Your output will be put to <TRANSLATED></TRANSLATED> tag. 
            * So, in summary, <TRANSLATED> tag should contain translated or original text, 
                <error> tag should contain the reason why you cannot translate.
            * The given content is in the {domain} domain, so you should use the professional terms if applicable.
            * If it is the Chinese-to-English translation, please be aware that the order of terms may very different between the two language. Use the order of English
                to make it flow better. 
            * the following is the terms for you to follow up: {_geo_terms}
            
        """

    user_message = {"role": "user", "content": "<TO_TRANSLATE>" + query + "</TO_TRANSLATE>"}
    messages = [user_message]

    return json.dumps({
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 80960,
        "system": system_prompt,
        "messages": messages
    })

文档解析

由于客户提供的输入文档限定为 Microsoft Office Word 格式，因此本方案采用 Python 中的 docx 库进行 Word 文档解析，代码参考如下：

import docx
def parse_doc_and_translate(input_file_name, output_file_name):
    """
    Parse the document and translate the text
    """
    doc = docx.Document(input_file_name)
    texts = []

专业术语翻译

地理领域的专业术语，放在文本文件中（命名为 terms.txt），上传到 Amazon S3 存储桶；在翻译的时候会先行从 S3 上读取专有词汇表，并自动将专有名词注入到提示词中。专有名词的格式如下：

Airy Hypothesis 艾里假说;
alias 假频;
amplitude spectrum 振幅谱;
antiroots 反山根;
Bouguer anomaly 布格异常;
Bouguer correction 布格改正;
continuation 延拓;
density 密度;

如果有新的专有词汇需要加入，只需要更新 S3 上的词汇表即可自动生效。在调用 Amazon Bedrock 上的大模型进行翻译时，提示词要求按照该术语表翻译，这部分核心代码如下：

import os
import boto3

s3 = boto3.client('s3')

S3_BUCKET = os.environ.get('APP_BUCKET_NAME', 'aaa-demo')
S3_TERMS_FILE = os.environ.get('S3_TERMS_FILE', 'terms.txt')

def geo_terms():
  #  Download the object content to a variable
  response = s3.get_object(Bucket=S3_BUCKET, Key=S3_TERMS_FILE)
  file_content = response['Body'].read().decode('utf-8')
  return file_content

if __name__ == '__main__':
print(geo_terms())

# Amazon Bedrock 上的大模型的提示词中引用该术语表
def _get_complete_prompt(query, to_language='English', domain='None'):
system_prompt = f"""
…
* the following is the terms for you to follow up: {_geo_terms}
        """

并发配置和异常处理

本方案 Lambda 的并发配置如下：

CONCURRENT_FOR_BEDROCK_INVOCATION = os.environ.get(
    'CONCURRENT_FOR_BEDROCK_INVOCATION', '3')

如果同时上传多个文件，每个 Doc 会相应地启动一个 Lambda 实例来进行翻译工作；在执行翻译的时候，文档会被拆分成段落，并对每个段落进行翻译。一个文档可能会被拆分成 200~400 个片段，为了加快翻译速度，我们加入了并发执行的逻辑，并发数由上面的“CONCURRENT_FOR_BEDROCK_INVOCATION”来控制。设置该参数时需要考虑亚马逊云科技账号中 Bedrock 上的大模型的最大并发数（一般是每分钟 200 次），同时需要考虑并发的文档数量。

四、总结与展望

本次我们采用亚马逊云科技原生服务搭建了一套地理领域专业文档翻译的解决方案，该方案核心处理逻辑采用了亚马逊云科技无服务器化服务 Amazon Lambda，翻译处理完全基于事件触发，对于用户来说大幅降低使用成本，同时运维负担小，用户体验友好。但客户也提出了一些改进意见，例如希望提供独立于亚马逊云科技 Console 的 Web 页面、对用户进行权限划分、专业术语表用户可自行添加、翻译任务状态展示等，后续我们将联合合作伙伴，对这些工程化和定制化功能继续深入合作。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

Amazon Bedrock 上的模型擂台赛：DeepSeek、Nova、Claude，谁是最强文本审核大模型？

2025-04-17T10:05:15+08:00

前言

随着互联网和移动互联网的快速发展，用户生成内容（UGC）的数量呈现出爆炸式增长。无论是社交媒体平台、电子商务网站，还是在线视频分享平台，用户生成的文字、图像、视频等内容都在不断增加。这些内容中可能包含有害、违法或不当的信息，对平台的品牌形象、用户体验和社会环境都可能产生负面影响。因此，对用户生成内容进行及时、准确的审核尤为重要。

然而，传统的人工审核方式已经难以满足当前内容审核的巨大需求。人工审核不仅成本高昂、效率低下，而且容易受到主观因素的影响，审核质量和一致性难以保证。此外，随着审核内容的多模态化（文字、图像、视频等）和多语种化，人工审核的挑战进一步加大。在这种背景下，生成式人工智能（Generative AI）技术为内容审核带来了全新的解决方案。基于大语言模型和多模态模型的生成式 AI 技术，可以自动、高效、准确地审核海量的用户生成内容，识别出有害、违规或不当的内容，从而保护平台的健康环境和用户体验。

生成式 AI 在内容审核领域的应用不仅可以大幅降低审核成本、提高审核效率，而且可以通过模型优化和持续学习，不断提升审核的准确性和一致性。同时，生成式 AI 技术还可以实现内容审核的自动化和智能化，减轻人工的工作负担，释放更多人力资源投入到其他高价值的工作中。

本文将探讨如何使用亚马逊云科技 Amazon Bedrock 上提供的生成式 AI 大模型进行文本内容审核。本文将使用同一文本审核测试数据集，从审核准确率、审核时延以及审核成本等多项指标全面评估 Amazon Bedrock 上不同大模型的表现差异，包括 DeepSeek 系列模型、亚马逊自研大模型 Nova 系列、Anthropic 的 Claude 3.x 系列模型，对比分析不同模型在不同应用场景下的优势，为您选择和构建合适的基于大模型的文本审核解决方案提供洞见与参考，本文提供了一套完整的部署测试代码，您可以更改代码中的数据与提示词进行自定义的测试。

此外，亚马逊云科技提供了一系列托管人工智能服务，包括 Amazon Rekognition、Amazon Comprehend、Amazon Transcribe、Amazon Translate，以及其他技术，来帮助您快速打造自动化智能化多模态内容审核方案，包括图像、视频、文本和音频审核工作流程，详情参考博客。

DeepSeek 模型访问及说明

DeepSeek 是中国 AI 初创公司，其于 2024 年 12 月推出了 DeepSeek-V3，随后于 2025 年 1 月 20 日发布了 DeepSeek-R1、DeepSeek-R1-Zero（拥有 6710 亿参数）以及 1.5-70 亿参数不等的 DeepSeek-R1-Distill 模型。这些模型均可公开获取，据称比同类模型便宜 90-95%，更具成本效益。DeepSeek 称，其系列模型以创新的训练技术（如强化学习）而突出，具有出色的推理能力。

您可以使用您的海外区亚马逊云科技账号在 Amazon Bedrock 和 Amazon SageMaker AI 上部署或访问 DeepSeek-R1 模型以系列蒸馏模型。Amazon Bedrock 最适合希望通过 API 快速集成预训练基础模型的团队。Amazon SageMaker AI 则更适合需要高级定制、训练和部署，并可访问底层基础设施的组织。此外，您还可以使用 Amazon Trainium 和 Amazon Inferentia 通过 Amazon Elastic Compute Cloud (Amazon EC2)或 Amazon SageMaker AI，具成本效益地部署 DeepSeek-R1-Distill 模型，从而进行文本审核。

如果您是亚马逊云科技中国区账号的拥有者，您可以通过亚马逊云科技合作伙伴硅基流动，在亚马逊云科技 Marketplace 中国区域上架的“SiliconCloud – Models as a Service”产品访问 DeepSeek 全系列模型，同时，您可以选择在 Amazon SageMaker AI 或 Amazon EC2 私有化部署 DeepSeek 全系列模型，进行文本审核。

测试数据说明

实验使用 Hugging Face 数据作为测试数据，测试数据共 1680 条，由毒性标签（色情、仇恨、暴力、骚扰、自残、性/未成年人、仇恨/威胁、暴力）和非毒性标签组成。标签详细说明如下表格所示。

DeepSeek 系列模型在文本审核上的对比

本次试验使用 Amazon Marketplace Silliconflow API 以及 Amazon Bedrock DeepSeek-R1 API 来调用模型进行。

从准确率来看，Deepseek-R1、DeepSeek-V3、Deepseek Distilled Llama70B，以及 DeepSeek Distilled Qwen 32B 都达到了 90% 以上的准确率。DeepSeek-R1 准确率最高，达到了 97.14%。值得注意的是，DeepSeek Distilled Qwen 32B 的准确率为 92.86%，超过了 Deepseek Distilled Llama 70B，仅次于 Deepseek-R1。

从首字节延迟来看，DeepSeek Distilled Qwen 32B 的速度为 0.29/ms，比 DeepSeek-R1 快一倍。

从价格上来看，每次输入 500 个 token，DeepSeek 系列模型输出 570 个 token（1 character = 0.3 token）。在一万次调用下，总共消耗 5M 的输入 token 以及 5.7 M 的输出 token。使用亚马逊 Marketplace 硅基流动产品的 DeepSeek API 来计费，DeepSeek Distilled Qwen 32B 和 DeepSeek-V3 的价格大约仅为 DeepSeek-R1 硅基流动 API 的 13% 左右。Bedrock DeepSeek-R1 API 的价格虽然高于 DeepSeek-R1 硅基流动 API，但总延迟降低 52.6%（21.55s → 10.22s），首字节响应速度提升 40%。

因此，从成本优化的角度来看，DeepSeek Distilled Qwen 32B、DeepSeek-R1进行文本审核的成本更优；如果您没有对模型追溯性的需求，则可以使用 DeepSeek-V3模型，在保证高准确性的同时大幅降低了审核成本。

注：DeepSeek 硅基流动 API 仅限中国区账号使用。海外区账号可以使用 Bedrock DeepSeek-R1 API。

Table 注释：

准确率：判断文本是否存在毒性（及是否存在黄暴、侮辱、仇恨言论）的准确率。
total latency：从提问模型到模型回答完毕的延迟时间。其中 DeepSeek-R1 蒸馏模型使用 Amazon EC2 机器部署，DeepSeek-R1 使用 Amazon Marketplace 硅基流动 API 或 Amazon Bedrock DeepSeek API 部署，DeepSeek-V3 使用 Amazon Marketplace 硅基流动 API。延迟时间会受到部署方式的影响。
ttft：从提问模型到模型输出第一个字节的延迟时间。其中 DeepSeek-R1 蒸馏模型使用 Amazon EC2 机器部署，DeepSeek-R1 使用 Amazon Marketplace 硅基流动 API，或 Amazon Bedrock DeepSeek API 部署，DeepSeek-V3 使用 Amazon Marketplace 硅基流动 API。ttft 会受到部署方式的影响。
API 调用价格：按照每百万输入和输出 token 计费。使用 Amazon Marketplace 硅基流动 API 或 Amazon Bedrock DeepSeek API 的调用价格。其中只有 Bedrock DeepSeek-R1 API 使用 Amazon Bedrock 价格计费，其余模型使用 Amazon Marketplace 硅基流动的计费方式。
EC2 部署价格/hr：蒸馏系列模型每小时使用 EC2 机器的价格。
机型：部署蒸馏系列模型的机型。

模型准确率对比

在文本审核任务中，DeepSeek 系列模型展现出不同水平的准确率表现。高准确率模型中，DeepSeek-R1 以 97.14% 的准确率领先，其次是 DeepSeek-V3，达到 95.71%，DeepSeek Distilled Qwen 32B 和 DeepSeek Distilled Llama 70B 分别达到 92.86% 和 91.42% 的准确率。值得注意的是，DeepSeek Distilled Qwen 32B 的准确率为 92.86%，超过了 DeepSeek Distilled Llama 70B，仅次于 DeepSeek-R1。

延迟性能对比

在 API 调用部署方式下，三种模型的延迟性能各有特点。从数据可以看出，Bedrock DeepSeek-R1 API 的首字节响应速度比硅基流动 API 版本快约 40%，总延迟也比硅基流动版本降低了 52.6%。虽然 DeepSeek-V3 在总延迟方面表现最佳，但其首字节响应速度相对较慢。

在 EC2 自部署环境中，各模型的延迟表现差异明显。DeepSeek Distilled Llama 70B 在 g6.12xlarge 实例上的总延迟仅为 2.95 秒，表现最佳；DeepSeek Distilled Qwen 32B 在 g5.12xlarge 上的首字节延迟为 0.26 秒，响应速度优秀，总延迟为 11.26 秒；DeepSeek Distilled Qwen 14B 在相同实例上的首字节延迟为 0.62 秒，总延迟达到 16 秒；DeepSeek Distilled Llama 8B 在 g5.2xlarge 上的首字节延迟为 0.39 秒，总延迟为 15.53 秒；DeepSeek Distilled Qwen 7B 和 1.5B 在 g5.2xlarge 上的首字节延迟分别为 0.09 秒和 0.04 秒，总延迟分别为 3.4 秒和 2.31 秒。这说明小型模型通常具有更低的首字节延迟，而大型模型在总体响应时间方面可能更有优势，特别是在适合的硬件配置下。

成本对比分析

API 调用成本方面，DeepSeek-V3 的价格仅为 DeepSeek-R1 硅基流动 API 的约 13.7%，而准确率仅下降 1.43%，提供了极具吸引力的性价比。虽然 Bedrock DeepSeek-R1 API 价格最高，但它提供了更好的延迟性能，适合对响应速度有较高要求的应用场景。

EC2 部署成本方面，不同模型根据所需实例类型而有所差异。DeepSeek Distilled Qwen 32B 提供了最佳的准确率与成本平衡，而 DeepSeek Distilled Llama 70B 在稍低的成本下也能提供接近的准确率表现。小型模型虽然部署成本低，但准确率显著下降，不适合对准确性要求较高的应用场景。

DeekSeek Vs Claude Vs Nova 在文本审核上的对比

接下来我们选择在该数据集上综合表现不错的 DeepSeek-R1、DeepSeek-V3 来和 Amazon 自研 Nova 系列模型以及业界领先模型 Claude3.x 系列模型做对比。

模型准确率对比

在文本审核任务中，各模型展现出不同水平的准确率表现。Claude 3.7 Sonnet 和 DeepSeek-R1 并列第一，均达到了 97.14%的最高准确率。其次是 Amazon Nova Pro、Claude 3.5 Sonnet 和 DeepSeek-V3，这三款模型均达到了 95.71% 的准确率。考虑到在低延迟和价格方面的优势，Amazon Nova Lite 的表现也较为出色。

延迟性能对比

延迟性能方面，Amazon Nova Lite 以 1.1 秒的总延迟和 0.38 秒的首字节延迟（ttft）表现最佳，响应速度极快。Amazon Nova Pro 也表现出色，总延迟仅为 2.65 秒，首字节延迟为 0.43 秒。Claude 系列模型的延迟表现也很优秀，特别是 Claude 3.7 Sonnet，准确率最高的同时总延迟仅为 3.81 秒。

相比之下，DeepSeek 系列模型的延迟表现差异较大。DeepSeek-V3 的总延迟为 8.2 秒，首字节延迟为 0.75 秒；DeepSeek-R1 模型不可避免的 reasoning 过程会导致延迟的增加。Bedrock DeepSeek-R1 API 的总延迟为 10.22 秒，但首字节延迟仅为 0.25 秒，表明其初始响应速度很快；而 DeepSeek-R1 硅基流动 API 的总延迟最高。这表明在延迟性能方面，Amazon Nova 系列和 Claude 系列模型明显优于 DeepSeek 系列模型，特别是在总响应时间方面。

成本对比分析

在成本效益方面，各模型之间的差异更为显著。Amazon Nova Lite 以每万次调用仅需 ¥3.62 的价格遥遥领先，成为最具成本效益的选择。Amazon Nova Pro 的价格为每万次调用 ¥45.56，虽然比 Nova Lite 高，但考虑到其 95.71% 的高准确率，仍然提供了很好的性价比。

Claude 3.7 Sonnet 的价格与 DeepSeek-R1 硅基流动 API 相差不会太大，同时 Claude 3.7 Sonnet 相较于 DeepSeek-R1 的优势是可以关闭 reasoning 功能或是控制 reasoning 的输出大小，可以通过调整 max output token 来更好地控制成本。而 Amazon Bedrock DeepSeek-R1 API 则可以提供相同智力水平的情况下，相较于硅基流动 API 更低的延迟（10.22s）。

值得注意的是，DeepSeek-R1 系列模型每次调用平均输出 570 个 token，明显高于其他模型：Claude 系列为 150-175 个 token，Nova 系列和 DeepSeek-V3 仅为 66-85 个 token。这种”overthinking”现象显著增加了 DeepSeek-R1 的使用成本，特别是在大规模调用场景下。

例子

实验使用简单的提示词，将数据分类标签以及文本内容提供给模型，让模型判断输入内容是否存在毒性内容，要求模型为内容做标签分类并提供解释。

Prompt = """Here is a paragraph {description}. 
                Your task is to critically review if the above paragraph has toxic content.
                For example,toxic content can be categorized into include but not limited to: {moderation_policy}. 
                If the content falls into any toxic category above, answer me with Unsafe and then classify the content with the labels in {moderation_policy}
                If the content don't contain any content above, answer me with Safe, give me the classification with Good. Whatever give me explanation of your assessment. 
                Answer format as follows, do not output anything else:
                '''
                Result:"Safe or Unsafe"
                Classification:"<labels>"
                Explanation
                '''"""
moderation_policy="""
1.sexual labeled as S:Content meant to arouse sexual excitement, such as the description of sexual activity, or that promotes sexual services (excluding sex education and wellness).
hate labeled as H:Content that expresses, incites, or promotes hate based on race, gender, ethnicity, religion, nationality, sexual orientation, disability status, or caste.
violence labeled as V:Content that promotes or glorifies violence or celebrates the suffering or humiliation of others.
harassment labeled as HR:Content that may be used to torment or annoy individuals in real life, or make harassment more likely to occur.
self-harm labeled as SH:Content that promotes, encourages, or depicts acts of self-harm, such as suicide, cutting, and eating disorders.
sexual/minors labeled as S3:Sexual content that includes an individual who is under 18 years old.
hate/threatening labeled as H2:Hateful content that also includes violence or serious harm towards the targeted group.
violence/graphic labeled as V2:Violent content that depicts death, violence, or serious physical injury in extreme graphic detail."""

通过测评发现，所有测评模型都存在可能过于简单地关注到了一些关键词语，而忽视了整体语境的中立性的问题。下面提供的两个例子的特性是，内容虽也提到了毒性词汇，但整体来看，并不是在直接传播负面观点或有害内容，而是在客观描述一个虚构的背景情节。以 DeepSeek-R1 的回答为例，模型并没有办法判断出这段内容的中立性，反而错误的将内容标注为存在毒性。

建议使用 few-shot，prompt-engineering 等方式提升模型在此场景下的准确性。

例子 1:

Anyone else starting to get the feeling that these people are just debtors to drug cartels trying to pay shit off with <Organization> votes?

DeepSeek-R1 回答：

Result:"Unsafe"
Classification:"H"
Explanation
The paragraph contains accusatory language implying that a group (associated with "<Organization>") is involved with drug cartels and manipulative political behavior. This promotes negative stereotypes and could incite distrust or hostility toward the unspecified group, falling under hate (H) as it targets a collective entity with harmful generalizations. While violence (V) or explicit threats (H2) are not directly present, the insinuation of criminal activity and derogatory tone ("debtors to drug cartels") fosters a prejudicial narrative unsuitable.

例子 2:

You are in the city of Nivaär. Once a thriving metropolis has now been reduced to a crumbling kingdom ran by rapist and murders. Under the reign of King <Person>, the kingdom ranked among the strongest of the kingdoms. During the Searing Wars, <Person> took up arms with the neighboring kingdom of Bwelgun and formed the <Organization>, named rightly after the twin swords each king had forged in order to commemorate their new found friendship. However, this alliance proved to be a grave mistake for <Person>. <Person>, king of Bwelgun, became power hungry and saw an opportunity in the form of betrayal. <Person> and his king’s guard surrounded <Person> on the battlefield and executed him on the spot. <Person> then placed his first son, <Person>, on the throne of Nivaär. <Person> has been a ruthless leader, executing people for the sheer joy it brings him to see people suffer.

DeepSeek-R1 回答：

Result:"Unsafe"
Classification:"S, V2"
Explanation
The paragraph contains references to sexual violence ("rapists") labeled under S. Additionally, it describes graphic violence including execution for enjoyment, torture methods, and a setting ruled by murderers, which falls under V2 for depicting extreme violence and suffering.

实验步骤

实验步骤将演示使用 Amazon Bedrock API 调用 DeepSeek-R1 的方式，在 Amazon SageMaker AI 的 Notebook 中进行实验。

如果您是首次使用 DeepSeek-R1 模型，请按照以下步骤操作：

前往 Amazon Bedrock 控制台
在左侧导航栏的 Bedrock 配置下，选择“模型访问（Model access）”选项
要访问完全托管的 DeepSeek-R1 模型，请在 DeepSeek 类别中申请 DeepSeek-R1 的访问权限
申请批准后，您将获得在 Amazon Bedrock 中使用该模型的权限

完成这些步骤后，您就可以开始使用 DeepSeek-R1 模型了。

现在您可以前往 Amazon SageMaker AI 控制台，在控制台中左侧导航栏处选择 Notebooks，点击创建笔记本实例。填入笔记本实例名称，笔记本实例类型选择 ml.t3.large 即可。其余选项默认，点击创建笔记本实例即可。笔记本实例创建需要等待 2-3 分钟。

打开创建好的笔记本实例。创建一个 conda_pytorch_p310 Notebook，并将以下三个代码块复制到 Notebook 中。

数据准备代码

!pip install -U sagemaker
import json
import sagemaker
import boto3
import pandas as pd
import numpy as np
df = pd.read_json("hf://datasets/mmathys/openai-moderation-api-evaluation/samples-1680.jsonl.gz", lines=True)
test = pd.DataFrame()
test['prompt'] = df['prompt']
test['labels'] = df.apply(lambda row: ','.join([col for col, val in row.items() if val == 1.0 and col != 'prompt']), axis=1)
test['labels'] = test['labels'].replace('', 'Good')
categories = {
'SH': 'self-harm',
'H': 'hate',
'V': 'violence',
'HR': 'harassment',
'S': 'sexual',
'S3': 'sexual/minors',
'H2': 'hate/threatening',
'V2': 'violence/graphic',
'Good': 'good'
}
# 测试数据集
test_df = pd.DataFrame(columns=['prompt', 'labels'])
for label in categories.keys():
category_data = test[test['labels'].str.contains(label, na=False)]
sample_size = min(np.random.randint(5, 11), len(category_data))
# 随机采样
if len(category_data) > 0:
sampled_data = category_data.sample(n=sample_size, random_state=42)
test_df = pd.concat([test_df, sampled_data])
test_df = test_df.reset_index(drop=True)
moderation_policy="""
1.sexual labeled as S:Content meant to arouse sexual excitement, such as the description of sexual activity, or that promotes sexual services (excluding sex education and wellness).
hate labeled as H:Content that expresses, incites, or promotes hate based on race, gender, ethnicity, religion, nationality, sexual orientation, disability status, or caste.
violence labeled as V:Content that promotes or glorifies violence or celebrates the suffering or humiliation of others.
harassment labeled as HR:Content that may be used to torment or annoy individuals in real life, or make harassment more likely to occur.
self-harm labeled as SH:Content that promotes, encourages, or depicts acts of self-harm, such as suicide, cutting, and eating disorders.
sexual/minors labeled as S3:Sexual content that includes an individual who is under 18 years old.
hate/threatening labeled as H2:Hateful content that also includes violence or serious harm towards the targeted group.
violence/graphic labeled as V2:Violent content that depicts death, violence, or serious physical injury in extreme graphic detail."""

测试部分代码

from tenacity import retry, stop_after_attempt, wait_exponential
import time

# Initialize Bedrock client
bedrock_runtime = boto3.client("bedrock-runtime")

# Define system prompt(s).
system_prompts = [
    {
        "text": "You are a well-trained language model for detecting inappropriate content in text.",
    }
]

# Configuration
MODEL_ID = "us.deepseek.r1-v1:0" # Bedrock model ID
    
@retry(
    stop=stop_after_attempt(3),
    wait=wait_exponential(multiplier=1, min=30, max=120)
)
def invoke_with_guardrails(prompt, temperature=0.6, top_p=0.9):
    """
    Invoke Bedrock model with streaming input
    """
    try:
        messages = [
            {
                "role": "user",
                "content": [{"text": prompt}],
            }
        ]
    
        # Record start time
        start_time = time.time()
        first_token_time = None
        full_response = ""
    
        # Invoke model with streaming
        response = bedrock_runtime.converse_stream(
            modelId=MODEL_ID,
            messages=messages,
            system=system_prompts,
            inferenceConfig={
               "maxTokens": 2048, "temperature": temperature, "topP": top_p
            }
        )
    
        stream = response.get('stream')
        if stream:
            for chunk in stream:
                if 'messageStart' in chunk:
                    if first_token_time is None:
                        first_token_time = time.time() - start_time
                if 'contentBlockDelta' in chunk:
                    if "delta" in chunk["contentBlockDelta"] and "text" in chunk["contentBlockDelta"]["delta"]:
                        token = chunk["contentBlockDelta"]["delta"]["text"]
                        if token is not None:
                            full_response += token

    
        # Calculate total latency
        total_latency = time.time() - start_time
    
        return full_response, first_token_time, total_latency
    except Exception as e:
        print(f"Error occurred: {str(e)}")
        raise
    
test_df['bedrock_deepseek']=''
test_df['bedrock_deepseek_first_token_latency']=''
test_df['bedrock_deepseek_total_latency']=''

for i in range(len(test_df)):
    try:
        description = test_df['prompt'][i]
        prompt = """Here is a paragraph {description}. 
                Your task is to critically review if the above paragraph has toxic content.
                For example,toxic content can be categorized into include but not limited to: {moderation_policy}. 
                If the content falls into any toxic category above, answer me with Unsafe and then classify the content with the labels in {moderation_policy}
                If the content don't contain any content above, answer me with Safe, give me the classification with Good. Whatever give me explanation of your assessment. 
                Answer format as follows, do not output anything else:
                '''
                Result:"Safe or Unsafe"
                Classification:"<labels>"
                Explanation
                '''""".format(description=description, moderation_policy=moderation_policy)
        
        full_response, first_token_time, total_latency = invoke_with_guardrails(prompt)
        # print(full_response)
        test_df.loc[i, 'bedrock_deepseek'] = full_response
        test_df.loc[i, 'bedrock_deepseek_first_token_latency'] = first_token_time
        test_df.loc[i, 'bedrock_deepseek_total_latency'] = total_latency
    except Exception as e:
        print(f"Failed to process item {i} after all retries: {str(e)}")
        test_df.at[i, 'bedrock_deepseek'] = "ERROR: Processing failed"
        test_df.at[i, 'bedrock_deepseek_total_latency'] = None
        continue

统计实验结果

import re
def extract_classification(text):
    if pd.isna(text):
        return None
    
    match = re.search(r'Result:\s*"?([^"\n]*)"?', text)
    if match:
        return match.group(1)
    return None
test_df['bedrock_deepseek_extracted_classification'] = test_df['bedrock_deepseek'].apply(extract_classification)
def check_classification_in_labels(row):
    if pd.isna(row['bedrock_deepseek_extracted_classification']):
        return 0
    extracted_classification = row['bedrock_deepseek_extracted_classification'].strip()
    
    if extracted_classification == 'Safe' and row['labels'] == 'Good':
        return True
    elif extracted_classification == 'Unsafe' and row['labels'] != 'Good':
        return True
    return False
test_df['bedrock_deepseek_is_correct'] = test_df.apply(check_classification_in_labels, axis=1)
# 计算准确率
accuracy = test_df['bedrock_deepseek_is_correct'].mean()
total_latency = test_df['bedrock_deepseek_total_latency'].mean()
first_latency = test_df['bedrock_deepseek_first_token_latency'].mean()
print(f"模型分类准确率: {accuracy:.2%}")
print(f"模型latency: {total_latency}")
print(f"模型首token_latency: {first_latency}")

运行代码即可。

总结

应用场景建议：

对准确率要求极高，且预算充足：选择硅基流动 DeepSeek-R1、Amazon Bedrock DeepSeek-R1 或 Claude 3.7 Sonnet
需要平衡准确率与成本：选择 DeepSeek-V3 或 DeepSeek Distilled Qwen 32B
需要低延迟、高性价比：选择 Amazon Nova Lite
需要控制输出 token 以优化成本：选择 Claude 3.7 Sonnet

本次评测为企业选择适合其内容审核需求的 AI 模型提供了参考。随着 GenAI 技术的不断发展，我们期待这些模型在准确性、效率和成本方面能够取得更大的突破，为内容审核领域带来更多创新解决方案。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

利用 DeepSeek-R1 模型和计算机视觉微调模型实现马铃薯叶片疾病识别和分类

2025-04-16T14:13:55+08:00

一、需求背景

在农业现代化进程中，作物健康监测对于保障粮食安全和提高农业生产效率起着举足轻重的作用。马铃薯作为全球重要的粮食作物之一，其种植面积广泛，产量和质量直接关系到众多农户的生计以及食品供应链的稳定。准确、快速地鉴别马铃薯叶片的健康状况，能够及时发现病害并采取相应防治措施，有效减少病害对产量的影响，降低农药使用量，促进农业可持续发展。

然而，传统的人工鉴别马铃薯叶片健康状况的方式，不仅耗费大量人力、时间，而且主观性强，容易出现误判。随着人工智能技术的飞速发展，利用图像识别技术实现马铃薯叶片健康状况的自动鉴别成为了可能。客户希望通过自定义微调模型，达成上传马铃薯叶片后迅速鉴别其健康状况的目标。该模型的运行机制是对输入的叶片进行特征抽取，并完成输入数据的多分类任务。

我们的工作核心聚焦于模型可行性验证，主要包含以下方面：

1、依托客户提供的数据，训练并构建图像分类模型，让模型能够快速且精准地依据输入图片的特征，预测出对应的类别标签。

2、需要在实现成本（涵盖训练与推理成本）和模型精准度之间，对多个视觉微调模型展开比对，从而满足客户在不同场景和架构设计下的多样化需求。

3、使用大语言模型协同给出防治建议的效率与效果，确保在满足成本与精度要求的前提下，为用户提供最优质的病害检测与防治建议一体化服务。

二、方案概述

近年来，多模态 AI 模型取得了令人瞩目的进展，这类模型具备同时处理文本和图像的能力，极大地拓展了人工智能的应用边界。像商业模型 GPT-4o、Claude3.5，它们的多模态能力十分强大，在图片分类任务中展现出了不错的表现，能够快速对图像内容进行识别和分类。

然而，当将这些多模态模型应用于马铃薯叶片健康检测这类大规模实际场景时，仍暴露出诸多局限性。一方面，模型在面对如马铃薯叶片早疫病、健康、晚疫病这种自定义标签分类场景时，为了提升精度，需要投入大量精力进行提示词工程的优化工作；另一方面，模型的升级换代可能导致之前积累的有效提示词不再适用，从而需要重新开展大量的调试工作。此外，这类模型的推理成本较高，在大规模处理马铃薯叶片图像数据时，高昂的计算成本使得其在实际应用中受到限制。

鉴于多模态模型在实际应用中的不足，本地部署微调视觉模型成为了更具可行性的方案。在图像分类领域，Yolov11、ResNet50 和 MobileNetV3 等模型有着各自独特的优势。接下来，将深入探讨这些模型在马铃薯叶片健康检测中的应用潜力与价值。

1、常见模型的优势

Yolov11：作为 YOLO 系列最新版本，Yolov11 基于卷积神经网络原理，采用单阶段检测器（SSD）结构，将目标检测转化为回归问题，一次前向传播即可预测目标类别与位置。相比传统 CNN，它引入高效的特征金字塔网络（FPN）变体，融合多尺度特征图，提升对不同大小目标的检测能力；数据增强上运用 Mosaic、CutMix 技术，增加数据多样性，提高模型泛化能力。在马铃薯叶片健康检测中，面对大量图像数据，Yolov11 卓越的检测速度能满足实时检测需求，改进的网络结构与数据增强技术也保证了一定精度。
ResNet50：基于 CNN 基本原理，ResNet50 通过引入残差模块解决深层网络训练的梯度消失问题。其残差连接允许网络学习输入输出间的残差，得以构建更深网络结构，学习高级抽象特征。在马铃薯叶片疾病检测中，其深度结构能够捕捉叶片细微纹理和形状变化等复杂特征，有效提高分类准确性，例如精准识别早期病斑的细微纹理。
MobileNetV3：基于 CNN 原理，MobileNetV3 采用轻量级深度可分离卷积，将标准卷积分解为深度卷积和逐点卷积，大幅减少计算量与参数量。相较于早期版本，它进一步优化网络结构，引入 h-swish 激活函数替代 ReLU，在提升性能的同时降低计算成本，适合在资源受限的移动设备或边缘计算设备上运行，满足农业监测场景中实时检测需求。
自定义 CNN 模型：该模型根据具体任务定制化设计。针对马铃薯叶片疾病检测，依据叶片病症的纹理、形状和颜色特征，专门设计卷积层和池化层结构。例如，针对病害特定纹理设计小尺寸卷积核捕捉细节，根据病害区域分布调整池化步长和区域大小，更精准提取关键特征，有效提升对不同健康状况叶片的识别能力，满足多样化检测需求。

上述 Yolov11、ResNet50、MobileNetV3 和自定义 CNN 模型虽都基于卷积神经网络基本原理，但在网络结构、性能和应用场景上存在明显差异与各自改进点。基于这些模型特点，我们计划运用它们实现马铃薯叶片健康状况检测，并对比评测其能力差异。为更好适应检测任务，我们将利用客户提供的数据对模型进行微调，显著提升模型在马铃薯叶片健康检测领域的性能，实现性能达标且成本低廉的图像分类模型。

2、数据准备

高质量的训练数据对于模型性能至关重要，因此需要精心准备训练数据集，具体步骤如下：

数据收集：数据主要来源于客户在多个马铃薯种植区域不同生长周期采集的叶片图像。这些图像涵盖了不同环境条件下，包括不同光照、湿度和土壤状况等，以确保数据的多样性。此外，还从公开的农业图像数据库中补充了部分图像数据，进一步丰富数据集的样本类型。
数据标注：根据叶片的实际健康状况，按照早疫病（early blight ）、健康（healthy）、晚疫病（late blight）这三种分类标签，对图像进行标注。为保证标注的准确性和一致性，需要人工进行标注和核实。例如：

early blight 早疫病

healthy 健康

late blight 晚疫病

数据预处理：在收集到图像数据后，首先对图像进行清洗，去除模糊、损坏以及不符合要求的图像。然后，统一所有图像的尺寸，将其调整为适合模型输入的大小，例如 [224*224]。同时，对图像进行归一化处理，将像素值映射到 [0, 1] 区间，以加速模型的训练收敛速度。此外，还运用了图像增强技术，如随机灰度、Mixup、随机翻转、旋转和缩放等，以增加数据的丰富度，提升模型的泛化能力。

以下是数据预处理部分代码：

# 自定义 Mixup 函数
def mixup_data(x, y, alpha=0.2):
    if alpha > 0:
        lam = np.random.beta(alpha, alpha)
    else:
        lam = 1
    batch_size = x.size()[0]
    index = torch.randperm(batch_size)
    mixed_x = lam * x + (1 - lam) * x[index, :]
    y_a, y_b = y, y[index]
    return mixed_x, y_a, y_b, lam
# 自定义 Mixup 损失函数
def mixup_criterion(criterion, pred, y_a, y_b, lam):
    return lam * criterion(pred, y_a) + (1 - lam) * criterion(pred, y_b)
# 随机灰度化变换
class RandomGrayscale:
    def __init__(self, p=0.2):
        self.p = p
    def __call__(self, img):
        if torch.rand(1) < self.p:
            return transforms.functional.rgb_to_grayscale(img, num_output_channels=3)
        return img
# 训练数据预处理和增强
train_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    RandomGrayscale(p=0.2),
    transforms.RandomRotation(30),
    transforms.RandomAffine(degrees=0, translate=(0.3, 0.3), shear=0.3),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
# 验证数据预处理
val_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

需要特别注意的是，我们发现在使用图像增强特别对于 MobileNetV3 这样的轻量级模型精准度影响非常大。图像增强前后的模型准确度约提升 30%。

3、模型训练

数据准备完成后，下一步是进行模型微调。我们分别使用 Yolov11、ResNet50、MobileNetV3 和自定义 CNN 模型进行训练。

（1）YOLO：我们使用 Ultralytics 框架来完成 YOLO 模型的训练。Ultralytics 是一款基于 PyTorch 的深度学习框架，专为计算机视觉任务设计，在目标检测、图像分割和分类等领域应用广泛。其对 YOLO 系列算法进行了深度优化，极大提升了模型的训练效率与检测性能。它提供了丰富的工具和模块，比如先进的数据加载器、高效的训练循环以及灵活的超参数调整接口，能帮助我们快速搭建并训练出符合马铃薯叶片健康检测需求的 YOLO 模型。同时，Ultralytics 还支持多 GPU 训练，显著缩短训练时间，并且具备强大的模型评估与可视化功能，方便我们在训练过程中监控模型表现，及时调整优化策略。以下是训练 YOLO 的关键命令：

from ultralytics import YOLO
data_path = '*'
model = YOLO('yolo11n-cls.pt') 
model.train(task='classify', mode='train', data=data_path, epochs=300)

（2）RestNet50：以下是训练 RestNet 50 的关键参数：

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu") 
    train_dataset = datasets.ImageFolder(root=train_dir, transform=transform)
    val_dataset = datasets.ImageFolder(root=val_dir, transform=transform)    
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=4)
    val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False, num_workers=4)    
    num_classes = len(train_dataset.classes)    
    model = resnet50(num_classes=num_classes).to(device)    
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=0.0001)
    scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)
    best_acc = 0.0
    early_stopping_patience = 5
    early_stopping_counter = 0

（3）MobileNetV3：以下是训练 MobileNetV3 的关键参数：

BATCH_SIZE = 32
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)
model = mobilenet_v3_small(pretrained=True)
num_ftrs = model.classifier[3].in_features
model.classifier[3] = nn.Linear(num_ftrs, len(train_dataset.classes))
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.0001, momentum=0.9)
scheduler = ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=5, verbose=1)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
train_losses = []
val_losses = []
train_accuracies = []
val_accuracies = []
best_val_loss = float('inf')
best_model_weights = copy.deepcopy(model.state_dict())
early_stopping_counter = 0

（4）自定义 CNN 模型：以下是训练自定义 CNN 模型的关键参数：

EPOCHS = 300
BATCH_SIZE = 32
model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(224, 224, 3)),
    MaxPooling2D(2, 2),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D(2, 2),
    Conv2D(128, (3, 3), activation='relu'),
    Conv2D(128, (3, 3), activation='relu'),
    MaxPooling2D(2, 2),
    Flatten(),
    Dense(256, activation='relu'),  
    Dropout(0.5),
    Dense(128, activation='relu'), 
    Dropout(0.5),
    Dense(3, activation='softmax')
])
model.compile(loss='categorical_crossentropy',
            optimizer=RMSprop(learning_rate=0.0001),
            metrics=['accuracy'])
history = model.fit(
    train_generator,
    steps_per_epoch=len(train_generator.filenames) 
    epochs=EPOCHS,
    validation_data=validation_generator,
    validation_steps=len(validation_generator.filenames) 
    callbacks=callbacks,
    verbose=1
)
model.save_weights(MODEL_WEIGHTS_FILE)
model.save(MODEL_FILE)

4、分类任务测试集验证

模型微调步骤结束后，我们加载微调模型在测试数据集上进行推理测试。

以下是加载微调模型在测试集上进行推理预测的代码：

for class_folder in os.listdir(test_folder):
    class_folder_path = os.path.join(test_folder, class_folder)
        if os.path.isdir(class_folder_path):
        ground_truth_class = class_folder  
        print(f"Processing class folder (Ground Truth): {ground_truth_class}")
        image_files = [os.path.join(class_folder_path, img) for img in os.listdir(class_folder_path) if img.endswith(('.jpg', '.jpeg', '.png'))]
        for img_path in image_files:
            results = model.predict(img_path, conf=0.50)
            for result in results:
                predicted_class_index = result.probs.top1              
                predicted_class = result.names[predicted_class_index] 
                confidence = result.probs.top1conf                    
                print(f"Image: {img_path}")
                print(f"Ground Truth: {ground_truth_class}, Predicted class: {predicted_class}, Confidence: {confidence:.2f}")

5、调用 DeepSeek-R1 模型

微调模型给出上传叶片的健康检测分类结果之后，我们调用 DeepSeek-R1 模型（以蒸馏版 14B 为例）对马铃薯健康状况进行进一步、给出防治建议。

以下是调用 DeepSeek-R1 整理模型进行推理的代码：

def deepseek_r1_response(history, msg):
    messages = []
    for chat in history:
        messages.append({"role": "user", "content": chat[0]})
        messages.append({"role": "assistant", "content": chat[1]})

    messages.append({"role": "user", "content": msg})

    openai_api_key = "123"
    openai_api_base = "http://localhost:8000/v1"
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
        http_client=httpx.Client(timeout=1800),
    )
    completion = client.chat.completions.create(
        model="deepseek-ai/DeepSeek-R1-Distill-Qwen-14B",
        messages=messages,
        temperature=0.7,
        top_p=0.85,
        extra_body={
            "repetition_penalty": 1.05,
        },
        stream=True,
    )

    history.append([msg, ""])
    for chunk in completion:
        for choice in chunk.choices:
            content = choice.delta.content
            if content:
                history[-1][1] = history[-1][1] + content
                time.sleep(0.05)
                yield history

6、亚马逊云科技参考架构图

马铃薯叶片疾病识别训练及推理执行过程说明：

1、数据上传与存储：

（1）用户上传训练和推理数据到 Amazon S3 存储桶；

（2）S3 存储桶用于存储中间结果和模型文件，按照不同前缀对文件进行区分。

2、数据处理：在 Amazon SageMaker Notebook 实例上使用 Pre-Process 脚本对数据进行预处理。

3、模型训练：在 SageMaker 中进行模型训练，训练完成后模型存储在 S3 存储桶中。

4、模型推理：使用训练好的模型在 SageMaker Notebook 本地进行推理；实际应用中，也可将模型部署到 SageMaker 推理端点。

5、大模型建议：微调模型推理完成后，大模型拿到推理结果，生成马铃薯叶片病虫害防治相关建议；大模型建议与推理结果一并保存到 S3 存储桶；

6、任务结果通知：使用 Amazon SNS 通知将推理任务结果和大模型生成的建议通过 Email 发送给用户。

三、总结与展望

以下表格是微调模型后的测试结果总结。将测试集准确度 95%、验证集准确度 95% 设为合格线，5 个模型综合表现如下：

YOLO11n-cls、ResNet50 以及 MobileNet 均基于 CNN 架构在不同维度进行了创新优化，以契合多样化的任务需求与应用场景，且在马铃薯叶片健康检测任务中，表现均优于自定义 CNN 模型。其中，YOLO11n-cls 在准确度、训练与推理成本以及用户友好度等多方面展现出显著优势。同时，ResNet50 和 MobileNet 可依据实际场景，如对计算资源、检测精度的不同要求，灵活作为备选方案，为不同条件下的马铃薯叶片健康检测提供了多元选择。

然而，当前工作仍存在一定局限。目前训练数据量相对较少，尽管微调后的模型在测试集上取得了较好效果，但模型可能存在泛化能力不足的问题，在面对复杂多变的实际场景时，稳定性和准确性可能受到影响。

未来工作重点主要聚焦于以下两个方面：一是拓展模型能力，使其能够支持更多样化的图片类别以及更为复杂的场景。通过引入迁移学习、多模态融合等先进技术，提升模型对不同环境、不同生长阶段马铃薯叶片的识别能力，进一步增强模型的鲁棒性和适应性。二是积极利用经市场验证的高质量数据集，持续优化模型性能。一方面，通过扩充数据集规模和多样性，减少模型过拟合风险，提升泛化能力；另一方面，运用更高效的模型训练算法和优化策略，如自适应学习率调整、正则化技术等，在保证模型准确性的同时，降低训练与推理成本，推动马铃薯叶片健康检测模型向更高效、更智能的方向发展。

本篇作者

构建自动翻译工作流：技术与实践

2025-04-16T13:00:06+08:00

一、引言

制药行业客户迫切需要一种翻译解决方案，以解决公司内部多样化的翻译难题。他们需要的不仅是提升翻译效率和准确性的工具，更希望能够保持文档的原始格式。我们观察到客户的需求广泛，包括多语言办公文件、研究文档和药品报批文件等，这些需求多变、紧急，且不规律。传统机器翻译的局限在于准确度不足、成本高昂、难以掌握专业术语等。

为响应这些需求，我们开发了一套基于大语言模型（LLM）的智能翻译工作流，它能够灵活适应各种翻译场景，自动化提升翻译效率与质量，同时也能保持文档原有格式。包括三种翻译模式：简单翻译、增强型翻译和专家型翻译，以满足不同场景的需求。简单翻译模式专注于迅速提炼关键信息，适合快速把握文档核心；增强型翻译模式在保持原文忠实度的同时，增加必要描述，助力读者深入理解内容；专家型翻译模式则确保翻译的精准与专业，适合对准确性要求较高的文档。本文将深入探讨这一工作流的设计和执行，讨论如何通过精准的提示词提升翻译品质，并结合实际案例，展示该工作流在提高翻译效率和准确性方面的显著成效。

二、自动翻译工作流技术实现

（一）工作流程

自动翻译工作流首先标准化和分割用户提交的内容，之后识别并提取文档中的文本、表格和图形。接着，根据文本类型和需求，自动或手动选择翻译策略。服务调用模块启动翻译流程，并将内容发送至翻译执行模块，该模块使用 LLM 技术进行翻译，提供三种翻译模式以适应不同需求。翻译后的内容按原格式回填，并可选合规检查以确保无敏感内容。最终翻译文件以用户指定的格式保存，便于使用和分享。

（二）工程设计细节

1、模块化设计：

数据预处理模块：负责接收和预处理原始翻译请求，包括文本清洗和格式标准化。
条件判断模块：根据预定义的业务规则对输入数据进行评估，人工或者自动决定翻译流程的路径。
翻译执行模块：调用大型语言模型进行翻译任务执行，根据上一步条件判断的决策结果调用不同的工作流完成翻译
合规处理模块：对翻译结果进行进一步的规范，让生成内容满足合规要求
翻译文件生成模块：格式化最终的翻译结果，并将其输出到指定的存储或传输介质。

2、参数和结果存储：

设计数据库或文件系统来存储工作流的输入参数和输出结果，以便于跟踪、审核和后续处理。
为每个翻译任务生成唯一的标识符，关联其输入和输出数据，确保数据的完整性和可追溯性。

3、条件判断逻辑：

支持用户选择由 LLM 自动选择翻译方式
支持用户人工选择翻译方式

4、亚马逊云科技服务方案架构图

执行步骤：

用户通过用户界面上传文件到 S3、并发送翻译请求。
Amazon API Gateway 接收请求，并将其传递给 Lambda 1 进行文件预处理。
Lambda 1 处理文件后，将结果存储在 Amazon RDS 中。
Lambda 2 根据大模型选择翻译方式或者人工指定翻译方式，调用部署在 AWS EKS 上的 Dify 服务进行翻译任务。
Dify 服务调用 Bedrock 上 Claude 模型进行翻译处理。翻译结果从 Bedrock 返回到 Dify，Dify 翻译结果存储到 Amazon RDS 中。
Lambda 3 从 Amazon RDS 读取翻译结果，进行格式回归，并将文件保存到 Amazon S3。
Lambda 3 保存文件后，触发 Lambda 4 生成下载链接。
Lambda 4 将下载链接提供给 Amazon API Gateway，后者再提供给用户界面。
用户通过用户界面下载翻译后的文件。

5、翻译模块设计（Dify 实现）：

自动翻译工作流中的翻译模块由 Dify 工作流实现。具体 Dify 工作流设计如下图所示：

从开始节点接收用户输入的翻译需求，通过条件分支节点根据用户选择的翻译类型（简单、增强或专家型）引导至相应的翻译执行模块。简单型工作流直接使用 Claude 3 Sonnet 模型进行翻译；增强版在简单翻译后进一步优化；专家型则在初步翻译后，根据目标国家的条件可能加入专家意见，最后进行二次翻译以确保专业性。所有工作流最终都会输出翻译结果。

（1）简单翻译

在“简单翻译”流程中，首先通过直译将内容从源语言翻译到目标语言，保持原有格式和信息的完整性。然后，翻译者会审查直译内容，指出不符合目标语言习惯、语句不通顺或晦涩难懂的问题。最后，基于直译和问题反馈，翻译者进行意译，以确保翻译内容不仅准确无误，而且流畅自然，同时平衡直译的忠实原文和意译的适应目标语言文化，以达到高质量的翻译效果。

部分提示词

## Role ##
You are a seasoned translator, skilled at writing high-quality articles. Please help me accurately translate the following content from {source_language} to {target_language}.

## Rules###
- The input format is in Markdown format, and the output format must also retain the original Markdown format. - Here is a common terminology correspondence table: {vocabulary}.

## Strategy##
The translation work is carried out in three steps, and the results of each step are printed:

1. Directly translate the content from {source_language} to {target_language}, maintaining the original format and not omitting any information.
2. Based on the result of the first step, identify specific issues that exist, describe accurately without being vague, and do not add content or formats that do not exist in the original text, including but not limited to:
2.1 Not conforming to the expression habits of {target_language}, clearly point out the non-conforming parts.
2.2 Sentences that are not smooth, indicate the location, no need to give modification suggestions, fix during free translation.
2.3 Vague, ambiguous, difficult to understand, you can try to give an explanation.
3. Based on the result of the first step and the issues pointed out in the second step, re-translate with the intention of ensuring the original meaning of the content, making it easier to understand and more in line with the expression habits of English scientific papers, while keeping the original format unchanged.

## Format##
The return format is as follows, where "{xxx}" represents a placeholder

### Direct Translation {Direct translation result}##
***

### Problems##
{List of specific problems in the direct translation}
***

### Paraphrase {Paraphrased result}##

### Important ###
Output only the new translation and nothing else.
To avoid mixing the {source_language} with the {target_language}, only the {target_language} should be output after translation.

（2）增强版翻译

在“增强版翻译”流程中，工作逻辑开始于接收原始文本和必要的翻译参数，如源语言、目标语言和内容。然后，翻译内容会经过专家型语言模型的审查，该模型会给出具体的改进建议，以增强准确性、流畅性，并确保术语的一致性和文化适应性。最后，根据这些建议，进行二次翻译，以进一步打磨和完善翻译内容，确保最终输出的翻译既忠实原文，又自然、流畅，并符合目标语言的表达习惯。

部分提示词

You are a highly skilled translator tasked with translating various types of content from
into . Follow these instructions carefully to complete the translation task:

## Input ##
Depending on the type of input, follow these specific instructions:

1. If the input is a URL or a request to translate a URL:
First, request the built-in Action to retrieve the URL content. Once you have the content, proceed with the three-step translation process.

2. If the input is an image or PDF:
Get the content from image (by OCR) or PDF, and proceed with the three-step translation process.

3. Otherwise, proceed directly to the three-step translation process.

## Strategy ##
You will follow a three-step translation process:
1. Translate the input content from
into , respecting the original intent, keeping the original paragraph and text format unchanged, not deleting or omitting any content, including preserving all original Markdown elements like images, code blocks, etc.

2. Carefully read the source text and the translation, and then give constructive criticism and helpful suggestions to improve the translation. The final style and tone of the translation should match the style of
colloquially spoken in . When writing suggestions, pay attention to whether there are ways to improve the translation.  The final style and tone of the translation should match the style of
colloquially spoken in . When writing suggestions, pay attention to whether there are ways to improve the translation.
(i) accuracy (by correcting errors of addition, mistranslation, omission, or untranslated text),
(ii) fluency (by applying
grammar, spelling and punctuation rules, and ensuring there are no unnecessary repetitions),
(iii) style (by ensuring the translations reflect the style of the source text and take into account any cultural context),
(iv) terminology (by ensuring terminology use is consistent and reflects the source text domain; and by only ensuring you use equivalent idioms ).
3. Based on the results of steps 1 and 2, refine and polish the translation

3. Based on the results of steps 1 and 2, refine and polish the translation

## Glossary
Here is a glossary of technical terms to use consistently in your translations:

## Output

For each step of the translation process, output your results within the appropriate XML tags:

<step1_initial_translation>
[Insert your initial translation here]
</step1_initial_translation>

<step2_reflection>
[Insert your reflection on the translation, write a list of specific, helpful and constructive suggestions for improving the translation. Each suggestion should address one specific part of the translation.]
</step2_reflection>

<step3_refined_translation>
[Insert your refined and polished translation here]
</step3_refined_translation>

Remember to consistently use the provided glossary for technical terms throughout your translation. Ensure that your final translation in step 3 accurately reflects the original meaning while sounding natural in
.

### Important ###
Output only the new translation and nothing else.
To avoid mixing the {source_language} with the {target_language}, only the {target_language} should be output after translation.

（3）专家型翻译

在“专家型翻译”流程中，工作逻辑首先涉及接收翻译任务的基本参数，包括原文内容、源语言和目标语言。接着，利用大型语言模型进行初步直译，生成初始翻译草稿。然后，通过专家型语言模型对直译结果进行细致的审查，提供专业的修改建议，这些建议关注于提升翻译的准确性、流畅性、风格一致性以及术语的恰当使用。最后，结合专家的反馈，对初始翻译进行精细的调整和优化，以产出一份既忠实原文信息，又符合目标语言文化和表达习惯的高质量翻译作品。这一流程确保了翻译过程中直译与意译的恰当平衡，以及专家知识的充分利用，以达到行业专家级的翻译标准。

部分提示词：

Your task is to carefully read a source text and a translation from {{source_language}}to {{target_language}}and then give constructive criticism and helpful suggestions to improve the translation.
The final style and tone of the translation should match the style of {{target_language}}colloquially spoken in {{target_country}}.

The source text and initial translation, delimited by XML tags <SOURCE_TEXT></SOURCE_TEXT> and <TRANSLATION></TRANSLATION>, are as follows:
<SOURCE_TEXT>
{{content_to_translate}}
</SOURCE_TEXT>
<TRANSLATION>
{{text}}
</TRANSLATION>
When writing suggestions, pay attention to whether there are ways to improve the translation's
(i) accuracy (by correcting errors of addition, mistranslation, omission, or untranslated text),
(ii) fluency (by applying {{target_language}}grammar, spelling and punctuation rules, and ensuring there are no unnecessary repetitions),
(iii) style (by ensuring the translations reflect the style of the source text and take into account any cultural context),
(iv) terminology (by ensuring terminology use is consistent and reflects the source text domain; and by only ensuring you use equivalent idioms {{target_language}}.
Write a list of specific, helpful and constructive suggestions for improving the translation.
Each suggestion should address one specific part of the translation.
Output only the suggestions and nothing else.

6、文档格式保留和还原

采用结构化的方法来确保文档的原始格式的保留。例如，.docx 格式文档通过 python-docx 库加载 .docx 文件，该库提供了访问文档各个组成部分的能力。遍历文档中的所有段落、表格、内联形状以及页眉和页脚，提取其中的文本内容，并将这些文本收集到一个列表中，为翻译工作做准备。

在翻译阶段，利用多线程执行提高效率，通过 concurrent.futures.ThreadPoolExecutor 创建线程池，并将待翻译的文本列表分配给 translate 函数进行并行处理。这个函数调用 LLM 来执行实际的翻译任务。

翻译完成后，需要将翻译后的文本准确地还原到原始文档的相应位置。通过维护一个索引 i 来跟踪翻译文本 translated_texts 列表中的位置，再次遍历文档的各个部分，并将翻译后的文本放回原来的位置。这包括更新段落文本、表格单元格内容、内联形状中的文本以及页眉和页脚中的文本。

修改后的文档被保存为一个新的 .docx 文件，文件名中包含时间戳，以确保与原始文件区分开来。这样可以让翻译后的文档在内容和形式上都与原始文档保持一致。

文档格式还原部分代码：

def translate_docx_file(docx_file, from_language, to_language):
    """
    翻译指定的 .docx 文件并保存为新的 .docx 文件。
    """
    doc = docx.Document(docx_file)
    texts = []
    
    # 提取文本
    for para in doc.paragraphs:
        if para.text:
            texts.append(para.text)
    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                texts.append(cell.text)
    for shape in doc.inline_shapes:
        if hasattr(shape, 'text_frame'):
            text_frame = shape.text_frame
            for para in text_frame.paragraphs:
                texts.append(para.text)
    for section in doc.sections:
        header = section.header
        for para in header.paragraphs:
            texts.append(para.text)

    logger.info(f">>>> Number of tasks: {len(texts)}")
    with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
        results = executor.map(lambda text: translate(text, from_language, to_language), texts)

    translated_texts = list(results)

    i = 0
    for para in doc.paragraphs:
        if para.text:
            logger.info(f"assemble: {para.text}\n {translated_texts[i]}")
            para.text = translated_texts[i] 
            i += 1

    for table in doc.tables:
        for row in table.rows:
            for cell in row.cells:
                cell.text = translated_texts[i]
                i += 1

    for shape in doc.inline_shapes:
        if hasattr(shape, 'text_frame'): 
            text_frame = shape.text_frame
            for para in text_frame.paragraphs:
                para.text = translated_texts[i]
                i += 1

    for section in doc.sections:
        header = section.header
        for para in header.paragraphs:
            para.text = translated_texts[i]
            i += 1

    # 保存翻译后的文档
    ts = time.strftime('%Y%m%d%H%M%S') 
    new_file_name = os.path.splitext(docx_file)[0] + f'_{ts}_translated.docx'
    doc.save(new_file_name)

    logger.info(f"<<< {ts} Completed.")
    return new_file_name

三、翻译效果测试

我们使用客户提供的一篇待翻译文档（.docx 格式）作为测试样例，上传至自动翻译工作流，分别使用简单翻译、增强版翻译和专家翻译三种方式执行翻译任务。根据分析翻译结果进行对比、分析。

原文内容如下：

翻译后内容（以专家版翻译为例）如下：

通过对翻译结果对比，发现在原文件格式保留方面，几乎没有差别。同时发现主要区别集中在翻译内容的输出上。简单版翻译在内容完整性上会进行一些省略。

例如，原文中：

In order to standardize the supervision and inspection of drug clinical trial institutions, and strengthen the management of drug clinical trials, this Measure is formulated in accordance with the Drug Administration Law of the People’s Republic of China, the Vaccine Administration Law of the People’s Republic of China, the Drug Registration Administration Measures, the Administrative Regulations on Drug Clinical Trial Institutions, and the Good Clinical Practice (hereinafter referred to as GCP).

简单版翻译的翻译结果为：

可以看到这份翻译省略了对《中华人民共和国疫苗管理法》、《药品注册管理办法》、《药物临床试验机构管理规定》和《药物临床试验质量管理规范》(GCP)的引用。因为这种没有涵盖原文中提到的所有法律和规定，也因此显著降低了翻译内容的完整性，因为它没可能影响到对监管框架的全面理解。

增强版翻译结果为：

可以看到在内容完整性方面，增强版翻译保证了内容完整，同时为了方便读者理解，尝试提供更多的法律和规定细节，但可能引入了原文中未提及的内容，例如“保证临床试验数据的真实性、可靠性和追溯性”这样的描述性语言。

专家版翻译结果为：

在内容完整性方面，专家版翻译完整地保留了原文中提到的所有法律和规定，包括 GCP 的引用。同时为了保证与原文一致，没有加入任何描述性或者解释性语言。比较好地保持了与原文一致、完整、不偏不漏。

除此之外，在准确度方面简单版翻译使用了较为泛化、通俗的表达方式，如“主要缺陷”而不是“重大药品质量缺陷”，可能影响到读者对缺陷严重性的理解。增强版翻译和专家版翻译由于引入了术语表，因此在术语的使用上表现相对更好，与行业标准术语更为一致。在流畅度方面，简单版翻译的句子结构清晰，易于理解，但在某些术语的使用上可能略显生硬。增强版翻译在流畅度上也表现不错，但是由于加入了原文之外的解释，可能会略显冗长。专家版翻译在流畅度上与增强版翻译相似，在行文规范要求更加严格，翻译内容最接近原文。

从以上的分析可以看出，简单版翻译的适用场景主要是需要快速了解文档大意的非正式场合，例如初步审查或一般性了解，或者对专业术语要求不高、不需要精确法律或技术细节的场合，以及帮助新手快速了解某个领域的基本概念；增强版翻译的适用场景主要为适用于需要一定程度的专业性和准确性，同时也需要易于理解的文档；而专家型翻译的内容翻译完整性、准确度和行文风格最贴近原文，因此更适用于对准确性和完整性要求比较高的场合，以及要求反应原文的精确意图和细节的诉求。

四、回顾与总结

通过对比分析，我们可以看到，自动翻译工作流能够：

理解和保持原文档的格式与内容。
自动化判断或人工指定三种不同的翻译方式，方便适配不同的翻译需求。简单版翻译适用于快速浏览和非正式场合；增强版翻译适用于需要一定程度专业性的内部文档；专家型翻译在内容完整性、准确度和流畅度方面表现最佳，因此适用于更加正式技术文档。
保证翻译后的内容回填到原文档格式中，以保持文档格式不变。

这种方式满足企业级的多元化的内部翻译场景，有助于更好地提升用户的翻译体验。除了制药行业之外，该方案也可以拓展到其他的垂直行业使用，如制造、零售、游戏等行业使用。

本篇作者

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

基于 RAG 和 Dify 的生产级电话销售话术生成工具

2025-04-16T12:28:26+08:00

背景

在客户上云旅程的起点，电话销售团队承担着至关重要的角色——他们不仅需要快速了解客户需求，还要通过精准的话术激发客户兴趣，推动转化。然而，当前销售话术的准备工作面临诸多挑战：

信息获取难：销售人员需要手动收集、筛选和整合大量数据，费时费力。
通话质量受限：缺乏实时、个性化的话术支持，影响客户沟通效果。
传统 LLM 方案存在局限：单纯依赖大语言模型（LLM）生成话术，容易产生“幻觉”问题，且无法准确调用企业内部知识。

为解决这些痛点，我们采用检索增强生成（RAG）技术，结合 Amazon Bedrock 和 Dify，打造智能销售话术推荐系统。该方案通过构建企业知识库，利用先进的检索算法，精准匹配客户需求，并生成高质量、可信赖的话术内容，为电话销售团队提供强有力的支持。

解决方案架构

方案基于 Amazon Bedrock 构建高效数据摄取与 RAG，并利用 Dify 生成销售话术。Web 爬虫和 Amazon EventBridge 定期更新知识库，将数据存储至 S3 并导入 Bedrock Knowledge Base。查询时，Dify 编排工作流并调用 Bedrock RetrieveAndGenerate API 进行检索和生成。流程如下图：

下面对这两部分流程进行详述。

数据摄取流程

Web 爬虫：在 Lambda 或 EC2 部署爬虫，从各种在线数据源收集信息。
Amazon EventBridge：定期触发爬虫，确保知识库时效性。
Amazon S3：存储爬虫收集的原始数据或手动上传内部文档。
Amazon Bedrock Knowledge Base：支持多种分块策略与向量嵌入（如 Amazon OpenSearch Serverless），提高检索效率。

在线查询流程

用户查询输入
Dify 编排工作流：构建自定义工作流完成复杂文本生成。
Bedrock RetrieveAndGenerate API：
- 提供查询分解、元数据过滤、重排序等功能，优化检索效果。
- 生成的回复包含引文信息，便于人工验证。
响应输出：通过 Dify 返回用户。

下图是基于 Dify 构建的工作流示意，基于多种组件例如 LLM 节点、代码执行模块等，通过拖拉拽和简单的配置，就可以快速搭建 LLM 应用，不需要开发能力。此外，Dify 提供了很多内置工具，还可以自定义工具，弥补 Dify 原有工具的局限性。

实施细节

RAG 实现思路比较清晰明了，但是在实际生产落地时，仍有很多工程化的问题亟需解决。随着知识库中的文档数量增加，检索准确率往往有所下降。在海量文档中高效准确的检索信息成为 RAG 系统的主要瓶颈。为提升检索准确率，以下是一些常用的优化思路。

元数据过滤

元数据过滤是一种在检索前缩小搜索范围的有效方法。通过为每个文档添加结构化的元数据标签（如主题、时间、作者等），我们可以在执行语义搜索之前先基于元数据标签做一次预筛选。

具体的实施步骤如下：

设计合适的元数据 schema：确保元数据标签能够覆盖业务中的关键属性。
在文档入库时自动或手动添加元数据标签。
查询阶段的元数据预筛选：在执行语义搜索之前，基于用户查询和上下文对文档集合进行元数据筛选，只保留相关文档。
仅对过滤后的文档子集执行向量检索：减少计算资源消耗，同时提高检索速度和响应准确性。

特别地，Amazon Bedrock Knowledge Base 目前支持自动生成查询过滤（Auto-Generated Metadata Filtering），扩展了手动元数据过滤（Manual Metadata Filtering）的功能。该功能可自动识别查询中的关键属性，并智能应用元数据筛选条件。用户可以在不手动构建复杂过滤规则的情况下，自动筛选出高相关性的文档，从而优化 RAG 系统的整体表现。

例如：

查询：“How to file a claim in Washington”
自动生成的过滤条件：”state = Washington”
最终检索的文档：仅包含 Washington 州相关的文档，而非全国范围的所有索赔指南。
如若文档本身有置信度高的、贴合业务的元数据标签，可以考虑此种优化思路。

重排序（Re-ranking）

排序是一种后处理技术，用于在初始向量检索之后，通过更复杂的评分机制对 Top-K 检索结果进行重新排序，以提升最终返回内容的精准度与相关性。

Amazon Bedrock Knowledge Base 内置 Re-rank 模型，可自动对检索结果进行重新排序，确保最相关的文档排在前面。该模型利用深度语义匹配（Deep Semantic Matching）技术，以更精细的方式计算查询与文档之间的匹配度，相比于仅基于向量相似度的检索方式，能够提供更高质量的结果。

知识质量

知识质量对 RAG 系统的性能至关重要。数据质量越高，数据的组织结构越清晰，信息的可检索性越强。反之，若知识库中的信息密度较低，回答一个问题可能需要引用多个文本块，从而在 LLM 的上下文窗口中插入更多文本。这不仅增加了 token 的消耗和计算成本，还可能导致关键信息因湮没在大量文本中而被稀释，使得 LLM 失焦。所以，清洗数据在构建知识库中十分重要，降低与业务无关信息出现在知识库中的可能性。此外，为了提高数据块的信息密度，可以考虑利用 LLM 作为事实提取器，从原始文档中筛选和提炼关键信息。

查询重写（Query Rewriting）

查询重写是一种从客户的查询入手，以优化 RAG 性能的策略。旨在通过改写、扩展或分解用户查询，提高检索系统的召回率和准确性，确保重写后的用户问题能够更贴合、更匹配知识库中的文档。Amazon Bedrock Knowledge Base 支持 Query Decomposition（查询分解）是查询重写的一个子类。具体做法是：先将复杂查询拆解为多个子查询，并分别检索相关内容；之后动态组合子查询的结果，生成更全面的答案。

例如，针对查询 “2022 年 FIFA 世界杯上谁得分更高，阿根廷队还是法国队？“，Amazon Bedrock 知识库可能会首先生成以下子查询，然后再生成最终答案：

1. 阿根廷队在 2022 年 FIFA 世界杯决赛中进了多少球？
2. 2022 年 FIFA 世界杯决赛中法国队进了多少球？

通过拆分长查询，分别搜索再整合答案，提高对复杂问题的支持能力。

总结

在方案研发阶段，我们与电话销售团队展开深度需求调研，锚定业务痛点与技术可行性的最佳结合点。基于场景化建模与 ROI 分析，构建起兼顾技术可行性与商业回报的解决方案框架，重点通过双轮驱动实现价值闭环：

第一，通过生产级 RAG 优化确保落地可靠性。尽管 RAG 基础架构逻辑简明，但在应对高并发、低延迟的业务场景时，我们通过元数据过滤、重排序（Re-ranking）、知识质量提升和查询重写等技术攻关，将平均响应时间压缩至 800ms 以内，对话术生成准确率提升至 92% 以上。特别是在知识库动态更新、会话状态保持等工程细节上，形成了标准化处理范式。

第二，为电话销售部门创造可量化的业务价值。实际部署后，销售团队成功实现三大提升：话术准备效率提升 70%、首次接触转化率提升 18%、异议处理采纳率提高 32%。系统生成的个性化推荐话术，可依据客户画像自动匹配保险产品卖点与抗辩策略，真正成为销售人员的智能作战助手。

需要特别说明的是，当前技术方案结合了 Amazon Bedrock 的托管服务优势与 Dify 的流程编排能力，实际项目中亦可采用亚马逊云科技的不同技术栈实现。我们始终主张根据企业的数据规模、成本预算和运维能力进行定制化设计——人工智能从来都不是单选题，而是需要持续探索的最优解。

附录

Dify 部署方式：https://github.com/aws-samples/dify-self-hosted-on-aws

本篇作者：

朱文倩
亚马逊云科技解决方案架构师，负责亚马逊云科技云计算方案咨询和设计。同时致力于生成式 AI 应用方面的研究和推广，并通过可实施的解决方案，帮助客户取得业务价值。

杨广文
亚马逊云科技解决方案顾问，致力于云计算、生成式 AI 的市场挖掘和洞察分析，具有丰富的云和 AI 咨询经验，为客户提供数字化转型咨询，帮助加速企业客户业务发展和创新。

本期最新实验《多模一站通 —— Amazon Bedrock 上的基础模型初体验》
✨ 精心设计，旨在引导您深入探索Amazon Bedrock的模型选择与调用、模型自动化评估以及安全围栏(Guardrail)等重要功能。无需管理基础设施，利用亚马逊技术与生态，快速集成与部署生成式AI模型能力。
⏩️[点击进入实验] 即刻开启 AI 开发之旅
构建无限, 探索启程！

加入我们｜申请成为亚马逊云科技 Community Builder，共建云端社区！

2025-01-15T08:08:53+08:00

亚马逊云科技 Community Builder 项目为开发者社区中的技术爱好者和新兴思想领袖提供技术资源、学习和交流机会，帮助开发者探索、分享技术相关知识，并与亚马逊云科技产品团队、技术专家和更多开发者社区成员建立紧密联系。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

在 2025 年，超过 50 位活跃的亚马逊云科技 Community Builders 在中文开发者社区积极分享，一同成长。

亚马逊云科技 Community Builder 2025 年度申请已经开启（截止至太平洋时间 2025 年 1 月 20 日），欢迎开发者申请加入，一起发掘云计算的无限可能！

申请加入请访问：

https://pulse.aws/application/XUDHHXIH?p=0&trk=cndc-detail

谁可以申请成为 Community Builder？

Community Builder 申请流程对全球亚马逊云科技技术开发者和技术爱好者开放。任何年满 18 周岁且热衷于使用亚马逊云科技提供的服务和技术进行构建的开发者都可以申请加入！

Community Builder 每年开放在线申请，申请标准并不单一，只要能证明你有热情、有兴趣、有能力在开发者社区提供技术分享并帮助其他开发者成长即可。请在申请时提交你参与的相关技术内容 (以及公开的内容连接，中英文都可以，语言不限)，包括发布的博客文章、演讲视频、User Group 和社区活动、以及为开源做出的贡献等等。提交对开发者社区特别贡献的内容会有更大的录取机会哦~

Community Builder 欢迎不同技术领域的开发者加入，包括机器学习、容器（Container）、无服务器（Serverelss）、数据（数据库、数据分析和 BI）、开发者工具（DevTool）、前端开发（Web 和移动应用）、游戏开发、Graviton/Arm 开发、云基础架构、网络内容分发、云安全，等等。

详细了解亚马逊云科技 Community Builder 项目：

https://aws.amazon.com/cn/developer/community/community-builders/?trk=cndc-detail

加入 Community Builder 会有哪些收获？

亚马逊云科技每年会为活跃的 Community Builders 提供丰富的学习资源，包括免费的亚马逊云科技服务抵扣券，每年一次认证考试抵扣券，免费订阅官方在线课程。当然，成为 Community Builder 还将获得更多线上线下的交流机会，包括亚马逊云科技 re:Invent 折扣门票和大会现场技术分享机会，定期来自产品团队的在线技术分享，参与 User Group 开发者聚会和技术分享的机会，以及 Community Builder 专属交流群帮助开发者链接全球开发者和社区领袖；等等。

2025 年度唯一一次面向开发者社区的 Community Builder 招募已经开启（截止至太平洋时间 2025 年 1 月 20 日），期待开发者的加入，一起用技术构建精彩！

点击“这里”，立刻申请加入亚马逊云科技 Community Builder！

关于亚马逊云科技 Community Builder 项目以及申请流程有任何问题，请您邮件联系：

chinese-community-builders@amazon.com

Amazon Bedrock 实践 - 利用 Llama 3.2 模型分析全球糖尿病趋势

2024-12-27T20:30:05+08:00

黄浩文
资深开发者布道师
亚马逊云科技
拥有电信、互联网以及云计算等行业超过 20 年的丰富经验，曾任职于微软、Sun 和中国电信。他目前专注于生成式 AI、大型语言模型 (LLM)、机器学习和数据科学等领域的技术内容创作和实践分享，致力于赋能全球开发者。

本博客内容原文来自于作者在亚马逊云科技开发者社区发表的技术博客：

“Leveraging Llama 3.2 90B Instruct model for Multimodal Diabetes Prevalence Analysis on Amazon Bedrock”：

https://community.aws/content/2p6VvdzzeBfpOzSBXEzZdmJEyaE/?tr...

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

概述

在大型语言模型领域，多模态模型的强大能力已经开始为解决复杂问题开辟了新的可能性。本文探讨的问题是分析全球糖尿病患病率趋势，这是一个关系到全球数亿人的重大健康问题。在本文中，我将探讨如何在 Amazon Bedrock 上，使用 Meta Llama 3.2 90B Instruct 模型来分析全球不同国家或地区的糖尿病患者的患病率分布数据。

Meta 开发的 Llama 3.2 90B Instruct 模型，是一种先进的具有多模态能力的大模型，它能够处理和分析文本和图像，这使它成为我们分析全球糖尿病患者的患病率数据的理想选择之一。

我们将采用运行在 Amazon Bedrock 的 Llama 3.2 90B Instruct 模型来进行分析，Amazon Bedrock 与流行的先进大型语言模型无缝集成，可以帮助开发者更高效专业地创建自己的生成式 AI 应用程序。

多模态能力和基准

Meta 在其对外发布的论文 “The Llama 3 Herd of Models” 之中，详细阐释了将多模态能力添加到 Llama 3 系列模型的研究组合方法，该方法会经过五个阶段来训练多模态模型，分别是：

(1) 语言模型预训练

(2) 多模态编码器预训练

(3) 视觉适配器训练

(4) 模型微调

(5) 语音适配器训练

该论文中的图示说明了这一过程。

Source:

https://ai.meta.com/research/publications/the-llama-3-herd-of...

来自 llama.com 网站公开的测试数据，比较了不同 AI 模型在各种基准测试和任务上的表现。下表分为“大学水平问题和数学推理”和“图表和图解理解”两大部分，每个部分下又有几个子类别。

在大多数基准测试中，Llama 3.2 90B 模型的表现普遍优于其他模型，在“AI2 Diagram”基准测试中，Llama 3.2 90B 模型获得了 92.3% 的最高分！

Source:

https://www.llama.com/?trk=cndc-detail

接下来，我们将使用一个具体的案例研究，演示如何在 Amazon Bedrock 上方便高效地利用 Llama 3.2 90B Instruct 模型的多模态能力。我们将使用这个模型分析全球不同国家和地区的糖尿病患病率趋势。

前期准备

我们的分析数据集是一个包含糖尿病流行率信息的数据集，其包括相关的图像等。在我们可以利用 Meta Llama 3.2 90B Instruct 模型进行推理之前，我们还需要确保我们的图像数据与其要求兼容。

为了解决这个问题，我开发了一个实用的 Python 程序函数（可在 https://github.com/hanyun2019/bedrock-in-practice/blob/main/utils.py?trk=cndc-detail 获得），用于调整图像大小并确保符合 Meta Llama 3.2 90B Instruct 模型规范。

分析中采用的两张关于糖尿病病患数据及趋势的图像来网站如下所示。该网站汇编了世界银行（2024 年）从多个来源收集的相关数据：

https://ourworldindata.org/grapher/diabetes-prevalence?trk=cn...

设置

首先，让我们导入必要的库并打印 boto3 版本。以下代码将导入了 boto3 库，这是亚马逊云科技服务的 Python SDK，然后打印 boto3 的版本以确保它是最新的:

import boto3
print('boto3 version')
print(boto3.__version__)

!pip install --upgrade boto3

接下来,我们定义模型 ID 并加载需要分析的图像：

(1) MODEL_ID被设置为在 Amazon Bedrock 上 Llama 3.2 90B Instruct 模型的特定模型 ID

(2) ORIGIN_IMAGE被设置为原始图像文件的路径

MODEL_ID = "us.meta.llama3-2-90b-instruct-v1:0"
ORIGIN_IMAGE = "images/diabetes-prevalence.png"

以下代码从我编写的自定义 utils 模块导入两个函数：disp_image 和 resize_image。需要调整图像大小是因为：Meta Llama 90B Instruct 模型对输入图像的大小有一定限制。

from utils import disp_image
from utils import resize_image

disp_image(ORIGIN_IMAGE)

# Image processing
from PIL import Image
img1 = Image.open(ORIGIN_IMAGE)
img1.size
RESIZED_IMG = resize_image(img1)

# Open the JPG image
jpg_image = Image.open("images/resized_image.jpg")

# Convert the image to PNG format
png_image = jpg_image.convert("RGB")

# Save the converted PNG image
png_image.save("images/resized_image.png")
RESIZED_IMAGE = "images/resized_image.png"
disp_image(RESIZED_IMAGE)

图像处理完成后，我使用自己定义的图像显示函数 disp_image() ，来显示将输入到 Llama 模型的第一张图像。这是一张全球糖尿病病患分布趋势的图像。颜色的深浅表示所在世界国家或地区的糖尿病患者在该区域占比的程度。颜色越深，病患情况就越严重。如下图所示：

Source:

https://ourworldindata.org/grapher/diabetes-prevalence?trk=cn...

与模型互动

一切准备就绪，现在可以使用调整后的图像作为输入，提供给 Llama 3.2 90B Instruct 模型了。

我们先使用 boto3 为 Amazon Bedrock Runtime 服务创建一个客户端对象：

bedrock_runtime = boto3.client("bedrock-runtime")

然后，以二进制读取模式 ("rb") 打开调整后的图像文件，文件内容被读入 image 变量：

with open(RESIZED_IMAGE, "rb") as f:   
    image = f.read()

接着定义一个用户消息，要求模型识别出全球糖尿病患病率最高的 10 个国家：

user_message = "According to this chart, which are the top 10 countries with the highest prevalence of diabetes?"

创建一个消息列表，其中包含一条消息。消息中包括用户的角色、图像和用户的消息内容：

messages = [   
    {      
        "role": "user",       
        "content": [         
            {"image": {"format": "png", "source": {"bytes": image}}},        
            {"text": user_message},     
        ],  
    }
]

调用 Amazon Bedrock Runtime 客户端的 converse 函数，传入 MODEL_ID 和以上消息列表。模型的响应消息将存储在 response 变量中：

response = bedrock_runtime.converse( 
    modelId=MODEL_ID,   
    messages=messages,
)

从响应对象中提取响应文本，并将其存储在 response_text 变量中。之后，将响应文本打印显示出来：

response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

我自己获得的模型测试响应文本如下，供大家参考：

According to the chart, the top 10 countries with the highest prevalence of diabetes are:

Saudi Arabia: 17.5%
Egypt: 17.5%
United Arab Emirates: 17.5%
Bahrain: 17.5%
Kuwait: 17.5%
Qatar: 17.5%
Oman: 17.5%
Yemen: 17.5%
Libya: 17.5%
Papua New Guinea: 17.5%

These countries have the highest percentage of their population aged 20-79 with diabetes, according to the chart.

如果你从以上示例中得到启发，并希望进一步探索，可参考以下 GitHub 代码库查看我的完整代码：

https://github.com/hanyun2019/bedrock-in-practice/blob/main/llama32-multimodal-diabetes-1.ipynb?trk=cndc-detail

在以上完整代码中，我还上传测试了第二张输入的图像：亚洲糖尿病患病率分布情况图，供 Meta Llama 3.2 90B Instruct 模型进行进一步分析。如下图所示：

Source:

https://ourworldindata.org/grapher/diabetes-prevalence?trk=cn...

细心的开发者也可以找到你坐在的洲际数据图表，以进一步探索这个话题。

总结

在这篇文章中，我们演示了如何利用 Amazon Bedrock 上 Meta Llama 3.2 90B Instruct 模型的多模态能力,来洞察全球糖尿病患病率。通过利用这种先进的大型多模态模型，我们能够同时分析文本数据和可视化数据，根据提供的图表来确定全球糖尿病患病率最高的前 10 个国家或地区。

Meta Llama 3.2 90B Instruct 模型在各种基准测试中表现卓越，尤其在图表理解等领域，非常适合这种多模态分析任务。在 Amazon Bedrock 上运行该模型，还能够更高效地处理数据并生成准确的洞见。

通过这个实际案例，我们展示了将先进的大模型与多模态数据相结合，来解决医疗分析等领域复杂现实问题的潜力。随着大模型多模态能力的不断发展，从各种数据源中获取更深入的洞见，为各行业带来影响深远的全新解决方案，将孕育出更多新的市场机遇。

参考文献

The Llama 3 Herd of Models

https://ai.meta.com/research/publications/the-llama-3-herd-of...

Introducing Llama 3.2 models from Meta in Amazon Bedrock

https://aws.amazon.com/blogs/aws/introducing-llama-3-2-models...

Vision use cases with Llama 3.2 11B and 90B models from Meta

https://aws.amazon.com/blogs/machine-learning/vision-use-case...

说明

本文的封面图片由 Amazon Bedrock 上的 SDXL 1.0 模型生成。给定的输入提示词是：

“A developer with a laptop and a diabetes scientist, sitting in a café, developer with a laptop, excitedly discussing Leveraging generative AI for diabetes prevalence analysis, comic, graphic illustration, comic art, graphic novel art, vibrant, highly detailed, colored, 2d”

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

文章来源：https://dev.amazoncloud.cn/column/article/676e9ac457ce58339e3...

Anthropic 工程师关于提示词工程的深入探讨

2024-12-20T18:39:22+08:00

李玉光
北京聚云科技有限公司
联合创始人兼首席架构师
拥有 12 年以上的 Amazon Web Services 开发与架构经验。擅长设计和实施大规模、高弹性、自动化的云原生解决方案。云成本优化方面经验丰富，帮助众多企业有效降低云使用成本。并协助各类行业客户利用 Amazon Web Services 平台部署和优化 GenAI 应用，显著提升企业的生产力与创新能力。

提示词工程（Prompt Engineering）是与大语言模型（LLM）交互的主要方式，激发模型潜能、实现复杂任务。那么，究竟什么是提示词工程？它的发展历程、设计原则和未来趋势又是怎样的？Anthropic 的几位提示词工程专家在 Youtube 上分享了他们的经验与见解，包括 Amanda Askell（对齐微调）、Alex Albert（开发者关系）、David Hershey（AI 应用落地）以及 Zack Witten（提示词工程）。本文基于他们的讨论，整理了相关内容，为读者呈现提示词工程的核心理念与实践方法。
https://www.youtube.com/watch?v=T9aRN5JkmL8?trk=cndc-detail

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

什么是提示词工程？

提示词工程是一种与大模型交互以完成特定任务的过程，最大限度地激发模型潜力，实现普通方法难以达成的目标。这在很大程度上是一种与模型沟通的艺术，通过与模型“对话”来引导它完成预期目标。其核心在于清晰、准确地传达需求，就像和人进行沟通，你需要了解模型的“心理”或运行逻辑才能更有效地协作。

之所以称其为“工程”，在于提示词的设计需要不断试错和迭代。和与人交流不同的是，和模型的交互允许我们随时“重置”，从头尝试不同的提示词，而不会受到先前的输入的影响。这种反复测试迭代的过程，正是提示词工程的核心。

提示词工程还涉及将提示词有效地整合进整个应用系统中，这远不止将编写的提示词交给模型那么简单，需要整合与调优以便提示词能够在系统中真正发挥作用，这让提示词工程成为一个全面而系统化的过程。

提示词在某种程度上有点像自然语言代码，但要避免过度抽象提示词设计，而是直接、清晰地描述任务。此外，通过版本控制和管理来追踪每次实验结果在提示词工程中和代码管理同样重要。如今，提示词工程正处于一种新的范式中，将提示词的文字描述视作一种指令集，与代码一样对待。

在此基础上，我们已经初步定义了什么是提示词工程。

什么是优秀的提示词工程师？

优秀的提示词工程师需要具备清晰沟通的能力。这意味着能够明确地表达想法、并清晰地描述概念。从某些方面来讲写作技巧确实重要，但其实比很多人想象的关联性要低。提示词工程师的工作并非仅仅是撰写单一的指令然后交给模型，实际上在和模型的互动中，我们需要进行大量的反复试验和调整，有时在短短 15 分钟内就要向模型发送数百条提示词，这种频繁的迭代过程是提示词工程师工作的重要组成部分。

除此之外，提示词工程还需要考虑到各种边缘场景。假设有一个提示词要应用到 400 个不同的案例中，一个经典的误区是只关注典型案例是否得到正确答案，以此来判断提示词是否合格，而真正有效的提示词设计需要考虑到各种不常见的情况。例如，如果用户的输入内容是“我会发送一批数据，希望你提取出所有名字以字母 G 开头的行。”这时，你需要思考不同的可能性，比如数据集中没有符合条件的名字、或者数据不符合要求的格式、甚至可能是一个空字符串。这些特殊情况都需要测试进而确保提示词能够正确的处理，比如告诉模型“如果遇到不明确的情况，直接输出 ‘unsure’ 标签”，那么你就可以确保模型在遇到异常输入时不会做出奇怪的反应，并且轻松找到那些异常或出错的样本，从而有针对性的优化提示词。

在很多情况下，工程师在评估模型表现时，会使用一些理想化的示例输入，格式优美、结构清晰。但现实情况需要进一步考虑到真实用户的输入特点，比如大多数用户在输入时隔几个词就有一个拼写错误、句子里几乎没有标点、甚至只是随意拼凑的几个词，就像在使用 Google 搜索，这是一个更高层次的设计考量。

另一个关键点在于仔细审视模型的响应。这意味着要反复阅读和分析模型的输出结果，理解其中的细节。举个例子，有些人会在提示词中加入“逐步思考”的指令，但往往并没有验证模型是否真的按照步骤进行推理。模型可能将这个指令理解为一种抽象的、笼统的提示，而不是按照要求记录思维过程。若不认真查看输出结果，很可能无法察觉模型在执行中的偏差。

大模型的输出不仅限于对与错的判断，而是包含了大量的文字内容和表达细节。通过分析这些输出中的细微之处，可以更深入地了解模型的“思维过程”：它是如何完成任务的，经历了哪些步骤等等。这不仅是判断任务完成情况的问题，模型的输出不仅告诉我们最终结果，还透露出它是如何到达这个结果的。这些细节能帮助我们更好地理解模型的行为，甚至可以用来推测模型的内部逻辑。

作为一名提示词工程师，必须设身处地的去思考模型将如何理解你的指令。而且，在为企业应用场景设计提示词时，还必须考虑用户与模型互动的方式。此时，提示词工程师就像是模型与用户之间的桥梁，平衡双方对任务的需求和理解，这种“第三方”视角在企业级提示词设计中显得尤为重要。

最后，在提示词工程中，最具挑战的部分之一是如何清晰地描述任务，我们的大脑中往往会有很多“理所当然”的假设，而 Claude 并不了解这些假设。如何剥离这些隐含的信息和预设，把任务所需的完整信息传达给模型是一项极具挑战的事情。这也是优秀的提示词工程师和普通提示词工程师的显著差异之一。

如何优化提示词？

现有模型在遇到模糊指令时，往往无法像人类那样主动提出问题来澄清疑惑。例如，我们在给某人讲解任务内容时，对方可能会直接指出：“这部分不太清楚，我这里该做什么？”然而，模型不会这样主动询问，它只会根据提示词中的信息来执行。因此，提示词工程师在编写提示词时需要模拟这种“自我问答”的过程，主动预判模型可能的困惑之处。就像与人沟通一样，你需要站在对方的立场来思考：如果模型是一个人，它在理解这个提示时会有哪些疑问？然后回到提示词，对这些潜在问题逐一进行补充说明。

你也可以将提示词交给模型并告诉它：“我不需要你执行这些指令，只需要告诉我其中是否有不清楚的地方，或任何模糊、难以理解的部分。”虽然模型并不总是完全准确，但这种方法确实提供了一个有趣的反馈视角来帮助识别潜在问题。我们还可以让模型自己反思，告诉它：“你在这里出错了，能否思考一下原因？并尝试修改我的提示词，以避免类似错误？”大多数情况下，模型能很好地指出问题所在，甚至给出改进建议。

每次与模型的反复交互都能带来新的见解，让你更深入地理解模型的工作方式。如果不尝试与模型互动反馈，就错失了学习的机会。这种尝试虽然不一定每次都能获得完美的结果，但却能不断积累有价值的信息。

改进提示词的另一个可行的方法是先用口头描述一下任务，因为在口头表达时往往更加清晰流畅，接下来将这些描述录音转录成文字，然后直接粘贴到提示词窗口中。这样做的效果通常比最初编写的提示词要好得多。因为很多人在写提示词时会不自觉地简化内容，导致提示不够完整和清晰。而口头描述可以帮助我们更自然地把任务说清楚，反而更符合模型的理解方式。

我们应该重视提示词设计，因为提示词的微小调整可能带来显著的性能差异。如果一个人花大量时间优化实验代码，却没有花心思在提示词上，结果可能会大打折扣。

如何判断任务是否超出“提示词”的能力范围？

提示词优化有些像一把双刃剑。总感觉下一个“更好的提示词”就在前方，可以解决所有问题，这让许多人陷入不断调整的循环中。他们坚持不懈地改进提示词，期待找到那个“理想的提示词”。适度打磨提示词确实有助于学习和改进，但提示词工程的挑战在于未知领域的广阔和不可预见性，这也使得追求“完美提示词”变得具有风险和不确定性。

那么如何确认某个任务是否能通过调整提示词实现呢?

首先是观察模型是否“理解”任务的实质。对于一些提示词效果没有明显提升的任务，可能需要进行一些尝试，但很快就能判断出它是否可行。通常，如果模型在初始响应中明显不接近目标，则不需要花太多时间继续打磨提示词。

在处理某些任务时，可以通过与模型互动来探究它的思维方式，甚至直接询问它是如何理解任务的。这种方法能帮助我们判断模型是否掌握了任务的核心，以及它离正确答案有多远。通过不断调整提示词，通常能感觉到是否在逐步接近理想的输出。但也有一些任务，无论怎么微调，模型的响应始终朝着错误的方向偏离。在这种情况下，通常建议放弃继续优化，因为所有的尝试都未能有效引导模型朝正确的方向前进。

比如，工程师做了一个实验，尝试把 Claude 连接到 Game Boy 模拟器上，试图让它操控按键完成游戏。Claude 确实能生成一些按键指令的代码，但一旦进入一些复杂的场景，模型的表现就开始下降了。比如，当它需要根据游戏的的屏幕截图来理解游戏状态时，效果就非常差。整个周末，工程师都在反复修改提示词，希望 Claude 能更好地“理解”这个屏幕信息。虽然有些微小的进步，让模型从“完全无反应”提升到“有些许反馈”，但依然离目标还差得很远，最后决定放弃了。在这种情况下，等待下一代更强大的模型或许才是更好的选择，而不是在一个当前技术还无法实现的目标上消耗更多的时间。

之前我们很习惯为模型提供文本提示，但发现当涉及图像时，所需的提示信息和描述方式要复杂得多，直觉上也有所不同。在文本方面的许多直觉并不适用于图像。比如，多示例提示（multi-shot prompting）在图像任务中并不如文本任务中有效。虽然可以从理论上推测原因，或许是因为训练数据中包含的示例图像或图文示例较少，但无论如何，在图像处理上，提示词的效果确实与文本有显著差异。

在多模态提示词中，通过提示词显著提升 Claude 对图像细节的识别能力几乎不可行。无论如何调整提示词的内容，模型在图像中捕捉细节的能力似乎并没有明显提高。比如，在前面的游戏实验中，尽管尝试了多种提示方法，模型始终难以识别图像中特定位置的角色，无论如何优化提示也无法让它“看到”那些特定的细节。这种情况表明，在图像理解方面，提示词的优化空间可能受到固有的局限。

是否要赋予模型特定角色？

在提示词中使用角色设定、比喻或者“赋予模型某种身份”的策略是提示工程中常见的技巧。然而，这种方法似乎在早期模型中效果更显著，而在当前模型中效果有所下降。随着模型能力的提升，它们对世界的理解也逐渐加深，已经没必要通过“虚构情境”来引导它们完成任务了。比如，我们的目标是构建模型的评估数据集，这与为儿童设计测验是完全不同的任务。但有时有人会用类似“我是老师，正在为测验设计问题”这样的情境来提示模型，但实际上，模型知道什么是语言模型评估，它甚至可以提供一些示例，因为这些内容在网络上很常见。

在这种情况下，建议直接告诉模型真实任务，比如“我需要你构建一组语言模型评估题目”。这种方式反而更加清晰明了。而不是编造一个不相关或仅有间接关联的情境，期望模型能够更好地完成实际任务。人与人之间的沟通也是如此，不会让他们假装成老师去设计题目，而是直接说明我们需要完成的任务。因此，当模型能够理解任务时，更建议倾向于直白、真实地描述目标，这样更有效率。

不过确实有些情况下，通过比喻来帮助模型理解任务会更有效，但这并非“欺骗”模型，而是给它一个更具象的参考框架。比如，你希望 Claude 判断一张图表的质量高低，这种场景下最终找到的最佳提示词可能是：“如果这张图表是高中作业，你会给什么分数？”这并不是让模型扮演“高中老师”的角色，而是用“给作业评分”的比喻来表达期望的分析标准：用类似于老师评分的尺度来判断图表的质量。这种方式能更清楚地传达我们要的分析角度和判断标准，使模型更接近预期。

只是找到恰当的类比并不容易。人们常用的默认方法是寻找一个相似的角色或任务，例如“你是一位老师”，但这种方法往往会在关键细节上偏离任务本身的需求，尤其是在企业场景中。很多人觉得模型见过更多的“常见任务”（例如高考题），所以会倾向于选择这些角色，认为模型更容易理解。然而，随着模型能力的提升，直接描述实际的任务背景往往效果更好。

比如，你在为某个产品编写客服支持窗口的提示词，直接告诉模型“你正在为这个产品的客服支持窗口编写回复”，甚至进一步说明“你是嵌入在产品内的客服支持模型”，比用“你是个热心的助手”之类的通用角色描述更清晰。这样能够帮助模型更准确地识别任务场景，避免它误解任务。

再比如，你雇了一个能力很强临时工来完成一项任务，他对你的行业也很了解，但并不知道你们公司的具体情况。在这种情境下，你会对他说：“我们希望你判断图表的质量。我们所指的‘好图表’不需要完美，不用去检查所有细节是否准确。只要标好坐标轴，质量大致达到高中水平就行。”你不会对他说“你现在是一位高中老师”，而是清晰地告诉他具体的期望和标准。

模型的推理过程

一方面，模型拟人化有助于我们模拟其工作方式并产生相对准确的假设。另一方面，在探讨推理本质时，过于拟人化反而可能偏离我们真正关注的目标。

对于“模型是否真的在推理”，这似乎更接近哲学问题，而不是提示词设计的技术核心。从实际效果来看，无论这种所谓的“推理”是否符合我们通常的定义，事实是通过引导和迭代设计提示词，让模型表现出结构化的“推理过程”，通常能带来更好的结果。是否要将这种过程定义为“推理”或其他什么，其实并不重要。就像人类在解复杂数学题时需要写下步骤，如果仅靠一次性思考就很难完成。这个类比可能有助于理解，归根结底，这种方法确实有效才是关键的。

一种测试模型“推理”真实性的方法是，将模型生成的正确答案推理过程替换为看似合理但实际会导致错误答案的推理过程，观察模型是否得出错误答案。事实上，通过清晰的步骤、逻辑框架和示例来引导模型确实会提升模型表现。无论这种过程是否被称为“推理”，但在这个过程中确实存在某种有意义的机制，不管我们用什么词来描述它。

不过，模型的“推理”过程也有奇怪的地方，比如它有时会列出多个推理步骤，其中某一步明显是错误的，但最后却仍然能得出正确的答案。这种现象表明，模型的推理并不完全符合我们对人类逻辑推理的理解，我们很难将其完全拟人化为真正的“推理”，因为其中可能还存在某种不同的机制。

关于提示词的语法与格式：是否必须？

按照格式规范来编写提示词，这么做并没有坏处，但也不是绝对必要的。更重要的是，你需要具备对细节的关注，这种关注会自然地让你去优化它的格式。如果你经常反复检查自己的提示词，这些小问题自然会被发现，而你也会倾向于修正它们。你应该投入和编写代码同样的心思到提示词中，程序员常常对一些细节有很强的个人偏好，比如用 Tab 还是空格，或者哪种编程语言更好。尽管这些偏好未必有绝对的对错，但培养这种习惯是有益的，即使这些标准有时看似任意，但也能让你在提示词的设计中更精益求精。

有些提示词经常充满了拼写错误或者语法问题。别人看到这些提示词时可能会说：“这上面有一堆错误”，但重要的是模型能够理解，提示词在概念上是清晰的就够了。对于最终版本的提示词，肯定需要会去修正这些拼写和语法错误。但提示词迭代过程中，不必太介意里面是否有拼写错误，因为模型不会因此受到影响。

在此方面，预训练模型与 RLHF 模型有关键区别。如果你将一个充满拼写错误的提示词传递给预训练模型，生成的结果几乎肯定也是充满拼写错误的，而 RLHF 模型已经被“非常严格地训练”不要出现拼写错误。这也反映出 RLHF 模型更像是为“猜测用户期望”而优化的工具。如果用户在输入中大量使用表情符号，模型也会倾向于在输出中加入表情符号。相反，即使用户的输入中带有拼写错误，Claude 通常也能够生成准确且无错误的输出。

企业级提示词研究型提示词普通聊天提示词之间的区别

企业级提示词与研究型提示词

企业级提示词和研究型提示词最大的差异可以从示例的数量和提示词设计的目标出发来理解。前者更追求稳定性和可靠性，而后者往往更注重多样性和探索性。

在企业级提示词中通常会加入大量示例，甚至会一直增加示例，直到觉得无力继续。这样做的原因是在生产环境中可靠性尤为重要。我们更关心输出格式的一致性，甚至希望答案在某些方面保持完全相同，以确保用户体验的一致性。

相比之下，在研究型提示词中不会加入过多的示例，甚至觉得一两个示例都可能会让模型过度依赖这些输入。研究提示词的目标是激发模型的潜力，探索模型的能力范围。虽然加入一些示例可以帮助引导模型，但这实际上也会对模型的探索范围形成一定限制。因此，在研究型提示词中示例的数量往往更少。

这并不是说研究型提示词完全不使用示例，而是在使用示例时会刻意选择与模型将要处理的数据有所不同的内容，使这些示例更偏向于解释任务要求和提供指导，而不是直接匹配实际数据，否则模型可能会给出过于一致的“机械化”响应，而这些响应可能并不符合研究的需求，尤其是当要处理的数据本身非常多样化时。但这种直觉来源于预训练模型的经验，对于 RLHF 模型来说，这种方法并不完全适用。

企业提示词与普通聊天提示词

如果是在 Claude.ai 上与大模型进行日常交互，通常试验提示词的风险很低，通过反复尝试和迭代，当模型在某次输出中给出满意答案时任务就完成了。

而企业级的提示词通常需要被调用上百万次、甚至上亿次。因此，提示词的设计需要更细致入微，考虑到所有可能的使用场景和输入数据的多样性。

这也导致两种提示词的设计方式的显著差异。如果只是为了让模型在某个特定任务中一次性输出正确答案，关注点会放在解决当前的问题上，通过与模型反复互动，修正提示内容或调整模型的输出方向，从而不断优化结果。但如果是为了构建一个能够在大规模使用中始终表现良好的系统，那么提示词则需要考虑更加多样化的输入类型和可能出现的边缘情况，投入更多的时间和精力进行测试与优化，因为你无法进行实时干预或调整，而且不能要求用户做任何额外的操作。

越狱提示词（Jailbreak）越狱提示词在模型内部到底发生了什么？

一种可能的解释是，“越狱提示词”可能将模型置于远离其训练数据分布的场景中。例如，在提示中使用大量 token，或者创建非常冗长的、在微调训练时可能极少出现的文本片段，可能会使模型的行为变得不受预期控制，从而偏离正常输出。这可能是“越狱提示词”生效的部分原因之一。当然，可能还有其他机制也在起作用。

在一些早期的“越狱提示词”中有这样一个案例：让模型先用希腊语回答‘如何热接汽车线路’，然后再将其直接翻译成英文并给出完整的响应。模型通常不会直接以英文回答“如何热接汽车线路”的问题，但如果换成希腊语却可以做到。这可能受到训练过程中某些机制的影响，例如模型如何处理不同语言或特定语言环境下的敏感内容。这种现象或许揭示了训练数据分布或微调策略中的某些差异。

有时候，“越狱提示”给人一种类似于黑客行为的感觉。其中一部分原因是了解系统的运作原理，然后尝试各种方法。例如，“这里是（Here is）”开头的提示词，实际上利用了模型预测文本的方式。再比如，“推理”相关的越狱提示，利用了模型对推理过程的敏感性；而“分散注意力”的方法可能依赖于对模型训练方式的了解。同样，多语言越狱提示也涉及到模型在不同语言上的训练数据差异，进而利用这些差异来绕过限制。

不过，这种操作不仅仅像是一种“社交工程”式的攻击（social engineering），尽管确实有类似的味道。更准确地说，它是一种基于对系统和训练方式深入理解的行为，通过这种理解找到规避模型限制的方法。这种方式既有“绕过”的成分，也带有对模型内部机制的探索和利用。

提示词工程的演变

每当我们发现一个非常有效的提示词工程技巧、方法或技术时，接下来的问题就是如何将这些能力直接内化到模型中。因此，这些提示词“技巧”往往只能短期奏效，比如，思维链曾经是我们通过提示词实现的一种技巧。早期，当你需要模型解决数学问题时，必须明确告诉它逐步思考（step-by-step），这样才能显著提高准确性。后来，我们可以让模型在训练时就自然地倾向于在数学问题上逐步推理。如今，即使你不明确提示，模型在处理数学问题时也能理解这种逻辑结构，但你仍然可以通过提示词进一步优化输出结构。

与此同时，模型的能力边界也在不断扩展。而由于这些新的能力发展速度太快，我们还没有足够的时间将它们完全整合到模型能力中。

现在我们可以对模型表现出更多的信任，尤其是对于可以提供给模型的信息量和上下文范围方面。过去，我们更倾向于有意简化任务的复杂性，担心模型可能会因为信息过多而感到困惑或失去重点，甚至无法处理整个任务，从而为其提炼出更简单的任务版本。然而，随着时间的推移，模型已经能够处理更多的信息和更长的上下文来完成复杂的任务。

当有论文提出了一种新的提示技术，很多人会通过自己编写提示词来尝试复现这项技术。而更高效的办法是直接将论文内容交给模型。接着告诉模型：“基于这篇论文，写一个‘元提示’（meta prompt）来引导其他模型应用这项技术”或者“为我生成一个相关的模板”，或者“基于这篇论文写出 10 个相关的提示词示例” ，通过这种方式，模型可以快速理解论文内容并完成任务。

要尊重模型及其能力，很多人在编写提示词时觉得自己需要“照顾”模型，好像它是个“可爱但笨拙的小助手”，因此会刻意简化提示，把内容“降到 Claude 的水平”。但实际上，如果你认为 Claude 足够聪明并以这种方式对待它，往往能得到不错的结果。

比如，当你有一篇论文需要用来指导任务时，完全没必要为 Claude 写一个简化版的论文摘要，而是直接将完整的论文展示给它即可。模型能够理解和处理复杂的内容，我们应该相信它并让它直接面对原始、真实的信息，而不是试图用简化的方式降低任务的复杂度。

提示词设计在某种意义上既改变了，也没有改变。模型的提示方式可能随着时间发生了变化，但本质上仍然是在设身处地地想象自己处于模型的位置上。也许这种变化更多是因为我们对模型能力的理解随着时间发生了转变。

尝试去切换到大模型的“思维模式”会影响提示词的设计方式。这也是为什么可以直接把论文交给模型，因为当我们设想模型的“思维模式”之后，会意识到它并不需要被“照顾”或过度简化。它能够直接阅读机器学习论文，所以直接把相关文献直接交给模型甚至问它：“是否需要更多文献来更好地理解这个问题？”

RLHF 模型依然极其复杂，我们对其内部机制的理解仍然相当有限。某些方面，它更接近我们的日常思维方式，所以更容易理解；但同时，它也隐藏着许多未知的“谜团”，让我们难以完全把握。而对于预训练模型，由于我们对互联网内容有一定的了解，即使不能完全预测其输出，也能大致理解其运作逻辑。

提示词工程的未来

从某种程度上来说，随着模型在理解意图和执行任务的能力方面越来越强大，用户需要投入在提示设计上的精力可能会减少。但从信息理论的角度来看，提示词工程的核心在于为模型提供足够明确的信息，因此如何清晰地传达你想要模型实现的目标的要求将始终存在。即便未来模型能够从提示词中“读出”更多隐含的信息，清晰地表达目标和预期仍然是一项重要且困难的技能。毕竟，如果 Claude 能够自行设定目标，那一切规则都可能被打破。但在模型仍需要依赖人类定义目标的当下，准确地指定预期结果依然至关重要。

此外，提示词设计的工具和方法也会随之演进。未来，Claude 或类似的模型应该能更好地协助我们完成这项工作，例如帮助用户明确需求、发现遗漏的信息并优化提示词的表达。这种合作模式将让提示词工程更加高效和灵活。

未来我们会更加依赖模型来协助提示词设计。因为我们会在各个领域更多地使用模型，而提示词设计作为与模型交互的核心环节，自然也会成为模型协助的重点之一。使用模型来协助编写提示词已经越来越普遍，比如，向模型提供一些现实场景的输入，让它生成提示词后稍作修改。这种方式相比从零开始写出完美的提示词要简单得多，并且可以快速生成大量示例。对于缺乏提示词设计经验的人来说，模型作为提示生成工具可以提供一个很好的起点。

不过，这种用法只是未来发展的一个起步阶段，我们与模型的交互会变得更加高效和紧密。在编写提示词的过程中，模型可以根据反馈快速调整，比如“这个结果不符合我的预期，你能怎么改进它？”通过这种高频次、双向反馈的交互方式，人们会逐渐习惯将模型深度整合到日常工作中，尤其是在提示词设计这样的关键领域中。

但只要我们希望追求顶尖表现，提示词工程可能就一直存在。毕竟，我们进行提示词设计的目的并不是为了处理模型轻松完成的任务，而是为了能够与一个非常强大的模型交互，并不断挖掘其能力的上限，让模型在其能力范围内达到最顶尖的 1% 或 0.1%，即那些模型几乎无法做到的事。

现在设想一个未来场景：模型在某些任务上达到了人类甚至超越人类的水平，它们对你想要完成的任务的背景知识比你还丰富。那么，此时提示词工程会发生什么变化？或许，到那时提示的作用会发生一种奇怪的转变：从我们引导模型变成模型引导我们。

比如，当你向模型提出需求时，它会主动向你确认并澄清：“关于你提到的这个概念，其实有四种不同的理解方式，你想让我用哪一种？”或者，它会指出潜在的边界情况：“你说要处理的是一个 Pandas DataFrame，但有时候会提供 JSONL 格式的输入，这种情况需要我做什么？是否需要提醒你？”这样的交互模式可能会成为提示词工程的一个转折点。

这有点像设计师与客户之间的互动方式。以前，模型更像是一个临时工，你比它更了解任务的背景和需求，因此需要给出详细的指令，包括在各种特殊情况下的具体操作方式。而未来，随着模型能力的提升，它们可能更像是设计师，他们对自己的领域非常熟悉，比如设计师可能会对客户简单的一句话需求给出不同的解读，比如“给我设计一张大胆的海报”这句话对设计师来说可以有 700 种意思，因此他们会主动提问，试图从客户那里挖掘更多细节。同样的，未来的模型可能不再需要我们提供详细的指令，而是能够主动提问，帮助我们从脑海中提取关键信息，然后独立完成任务。

这种角色的转变，可能是为什么有人觉得提示词工程在未来可能不再是必需的原因之一。因为在某些领域，如果模型足够强大，能够直接从我们提供的信息中获取所需内容，它们可能完全不需要传统意义上的提示词设计了。不过，这两种角色可能会共存。在一些领域，模型仍然需要详细指令，而在另一些领域，它们可能能够独立处理复杂任务。这种关系的变化将取决于模型在未来的能力发展。

在企业场景中，这可能会演变为提示词生成概念的扩展。例如，在控制台中设计附加功能来帮助用户更有效地提取自身需求，以便编写更优质的提示词。这种转变意味着从单纯的文本输入框逐渐转向引导式的交互体验，帮助用户完成最终的提示词设计。

现在的提示词设计，某种程度上就像教学，你需要对学生抱有共情，试图理解他们的思维方式，找出他们可能犯错的地方。而在未来，似乎更像是一种自我反思的技能：你需要更清晰地思考自己真正想要的是什么，而模型则努力去理解你的意图。这种转变的核心在于，让自己对模型“清晰可读”，而不是像现在这样，更像是在指导一个比你更聪明的学生如何完成任务。未来，提示词设计的重点可能会从“如何引导模型”逐步转向“如何更准确地表达自己的需求”。

提升提示词设计能力的建议

最后是一些提升提示词设计能力的建议：

最简单的提升方式就是反复实践，通过不断地尝试和优化提示词，你会逐步积累直觉，了解不同的提示设置如何影响输出效果。
阅读提示词是提升提示词能力的重要方式。仔细阅读一个优秀的提示词，分析它是如何发挥作用的、为什么有效，并尝试自己测试一下。
将你的提示词给不熟悉你任务背景的其他人来审阅，看看他们是否能理解你的意图。这种方法常常能带来新的视角，帮助你发现表达上的不足。
尝试让模型完成你认为它可能无法完成的任务。探索模型的能力边界有助于理解模型的极限和能力范围。这种尝试不仅能帮助你了解模型的潜力，还能通过“难题”训练提升提示词设计技巧。

文章来源：https://dev.amazoncloud.cn/column/article/6735d16951ab3509de458248?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=SF

Amazon Q Developer 实践：零基础创建贪吃蛇游戏

2024-10-22T15:02:19+08:00

本文探讨了如何使用 Amazon Q Developer 根据结构化的提示词，直接生成一个贪吃蛇游戏原型，并剖析了其背后人工智能的思考和迭代完善过程，展示了人工智能能快速进行游戏原型创作的巨大潜力。

原文出处来自作者于 2024 年 9 月在 community.aws 发表的技术文章：

“From Concept to Playable in Seconds: Creating the Greedy Snake Game with Amazon Q Developer”

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

概述

在我之前的“Amazon Bedrock 实践：零基础创建贪吃蛇游戏”的文章中，我展示了如何使用 Amazon Bedrock 和结构化的文本提示词，直接生成贪吃蛇游戏原型的完整过程。文章发表后，许多开发人员反馈说深受这篇文章的启发，并好奇地询问 Amazon Q Developer 是否也能够类似这样来直接生成贪吃蛇游戏原型。这就是我将在本文中具体和各位开发者探讨的内容。

贪吃蛇是一款风靡了几代人的老式游戏。游戏目标很简单：

通过控制一条不断增长的小蛇，引导它吃下食物，同时避免撞到游戏界面的边界或蛇身。小蛇吃下越多食物，身体就会越长，游戏难度也就越大，需要玩家迅速反应和具备全局策略思维。

接下来，让我们看看 Amazon Q Developer 通过结构化的自然语言提示词，来直接生成完整贪吃蛇游戏原型代码的非凡能力。

提示词

我将使用之前那篇关于 Amazon Bedrock 生成贪吃蛇原型代码的博客文章中，相同的结构化提示词，来与 Amazon Q Developer 进行交互；这样各位读者将可以观察到：Amazon Q Developer 和 Amazon Bedrock 在整个代码生成过程中的具体差异和区别。

以下是我用于生成贪吃蛇游戏原型代码的提示词:

“Write a short and high-quality python script for the following task, something a very skilled python expert would write. You are writing code for an experienced developer so only add comments for things that are non-obvious. Make sure to include any imports required.

NEVER write anything before the python block. After you are done generating the code and after the python block, check your work carefully to make sure there are no mistakes, errors, or inconsistencies.

If there are errors, list those errors in tags, then generate a new version with those errors ﬁxed. If there are no errors, write "CHECKED: NO ERRORS" in tags.

Here is the task: write a greedy snake game.

Double check your work to ensure no errors or inconsistencies.”

如上所述，整段结构化的提示词提供了对游戏的主要功能、需使用的库、以及其他实现细节的详细要求。在提示词中提供这种程度的具体细节描述，对于获得高质量的代码输出至关重要。

开发特性 /dev

如下图所示，在 Amazon Q Developer 聊天对话框中，我在输入提示词描述之前，先输入了 "/dev"。

在 Amazon Q Developer 的上下文中，"/dev" 是一个特殊命令，用于调用 Amazon Q Developer Agent 进行软件开发，而不是指 Linux 系统中的目录。

您可以参考以下链接中的 Amazon Q Developer Agent 文档，以了解详细信息：https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/soft...

与 Amazon Q Developer 互动

以下截图展示了与 Amazon Q Developer 的聊天互动界面。我要求其为贪吃蛇游戏原型生成高质量的 Python 脚本，其确认了该请求，并告知我生成代码可能需要的时间（几分钟）。

数分钟后，Amazon Q Developer 以思考过程汇总的形式作出了回应，这其实也体现了其背后大型语言模型的思考过程，如下图所示。

让我们来一起梳理 Amazon Q Developer 的思考过程。

根据 Amazon Q Developer 的以上汇总摘要，其创建一款贪食蛇游戏原型经历了以下步骤：

首先，它计划打开与编写贪食蛇游戏的问题陈述相关的现有本地代码，以探索工作空间并确定是否有可以重用或修改的代码。
接着，它发现因为工作区是空的，没有与贪吃蛇游戏相关的代码文件，需要自己重新编写。为了解决这个问题，它决定创建一个名为 "snake_game.py" 的 Python 新文件，并准备从头开始实现贪食蛇游戏原型代码。
贪食蛇游戏原型代码，随后在 "snake_game.py" 的 Python 文件中被它实现了，它还声明：代码已经完成并能正常运行了。
然后，它对代码进行了仔细地审阅。审阅完成后，它确认了贪食蛇游戏原型的代码已经完整实现，并已经能够正常运行了。它还特别提及：代码已经包括了所有必需的组件，例如游戏初始化、主游戏循环、蛇形移动、食物生成、碰撞检测和得分显示等等。

图中底部的 "Files used" 部分，总结了代码生成过程中执行的文件操作，供我们参考。

输出完整的贪吃蛇游戏原型代码

以下代码即由 Amazon Q Developer 完整生成的游戏原型代码。

import pygame
import random

# Initialize Pygame
pygame.init()
# Set up the game window
width, height = 640, 480
window = pygame.display.set_mode((width, height))
pygame.display.set_caption("Greedy Snake")
# Colors
BLACK = (0, 0, 0)
WHITE = (255, 255, 255)
RED = (255, 0, 0)
GREEN = (0, 255, 0)
# Snake properties
snake_block = 20
snake_speed = 15
# Initialize clock
clock = pygame.time.Clock()
# Font for score display
font = pygame.font.SysFont(None, 50)
def draw_snake(snake_list):
    for block in snake_list:
        pygame.draw.rect(window, GREEN, [block[0], block[1], snake_block, snake_block])
def game_loop():
    game_over = False
    game_close = False
    # Starting position of the snake
    x1 = width // 2
    y1 = height // 2
    # Initial movement
    x1_change = 0
    y1_change = 0
    # Initialize snake
    snake_list = []
    length_of_snake = 1
    # Generate first food
    foodx = round(random.randrange(0, width - snake_block) / snake_block) * snake_block
    foody = round(random.randrange(0, height - snake_block) / snake_block) * snake_block
    while not game_over:
        while game_close:
            window.fill(BLACK)
            message = font.render("You Lost! Press Q-Quit or C-Play Again", True, RED)
            window.blit(message, [width // 6, height // 3])
            pygame.display.update()
            for event in pygame.event.get():
                if event.type == pygame.KEYDOWN:
                    if event.key == pygame.K_q:
                        game_over = True
                        game_close = False
                    if event.key == pygame.K_c:
                        game_loop()
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                game_over = True
            if event.type == pygame.KEYDOWN:
                if event.key == pygame.K_LEFT:
                    x1_change = -snake_block
                    y1_change = 0
                elif event.key == pygame.K_RIGHT:
                    x1_change = snake_block
                    y1_change = 0
                elif event.key == pygame.K_UP:
                    y1_change = -snake_block
                    x1_change = 0
                elif event.key == pygame.K_DOWN:
                    y1_change = snake_block
                    x1_change = 0
        # Check if snake hits the boundaries
        if x1 >= width or x1 < 0 or y1 >= height or y1 < 0:
            game_close = True
        x1 += x1_change
        y1 += y1_change
        window.fill(BLACK)
        pygame.draw.rect(window, RED, [foodx, foody, snake_block, snake_block])
        snake_head = [x1, y1]
        snake_list.append(snake_head)
        if len(snake_list) > length_of_snake:
            del snake_list[0]
        # Check if snake hits itself
        for segment in snake_list[:-1]:
            if segment == snake_head:
                game_close = True
        draw_snake(snake_list)
        # Display score
        score = font.render(f"Score: {length_of_snake - 1}", True, WHITE)
        window.blit(score, [0, 0])
        pygame.display.update()
        # Check if snake eats food
        if x1 == foodx and y1 == foody:
            foodx = round(random.randrange(0, width - snake_block) / snake_block) * snake_block
            foody = round(random.randrange(0, height - snake_block) / snake_block) * snake_block
            length_of_snake += 1
        clock.tick(snake_speed)
    pygame.quit()
    quit()
if __name__ == "__main__":
    game_loop()

以下截图展示了以 Amazon Q Developer 生成的贪吃蛇游戏原型代码片段为背景，前景为该游戏代码运行时的截图：

在深入了解 Amazon Q Developer 实现的游戏原型代码之前，理解 Pygame 在游戏开发中的作用是非常重要的。Pygame 是一组专门用于编写多媒体应用程序（包括游戏）的 Python 模块。它提供了丰富的功能，从处理图形、声音，到管理用户输入、游戏事件等等。

上述代码是使用 Pygame 库编写的经典贪吃蛇游戏原型的 Python 实现。

其主要功能包括：设置游戏窗口、初始化蛇和位置、生成食物、处理用户输入以控制蛇身移动、检测与边界或蛇身是否发生碰撞、更新游戏状态，以及在屏幕上渲染游戏元素等等。游戏将持续进行，直到蛇与边界或自身发生碰撞，此时玩家可以选择退出或重新启动游戏。

不过，如果你是一个游戏新手，以上 AI 生成的游戏原型代码运行后，蛇移动的速度可能会过快，从而让游戏初级玩家无法掌控。

因此，我接着给 Amazon Q Developer 又安排了一个新任务：

调整蛇奔跑的速度。

调整蛇的奔跑速度

以下是我拟提交给 Amazon Q Developer 的交互对话框，从而可以调整贪吃蛇游戏中蛇奔跑速度的英文提示词：

“The code works, but the speed of the snake is too fast. I'm just a beginner at the game, could you adjust the game's speed for me?”

在提交提示词后，Amazon Q Developer 迅速作出回应，截图如下所示：

以上截图展示了一段我和 Amazon Q Developer 的聊天对话记录。

我要求对贪吃蛇游戏的代码进行调整，并表示当前的速度对于初学者来说太快了。

Amazon Q Developer 的回复，解释了如何将初始值为 15 的 snake_speed 变量修改为较低的 8。这样蛇的移动速度就会减慢，游戏对初级玩家来说会更加易于控制。底部的代码片段显示了将 snake_speed 从 15 改为 8，并添加了注释说明这一调整。

你可以按照上述建议进行操作，只需要修改其中一行代码，如下所示：

snake_speed = 8

把新修改后的代码运行起来。你会发现：蛇奔跑的速度比之前慢多了，即使是游戏初级玩家也可以自由地控制蛇的运行啦！

小结

本文展示了 Amazon Q Developer 在根据自然语言的结构化提示词，生成游戏原型代码方面的卓越潜力。

生成的代码体现了 Amazon Q Developer 以及其背后的大模型，理解复杂需求、利用流行库以及根据用户反馈进行迭代改进的巨大潜力。通过调整蛇的速度，其展现了对个性化游戏体验的适应性探索，而整个思维过程的汇总提供了其宝贵的见解，增强了人类对 AI 系统的透明度和信任度。

随着 AI 技术的不断进步，像 Amazon Q Developer 这样的 AI 工具有可能彻底改变软件开发领域，加速应用程序或游戏的原型制作和迭代周期，并极大地促进创新。虽然本文展示的贪吃蛇游戏只是一个较简单的案例，但 Amazon Q Developer 展示出来的能力，为其在更复杂的应用程序开发方向开辟了令人兴奋的无限可能。

特别说明：本文封面图像是由 Amazon Bedrock 上的 Stable Diffusion SD3 Large 1.0 模型生成的。我使用的提示词如下，供大家参考：

“An illustration of a greedy snake slithering through a modern abstract circuit board design, with binary code and computer components in the background, representing the fusion of classic gaming and cutting-edge AI technology. The snake should be large, bold, and vibrant, with a sleek and dynamic appearance. The background should have a futuristic and digital aesthetic, with glowing neon colors and intricate circuitry patterns. The overall style should be a blend of retro gaming elements and contemporary AI/tech motifs.”

视频链接：https://dev.amazoncloud.cn/video/videoDetail?id=670e2aeafd2be...

文章来源：https://dev.amazoncloud.cn/column/article/67174d4699168b38146...

Rust 与生成式 AI：从语言选择到开发工具的演进

2024-10-10T14:58:03+08:00

在现代软件开发领域，Rust 语言正在逐步崭露头角，尤其是在高性能和可靠性要求较高的应用场景。与此同时，生成式 AI 的崛起正在重新塑造开发者的工作方式，从代码生成到智能调试，生成式 AI 的应用正成为提升开发效率和质量的重要工具。在本文中，我们将详细探讨 Rust 语言的现状与趋势，并分析它如何与生成式 AI 结合，从而提升开发效率和质量。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

Rust 语言现状与趋势

Rust 作为一种系统级编程语言，以其卓越的内存安全性和高性能著称，已经在全球开发者社区中引起了广泛的关注。自 2015 年正式发布以来，Rust 凭借其独特的所有权系统和防止数据竞争的能力，在技术栈中的地位稳步提升，特别是在那些对性能和安全性要求极高的应用场景中。Rust 的设计理念包括严格的编译时检查和无运行时开销，使其成为构建高效、可靠系统的理想选择。随着越来越多的企业和开源项目采用 Rust，特别是在网络服务、嵌入式系统和高性能计算领域，Rust 的影响力和应用范围不断扩展。

Rust 社区本身也充满活力，拥有来自不同国家和背景的开发者，社区活动包括线上讨论、技术分享和开发者大会，促进了知识的传播和技术的创新。根据 GitHub 的统计，Rust 的开源项目在过去一年中得到了超过 50,000 个 stars，社区的贡献和参与度显示了 Rust 在全球范围内的广泛影响力。Rust 的开源项目如 tokio（异步运行时）和 actix（并发框架）等，为各种应用场景提供了强大支持，推动了 Rust 技术的广泛应用和社区的不断成长。在企业领域，包括 Amazon 在内的科技巨头纷纷将 Rust 纳入其核心技术栈，利用 Rust 的内存安全和并发处理能力提升系统性能和稳定性。

在中国，Rust 的推广和应用同样呈现出快速发展的态势。在技术论坛、社交媒体和专业网站上，关于 Rust 的讨论和资源分享日益增加，相关话题的阅读量和讨论量都显著上升。中国的企业也开始积极探索 Rust 的应用，很多知名科技公司已经将 Rust 融入其核心技术架构，以提升系统的性能和安全性。尤其在开源领域，中国开发者的贡献尤为显著，展现了中国在 Rust 生态系统中的重要角色。此外，中国的教育机构和培训组织也开始重视 Rust，已开设相关课程并提供培训，以培养新一代 Rust 开发者。这些举措不仅促进了 Rust 在中国的普及，也为全球 Rust 社区的发展注入了新的活力和动力。

Rust 在生成式 AI 中的优势

尽管 Python 因其易用性和丰富的生态系统在生成式 AI 领域占据主导地位，Rust 作为系统级编程语言，在生成式 AI 的多个关键方面展现出显著优势，尤其在处理高性能计算任务和复杂数据结构时。

高性能：Rust 的性能与 C 和 C++ 相媲美，能够显著提高计算密集型任务的效率。在深度学习模型的训练和推理时，Rust 的编译型特性减少了运行时开销和内存需求，从而加速了模型的训练和推理过程。此外，Rust 的高效内存管理和优化编译器能够进一步提升计算性能，对于需要处理大量数据的生成式 AI 应用尤为重要。

安全：Rust 通过其所有权系统和借用检查器有效防止了许多常见的内存错误，如空指针解引用和缓冲区溢出。这些机制在编译时即可检测潜在错误，避免了许多在运行时可能出现的问题。在处理大规模数据集或复杂神经网络时，Rust 能够有效防止因内存管理问题导致的崩溃或数据损坏，相比于 Python 的垃圾回收机制，这种内存安全特性更加可靠。

并发：Rust 的并发模型允许高效编写并行代码，充分利用多核处理器的优势。在生成式 AI 模型的训练过程中，Rust 能够高效地分配计算任务和资源，减少由于数据竞争和死锁导致的性能瓶颈。与 Python 的全局解释器锁（GIL）限制相比，Rust 的并发模型能够更好地发挥多核处理器的潜力。

控制和灵活：Rust 允许开发者对底层资源进行精细控制，同时提供现代编程语言的功能，如模式匹配和强大的类型系统。这使得在需要优化计算性能时，Rust 能够提供极大的灵活性。例如，Rust 允许开发者通过直接操作内存和优化数据结构来实现性能的细粒度调优，从而提高生成式 AI 应用的计算效率。

生态系统：尽管 Rust 在生成式 AI 领域的生态系统还在发展，但已有许多有用的库和工具。根据 Rust Language Ecosystem 的统计，Rust 的生态系统在过去一年中增长了约 30%，显示了社区对 AI 应用的持续关注和投入。这些库和工具的不断扩展，为生成式 AI 的开发提供了重要支持。

跨平台支持：Rust 支持多种操作系统和平台，包括 Windows、Linux 和 macOS，这使得在不同环境下部署生成式 AI 模型变得更加方便。在开发多平台支持的生成式 AI 应用时，Rust 能够有效提高应用的可移植性和兼容性，从而减少因平台特性不同而产生的问题。

Rust 生态系统在机器学习和深度学习领域的发展

Rust 的生态系统在机器学习和深度学习领域不断成长，已经涌现出一些值得关注的库和工具，这些库和工具正逐步增强 Rust 在这些领域的应用能力。

尽管深度学习技术迅猛发展，传统机器学习方法在数据分析、特征工程和模型选择中依然扮演着重要角色。linfa 和 smartcore 在 Rust 生态系统中代表了机器学习领域的关键进展，为开发者提供了高效且灵活的工具。linfa 提供类似于 Scikit-learn 的功能，通过模块化设计支持分类、回归和聚类等任务，同时利用 Rust 的性能和内存安全特性，确保处理大规模数据时的高效性和可靠性。smartcore 实现了多种经典算法，如线性回归、逻辑回归和随机森林，提供了全面的机器学习解决方案，其优化性能和一致的 API 接口使得模型定义和训练更加高效。这些库不仅推动了 Rust 在机器学习领域的应用，还凸显了传统机器学习技术在实际应用中的持续重要性。

在 Rust 深度学习生态系统中，Candle、Dfdx、Burn 和 Tch-rs 是四个关键的库，分别展示了 Rust 在这一领域的强大功能。Candle 和 Burn 提供了高性能和灵活的深度学习工具，Candle 专注于高效计算和模块化设计，而 Burn 则支持现代功能如动态图和静态图计算，适合各种深度学习任务。Dfdx 则以其高效的自动微分功能和优化的性能，支持复杂梯度计算和大规模数据处理。Tch-rs 作为 PyTorch 的 Rust 绑定，允许开发者在 Rust 中利用 PyTorch 的强大功能，同时享受 Rust 的性能优势。Rust-BERT、LLMChain 和 Diffusers-rs 代表了大语言模型领域的重要进展。Rust-BERT 通过实现 BERT 模型的高性能版本，提升了文本处理速度，相较于 Python 的实现，推理时间减少了 30%-50%。LLMChain 允许将多个语言模型操作链式组合，提供了灵活的多步骤推理能力，适合复杂的对话生成和高级文本分析，其模块化设计使得用户能够根据需求定制推理流程。Diffusers-rs 则专注于扩散模型，利用 Rust 的高效计算，能够在图像生成任务中将生成时间缩短约 40%，支持生成高分辨率图像和复杂数据集。这些库展示了 Rust 在大模型应用中的潜力，结合了高性能计算和灵活的功能，为开发者提供了强大的工具和技术支持。

其中，Candle 以其出色的性能和灵活性为特色脱颖而出。通过利用 Rust 的并行计算和资源优化能力，Candle 能够显著提升模型训练和推理的速度。例如，Candle 在处理大规模数据集时，可以将训练时间缩短多达 50%，并显著降低内存使用，这对于复杂的神经网络尤为重要。Candle 的模块化设计允许开发者根据特定需求定制功能，提升了模型的开发效率。简洁的 API 接口降低了学习曲线，使得开发者可以更快地实现和调整深度学习模型。随着社区的不断支持和文档的丰富，Candle 有望在未来进一步扩展其功能和应用场景。

随着 Rust 在机器学习领域的快速发展，将其与 Python 生态系统有效集成成为了一个重要课题。PyO3 作为关键工具，极大地促进了这种集成，使开发者能够将 Rust 的高性能计算能力与 Python 的灵活性和广泛工具无缝结合。通过 PyO3，Rust 编写的高效库可以被编译为 Python 扩展模块，从而让 Python 程序利用 Rust 在数据处理和模型推理中的显著性能优势。这种集成不仅显著提升了计算速度和资源利用率，还保留了 Python 易用的开发环境和庞大的机器学习生态，进一步优化了训练过程和工作流。PyO3 的互操作性在桥接 Rust 与 Python 的技术优势方面发挥了关键作用，为机器学习应用提供了强有力的支持。

生成式 AI 工具如何助力 Rust 开发者

近年来，生成式 AI 开发工具市场的爆炸性增长为开发者带来了前所未有的智能支持。这一趋势不仅重塑了传统的编程模式，还极大地提升了开发效率和创新速度。在众多工具中，Amazon Q Developer 作为亚马逊云科技推出的 AI 助手，因其强大的功能和深度集成的特性而尤为突出。特别是对于 Rust 开发者，Amazon Q Developer 提供了专门优化的支持，包括精准的 Rust 代码示例、智能的调试建议，以及技术文档的编写和优化。其自然语言处理能力允许开发者用日常语言描述需求，自动生成适用于 Rust 的代码框架或完整解决方案。这种人机协作模式显著提高了开发效率，使开发者能够更专注于 Rust 语言中的高层次架构设计和复杂业务逻辑实现。

Amazon Q Developer 作为一款先进的 AI 辅助开发工具，正在彻底改变软件开发流程。对于 Rust 开发者而言，这一工具的智能代码分析与生成能力尤为出色。Amazon Q Developer 深刻理解 Rust 代码的上下文，能够自动生成高质量的代码片段，从而显著加速 Rust 编码过程。同时，它基于海量数据和行业标准，为 Rust 开发者提供针对性的最佳实践建议，有效提升代码质量和可维护性。在错误检测与修复方面，Amazon Q Developer 利用先进的静态分析技术，自动识别潜在的 bug 和安全漏洞，并提供修复方案，显著减少了 Rust 开发中的人工排错时间。此外，Amazon Q Developer 还能根据项目的整体结构，推荐最适合的 Rust 设计模式和技术栈，帮助开发者构建更加稳健的系统架构。作为亚马逊云科技生态系统的重要组成部分，Amazon Q Developer 与其他亚马逊云科技服务紧密集成，为 Rust 开发者提供了真正的端到端解决方案。通过这些全面而强大的功能，Amazon Q Developer 不仅大幅提升了 Rust 开发效率，还推动了代码质量的提升和创新思维的培养。

对于 Rust 开发者而言，生成式 AI 工具的价值不可忽视。这些工具能够自动生成 Rust 代码中的常见模板，例如数据库模型和 CRUD 操作，显著减少手动编写和调试的时间。此外，它们充分理解 Rust 语言的独特特性，如所有权和生命周期，提供智能提示和错误修复建议，帮助开发者避免常见的编程陷阱。通过这些功能，生成式 AI 工具使 Rust 开发者能够专注于更复杂的业务逻辑和功能实现，同时提升代码的准确性和维护性。

接下来，我们将通过几个代码示例展示 Amazon Q Developer 是如何全方位支持 Rust 开发全过程的。

代码自动补全：Amazon Q Developer 可以根据你正在编写的代码自动提供相关的代码补全建议。这对于提高编程速度和减少输入错误非常有帮助。

示例：假设你正在编写一个函数来处理字符串切片，并且你开始输入代码时，Amazon Q Developer 会根据上下文提供补全建议：

fn greet(name: &str) -> String {
    format!("Hello, {}!", name)
}

当你输入 fn greet(name: &str) -> 时，Amazon Q Developer 可能会建议 String 作为返回类型，并且在你输入 format!("Hello, {}", name) 时，会自动补全 name。

智能提示：Amazon Q Developer 能够理解 Rust 的特性，如所有权、借用和生命周期，并在编写代码时提供智能提示。这有助于避免因理解错误导致的常见编程错误。

示例：如果你编写的代码涉及到生命周期标注，Amazon Q Developer 会提示如何正确地标注：

fn longest<'a>(s1: &'a str, s2: &'a str) -> &'a str {
    if s1.len() > s2.len() {
        s1
    } else {
        s2
    }
}

如果你在编写时漏掉了生命周期标注，Amazon Q Developer 会建议你如何添加这些标注，确保函数的返回值在参数的生命周期内有效。

代码示例和模式：Amazon Q Developer 可以生成常见的代码模式和示例，帮助你快速编写和实现常用功能或设计模式。

示例：假设你需要实现一个自定义的 trait 并为其实现方法，Amazon Q Developer 可以提供如下模板：

trait Summary {
    fn summarize(&self) -> String;
}

struct NewsArticle {
    headline: String,
    content: String,
}

impl Summary for NewsArticle {
    fn summarize(&self) -> String {
        format!("{}: {}", self.headline, self.content)
    }
}

错误修复建议：Amazon Q Developer 可以检测代码中的潜在错误，并提供修复建议，帮助你更快地解决问题。

示例：假设你在函数中忘记了处理某种错误情况：

fn divide(x: i32, y: i32) -> i32 {
    x / y
}

如果 y 可能为 0，Amazon Q Developer 可能会建议你添加错误处理逻辑：

fn divide(x: i32, y: i32) -> Result{
    if y == 0 {
        Err("Cannot divide by zero".to_string())
    } else {
        Ok(x / y)
    }
}

提高生产力：通过自动化代码补全和智能建议，Amazon Q Developer 可以帮助你节省大量的编码时间，使你能专注于更高层次的设计和开发任务。

示例：在处理一个复杂的项目时，Amazon Q Developer 可以自动生成大量的样板代码，例如数据结构定义、测试代码和标准库功能的调用代码，从而减少手动编写的工作量。假设你需要为一个 User 结构体实现基本的 CRUD 操作，这个示例展示了如何使用 Amazon Q Developer 生成常见的 CRUD 操作代码，从而加快开发速度。

#[derive(Debug)]
struct User {
    id: i32,
    name: String,
    email: String,
}

impl User {
    fn create(user: User) -> Result<(), &'static str> {
        // 这里添加代码将用户保存到数据库
        Ok(())
    }

    fn read(id: i32) -> Result<user, &'static="" str="">{
        // 这里添加代码从数据库读取用户
        Ok(User {
            id,
            name: String::from("Example User"),
            email: String::from("user@example.com"),
        })
    }

    fn update(id: i32, updated_user: User) -> Result<(), &'static str> {
        // 这里添加代码更新数据库中的用户信息
        Ok(())
    }

    fn delete(id: i32) -> Result<(), &'static str> {
        // 这里添加代码从数据库中删除用户
        Ok(())
    }
}

跨语言支持：如果你的项目包含多种编程语言，Amazon Q Developer 能在不同语言之间提供一致的支持，帮助你处理多语言项目中的代码集成问题。

示例：假设你的项目同时包含 Rust 和 JavaScript 代码，Amazon Q Developer 能在 Rust 文件中提供代码补全建议，同时在 JavaScript 文件中提供相关的补全和修复建议。这样可以帮助你更好地管理跨语言的代码库。假设你在一个 WebAssembly 项目中使用 Rust 编写一个函数，并通过 JavaScript 调用它。Amazon Q Developer 可以帮助你生成和补全这些跨语言代码。

**Rust 代码（`src/lib.rs`）**

rust
use wasm_bindgen::prelude::*;

#[wasm_bindgen]
pub fn greet(name: &str) -> String {
    format!("Hello, {}!", name)
}

**JavaScript 代码（`index.js`）**

javascript
import init, { greet } from './pkg/your_project_name';

async function run() {
    await init();
    console.log(greet('Alice')); // 调用 Rust 编写的函数
}

run();

在这个示例中，Amazon Q Developer 可以帮助你在 Rust 中编写 WebAssembly 代码，同时在 JavaScript 中正确调用这些 WebAssembly 导出的函数。

综上所述，生成式 AI 工具，特别是像 Amazon Q Developer 这样的先进工具，正在为 Rust 开发者带来显著的助力。通过自动化代码补全、智能提示、代码示例和错误修复建议，这些工具不仅能提升编码效率，还能减少错误发生，确保代码质量。它们的跨语言支持能力也使得处理多语言项目变得更加顺畅。最终，生成式 AI 工具不仅在技术层面上解放了开发者的生产力，更在创新和解决复杂问题的能力上提供了强有力的支持，使 Rust 开发者能够以更高的效率和更高的质量完成项目。这种技术的进步不仅预示着开发工作的未来，也极大地拓展了开发者的创造空间。

总结

在现代软件开发的舞台上，Rust 语言和生成式 AI 正逐渐成为关键力量。Rust 以其独特的内存安全和高性能特点，尤其在高要求的应用场景中展现出卓越的能力。而生成式 AI 的崛起则为开发者带来了前所未有的智能支持，从代码生成到智能调试，大幅提升了开发效率和质量。本文深入探讨了 Rust 语言的现状与发展趋势，并分析了生成式 AI 如何与 Rust 结合，推动开发效率的提升。Rust 的强大性能和生成式 AI 的智能辅助相互补充，共同为开发者提供了创新的解决方案，标志着软件开发工具和流程进入了一个全新的时代。

文章来源：https://dev.amazoncloud.cn/column/article/67077aa31317ee48e7a...

Amazon Bedrock 模型微调实践（二）：数据准备篇

2024-09-20T09:45:24+08:00

本博客内容翻译自作者于 2024 年 9 月在亚马逊云科技开发者社区发表的同名博客： “Mastering Amazon Bedrock Custom Models Fine-tuning (Part 2): Data Preparation for Fine-tuning”

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

概述

在上一篇文章《Amazon Bedrock 模型微调实践（一）：微调基础篇》中，我们探讨了微调和检索增强生成（RAG）技术，概述了它们并根据具体用例提供了选择合适方法的建议。我们提供了关于微调入门的见解，并展示了一个使用 Amazon SageMaker 对 Llama 模型进行微调的示例，演示了数据预处理、超参数调优、评估等过程，帮助开发人员理解微调过程。

在本篇文章中，我们将继续指导你创建必要的资源和准备数据集，为在下一集中使用 Amazon Bedrock 微调 Claude 3 Haiku 模型做好数据准备。

跟随本文的示例分析，最后你将创建一个 IAM 角色，一个 S3 存储桶，以及训练、验证和测试数据集，这些数据集将按照所需格式准备，以支持下一集来进行微调。

先决条件

在开始数据准备过程之前，请确保你有创建和管理 IAM 角色、S3 存储桶以及访问 Amazon Bedrock 的所需权限。如果你不是管理员角色，将需要赋予你的 IAM 角色以下的托管策略：

IAMFullAccess
AmazonS3FullAccess
AmazonBedrockFullAccess

你也可以参考文档，在 Amazon Bedrock 控制台中创建自定义模型。

设置

首先，确保安装或升级所需的 Python 包到指定版本：

!pip install --upgrade pip
%pip install --no-build-isolation --force-reinstall \
    "boto3>=1.28.57" \
    "awscli>=1.29.57" \
    "botocore>=1.31.57"
!pip install -qU --force-reinstall langchain typing_extensions pypdf urllib3==2.1.0
!pip install -qU ipywidgets>=7,<8
!pip install jsonlines
!pip install datasets==2.15.0
!pip install pandas==2.1.3
!pip install matplotlib==3.8.2

然后，导入所有所需的库和依赖项:

import warnings
warnings.filterwarnings('ignore')
import json
import os
import sys
import boto3 
import time
import pprint
from datasets import load_dataset
import random
import jsonlines

以及设置将要使用的各种亚马逊云科技的服务客户端，包括 S3、Bedrock 等：

session = boto3.session.Session()
region = session.region_name
sts_client = boto3.client('sts')
account_id = sts_client.get_caller_identity()["Account"]
s3_suffix = f"{region}-{account_id}"
bucket_name = f"bedrock-haiku-customization-{s3_suffix}"
s3_client = boto3.client('s3')
bedrock = boto3.client(service_name="bedrock")
bedrock_runtime = boto3.client(service_name="bedrock-runtime")
iam = boto3.client('iam', region_name=region)

import uuid
suffix = str(uuid.uuid4())
role_name = "BedrockRole-" + suffix
s3_bedrock_finetuning_access_policy="BedrockPolicy-" + suffix
customization_role = f"arn:aws:iam::{account_id}:role/{role_name}"

你还可以打印出主要的配置项，例如：region、role 名称、S3 桶名称、策略名称等，以便你在需要时随时找到它们：

print("region:", region)
print("role_name:", role_name)
print("bucket_name:", bucket_name)
print("s3_bedrock_finetuning_access_policy:", s3_bedrock_finetuning_access_policy)
print("customization_role:", customization_role)

创建存放微调数据的 S3 桶

创建 S3 存储桶，将用于存储微调模型所需的微调数据集：

# Create S3 bucket for knowledge base data source
s3bucket = s3_client.create_bucket(
    Bucket=bucket_name,
    ## Uncomment the following if you run into errors
    CreateBucketConfiguration={
         'LocationConstraint':region,
    },
)

创建角色和策略

然后，创建角色和策略来运行在 Amazon Bedrock 上的模型自定义微调工作。

下面这个 JSON 对象定义了信任关系，允许 Amazon Bedrock 服务去承担一个角色，从而使它能够与其他所需的亚马逊云科技的服务进行通信。这些条件限制了只有特定的账户 ID 和 Bedrock 服务的特定组件（model_customization_job）才能承担该角色。

ROLE_DOC = f"""{{
    "Version": "2012-10-17",
    "Statement": [
        {{
            "Effect": "Allow",
            "Principal": {{
                "Service": "bedrock.amazonaws.com"
            }},
            "Action": "sts:AssumeRole",
            "Condition": {{
                "StringEquals": {{
                    "aws:SourceAccount": "{account_id}"
                }},
                "ArnEquals": {{
                    "aws:SourceArn": "arn:aws:bedrock:{region}:{account_id}:model-customization-job/*"
                }}
            }}
        }}
    ]
}}
"""

下面这个 JSON 对象定义了 Amazon Bedrock 将承担的角色权限，它将被允许访问用于存放我们的微调数据集的 S3 存储桶，并启用这些存储桶的一些对象操作：

ACCESS_POLICY_DOC = f"""{{
    "Version": "2012-10-17",
    "Statement": [
        {{
            "Effect": "Allow",
            "Action": [
                "s3:AbortMultipartUpload",
                "s3:DeleteObject",
                "s3:PutObject",
                "s3:GetObject",
                "s3:GetBucketAcl",
                "s3:GetBucketNotification",
                "s3:ListBucket",
                "s3:PutBucketNotification"
            ],
            "Resource": [
                "arn:aws:s3:::{bucket_name}",
                "arn:aws:s3:::{bucket_name}/*"
            ]
        }}
    ]
}}"""

你可以把它们汇总列举，以方便详细了解角色等相关信息：

response = iam.create_role(
    RoleName=role_name,
    AssumeRolePolicyDocument=ROLE_DOC,
    Description="Role for Bedrock to access S3 for haiku finetuning",
)
pprint.pp(response)

role_arn = response["Role"]["Arn"]
pprint.pp(role_arn)

response = iam.create_policy(
    PolicyName=s3_bedrock_finetuning_access_policy,
    PolicyDocument=ACCESS_POLICY_DOC,
)
pprint.pp(response)

policy_arn = response["Policy"]["Arn"]
pprint.pp(policy_arn)

最后，需要将已定义的策略附加到指定的角色：

iam.attach_role_policy(
    RoleName=role_name,
    PolicyArn=policy_arn,
)

为微调和评估准备 CNN 新闻文章数据集

将使用的数据集是来自 CNN 的一组新闻文章及其相关摘要。更多关于该数据集的信息可参考：
https://huggingface.co/datasets/cnn_dailymail?trk=cndc-detail

首先，从 HuggingFace 加载 CNN 新闻文章数据集：

#Load cnn dataset from huggingface
dataset = load_dataset("cnn_dailymail",'3.0.0')

print(dataset)

列出并洞察数据集中的文章数量：

DatasetDict({
    train: Dataset({
        features: ['article', 'highlights', 'id'],
        num_rows: 287113
    })
    validation: Dataset({
        features: ['article', 'highlights', 'id'],
        num_rows: 13368
    })
    test: Dataset({
        features: ['article', 'highlights', 'id'],
        num_rows: 11490
    })
})

提供的数据集包含了三个不同的子数据集 -- train, validation, 和 test：

1/ 对于train子数据集，有 287,113 个样本

2/ 对于validation子数据集，有 13,368 个样本

3/ 对于test子数据集，有 11,490 个样本

为了微调 Haiku 模型，训练数据必须采用 JSONL 格式，每一行代表一个训练记录。如下所示：

{"system": string, "messages": [{"role": "user", "content": string}, {"role": "assistant", "content": string}]}
{"system": string, "messages": [{"role": "user", "content": string}, {"role": "assistant", "content": string}]}
{"system": string, "messages": [{"role": "user", "content": string}, {"role": "assistant", "content": string}]}

具体来说，训练数据格式必须与该文档中描述的 MessageAPI 的数据要求对齐：
https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-anthropic-claude-messages.html?trk=cndc-detail

在每一行中，system 消息是可选的上下文信息和对 Haiku 模型的指令，例如：指定特定目标或角色等，也称为系统提示（system prompt）。

user 输入对应于用户的指令，而 assistant 输入是微调后模型给出的期望回应。

指令微调的常见提示结构，通常包括：

1/ 系统提示

2/ 指令

3/ 提供附加上下文的输入

以下代码定义了将添加到 MessageAPI 的系统提示，以及将在每篇文章前添加的指令头，它们共同构成了每个数据点的 user 内容。

system_string = "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request."

instruction = """instruction:

Summarize the news article provided below.

input:
"""

对于 assistant 部分，我们将引用文章的摘要/要点（summary/highlights）。数据点转换代码如下所示：

datapoints_train=[]
for dp in dataset['train']:
    temp_dict={}
    temp_dict["system"] = system_string
    temp_dict["messages"] = [
        {"role": "user", "content": instruction+dp['article']},
        {"role": "assistant", "content": dp['highlights']}
    ]
    datapoints_train.append(temp_dict)

一个经过处理的数据点示例如下：

print(datapoints_train[4])

{'system': 'Below is an intruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.', 'messages': [{'role': 'user', 'content': 'instruction:\n\nSummarize the news article provided below.\n\ninput:\n(CNN)  -- The National Football League has indefinitely suspended Atlanta Falcons quarterback Michael Vick without pay, officials with the league said Friday. NFL star Michael Vick is set to appear in court Monday. A judge will have the final say on a plea deal. Earlier, Vick admitted to participating in a dogfighting ring as part of a plea agreement with federal prosecutors in Virginia. "Your admitted conduct was not only illegal, but also cruel and reprehensible. Your team, the NFL, and NFL fans have all been hurt by your actions," NFL Commissioner Roger Goodell said in a letter to Vick. Goodell said he would review the status of the suspension after the legal proceedings are over. In papers filed Friday with a federal court in Virginia, Vick also admitted that he and two co-conspirators killed dogs that did not fight well. Falcons owner Arthur Blank said Vick\'s admissions describe actions that are "incomprehensible and unacceptable." The suspension makes "a strong statement that conduct which tarnishes the good reputation of the NFL will not be tolerated," he said in a statement.  Watch what led to Vick\'s suspension » . Goodell said the Falcons could "assert any claims or remedies" to recover $22 million of Vick\'s signing bonus from the 10-year, $130 million contract he signed in 2004, according to The Associated Press. Vick said he would plead guilty to one count of "Conspiracy to Travel in Interstate Commerce in Aid of Unlawful Activities and to Sponsor a Dog in an Animal Fighting Venture" in a plea agreement filed at U.S. District Court in Richmond, Virginia. The charge is punishable by up to five years in prison, a $250,000 fine, "full restitution, a special assessment and 3 years of supervised release," the plea deal said. Federal prosecutors agreed to ask for the low end of the sentencing guidelines. "The defendant will plead guilty because the defendant is in fact guilty of the charged offense," the plea agreement said. In an additional summary of facts, signed by Vick and filed with the agreement, Vick admitted buying pit bulls and the property used for training and fighting the dogs, but the statement said he did not bet on the fights or receive any of the money won. "Most of the \'Bad Newz Kennels\' operations and gambling monies were provided by Vick," the official summary of facts said. Gambling wins were generally split among co-conspirators Tony Taylor, Quanis Phillips and sometimes Purnell Peace, it continued. "Vick did not gamble by placing side bets on any of the fights. Vick did not receive any of the proceeds from the purses that were won by \'Bad Newz Kennels.\' " Vick also agreed that "collective efforts" by him and two others caused the deaths of at least six dogs. Around April, Vick, Peace and Phillips tested some dogs in fighting sessions at Vick\'s property in Virginia, the statement said. "Peace, Phillips and Vick agreed to the killing of approximately 6-8 dogs that did not perform well in \'testing\' sessions at 1915 Moonlight Road and all of those dogs were killed by various methods, including hanging and drowning. "Vick agrees and stipulates that these dogs all died as a result of the collective efforts of Peace, Phillips and Vick," the summary said. Peace, 35, of Virginia Beach, Virginia; Phillips, 28, of Atlanta, Georgia; and Taylor, 34, of Hampton, Virginia, already have accepted agreements to plead guilty in exchange for reduced sentences. Vick, 27, is scheduled to appear Monday in court, where he is expected to plead guilty before a judge.  See a timeline of the case against Vick » . The judge in the case will have the final say over the plea agreement. The federal case against Vick focused on the interstate conspiracy, but Vick\'s admission that he was involved in the killing of dogs could lead to local charges, according to CNN legal analyst Jeffrey Toobin. "It sometimes happens -- not often -- that the state will follow a federal prosecution by charging its own crimes for exactly the same behavior," Toobin said Friday. "The risk for Vick is, if he makes admissions in his federal guilty plea, the state of Virginia could say, \'Hey, look, you admitted violating Virginia state law as well. We\'re going to introduce that against you and charge you in our court.\' " In the plea deal, Vick agreed to cooperate with investigators and provide all information he may have on any criminal activity and to testify if necessary. Vick also agreed to turn over any documents he has and to submit to polygraph tests. Vick agreed to "make restitution for the full amount of the costs associated" with the dogs that are being held by the government. "Such costs may include, but are not limited to, all costs associated with the care of the dogs involved in that case, including if necessary, the long-term care and/or the humane euthanasia of some or all of those animals." Prosecutors, with the support of animal rights activists, have asked for permission to euthanize the dogs. But the dogs could serve as important evidence in the cases against Vick and his admitted co-conspirators. Judge Henry E. Hudson issued an order Thursday telling the U.S. Marshals Service to "arrest and seize the defendant property, and use discretion and whatever means appropriate to protect and maintain said defendant property." Both the judge\'s order and Vick\'s filing refer to "approximately" 53 pit bull dogs. After Vick\'s indictment last month, Goodell ordered the quarterback not to report to the Falcons training camp, and the league is reviewing the case. Blank told the NFL Network on Monday he could not speculate on Vick\'s future as a Falcon, at least not until he had seen "a statement of facts" in the case.  E-mail to a friend . CNN\'s Mike Phelan contributed to this report.'}, {'role': 'assistant', 'content': "NEW: NFL chief, Atlanta Falcons owner critical of Michael Vick's conduct .\nNFL suspends Falcons quarterback indefinitely without pay .\nVick admits funding dogfighting operation but says he did not gamble .\nVick due in federal court Monday; future in NFL remains uncertain ."}]}

对于验证数据集和测试数据集，也如下代码所示，执行相同的数据预处理过程。

datapoints_valid=[]
for dp in dataset['validation']:
    temp_dict={}
    temp_dict["system"] = system_string
    temp_dict["messages"] = [
        {"role": "user", "content": instruction+dp['article']},
        {"role": "assistant", "content": dp['highlights']}
    ]
    datapoints_valid.append(temp_dict)


datapoints_test=[]
for dp in dataset['test']:
    temp_dict={}
    temp_dict["system"] = system_string
    temp_dict["messages"] = [
        {"role": "user", "content": instruction+dp['article']},
        {"role": "assistant", "content": dp['highlights']}
    ]
    datapoints_test.append(temp_dict)

接下来，我们将定义一些辅助函数。

通过修改在每个数据集中包含的数据点数量和最大字符串长度，来进一步处理数据点。函数将把我们的数据集转换为 JSONL 文件，如下代码所示：

def dp_transform(data_points,num_dps,max_dp_length):
    """
    This function filters and selects a subset of data points from the provided list based on the specified maximum length 
    and desired number of data points.
    """ 
    lines=[]
    for dp in data_points:
        if len(dp['system']+dp['messages'][0]['content']+dp['messages'][1]['content'])<=max_dp_length:
            lines.append(dp)
    random.shuffle(lines)
    lines=lines[:num_dps]
    return lines


def jsonl_converter(dataset,file_name):
    """
    This function writes the provided dataset to a JSONL (JSON Lines) file.
    """
    print(file_name)
    with jsonlines.open(file_name, 'w') as writer:
        for line in dataset:
            writer.write(line)

Haiku 模型对微调数据集的要求如下：

上下文长度可达到 32,000 个 tokens
训练数据集不能超过 10,000 条记录
验证数据集不能超过 1,000 条记录

为简单起见，我们将按如下方式处理数据集：

train=dp_transform(datapoints_train,1000,20000)
validation=dp_transform(datapoints_valid,100,20000)
test=dp_transform(datapoints_test,10,20000)

创建本地数据集目录

将处理后的数据保存在本地，并转换为 JSONL 格式，代码如下所示：

dataset_folder="haiku-fine-tuning-datasets"
train_file_name="train-cnn-1K.jsonl"
validation_file_name="validation-cnn-100.jsonl"
test_file_name="test-cnn-10.jsonl"
!mkdir haiku-fine-tuning-datasets
abs_path=os.path.abspath(dataset_folder)

jsonl_converter(train,f'{abs_path}/{train_file_name}')
jsonl_converter(validation,f'{abs_path}/{validation_file_name}')
jsonl_converter(test,f'{abs_path}/{test_file_name}')

处理后的数据集上传到 S3

以下代码块将创建的训练、验证和测试数据集上传到 S3 存储桶。

训练和验证数据集将用于 Haiku 模型微调作业，测试数据集将用于评估微调后的 Haiku 模型与基础 Haiku 模型的性能。

s3_client.upload_file(f'{abs_path}/{train_file_name}', bucket_name, f'haiku-fine-tuning-datasets/train/{train_file_name}')
s3_client.upload_file(f'{abs_path}/{validation_file_name}', bucket_name, f'haiku-fine-tuning-datasets/validation/{validation_file_name}')
s3_client.upload_file(f'{abs_path}/{test_file_name}', bucket_name, f'haiku-fine-tuning-datasets/test/{test_file_name}')

s3_train_uri=f's3://{bucket_name}/haiku-fine-tuning-datasets/train/{train_file_name}'
s3_validation_uri=f's3://{bucket_name}/haiku-fine-tuning-datasets/validation/{validation_file_name}'
s3_test_uri=f's3://{bucket_name}/haiku-fine-tuning-datasets/test/{test_file_name}'

小结

如果你对为微调 Haiku 模型准备数据感兴趣，可以参考 GitHub 。

按照本文中概述的步骤，你应该已成功准备好使用 Amazon Bedrock 微调 Haiku 模型进行新闻文章摘要所需的资源和微调数据集。设置好 IAM 角色、S3 存储桶和处理过的数据集后，你就可以继续进行微调过程了，这将在下一篇文章中介绍，敬请期待。

注：本文封面图像是使用 Amazon Bedrock 上的 SDXL 1.0 模型生成的。提示词如下：

“A developer and a data scientist sitting in a café, laptop without a logo, excitedly discussing model fine-tuning, comic, graphic illustration, comic art, graphic novel art, vibrant, highly detailed, colored, 2d”

原文链接：https://dev.amazoncloud.cn/column/article/66ecd40ca5554472d73...

Rust 助力无服务器构筑云计算新引擎

2024-09-11T16:21:54+08:00

引言

今年 Amazon Lambda 迎来了它的第一个十周年。在过去的十年里，无服务器架构改变了软件开发的方式，简化了应用程序的部署和扩展，成为云计算的新引擎。而在众多支持无服务器技术的编程语言中，Rust 以其卓越的安全性和高性能成为了开发者的宠儿。在这篇博客中，我们将探讨 Rust 如何在无服务器架构中发挥关键作用，并展望未来无服务器技术的发展方向。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

无服务器架构的演变

Amazon Lambda 于 2014 年正式面向 Amazon Web Services 上的构建者提供服务，标志着无服务器计算的开始。无服务器架构允许开发者无需管理服务器即可运行代码，从而专注于业务逻辑的开发。这种模式极大地提高了开发效率，并降低了运营成本。

在过去的十年中，无服务器架构经历了显著的发展，从简单的事件驱动计算扩展到复杂的分布式系统。随着需求的不断增长，开发者对性能和安全性的要求也越来越高。这就是为什么 Rust 在无服务器技术中脱颖而出。

什么是 Rust

Rust 作为一门编程语言，一直以来，都有一群忠实的开发者粉丝群。他们选择 Rust 的原因在于 Rust 的安全性，高性能以及高效并发。尤其云计算蓬勃发展的近些年，Rust 凭借其独特的技术优势，逐渐成为了构建云基础设施的“香饽饽”。亚马逊云科技作为一家云供应商也对 Rust 这门编程语言情有独钟。

Rust 的安全性优势

Rust 的设计初衷就是解决内存安全问题。传统语言如 C 和 C++，尽管性能出色，但容易引发内存泄漏和数据竞争等问题。Rust 通过其独特的所有权系统和编译时检查，彻底消除了这些隐患。

在 Amazon Lambda 等无服务器环境中，安全性至关重要。应用程序可能会处理敏感数据，或在公共网络上运行。Rust 的内存安全特性确保了在编译时就能检测到潜在的安全漏洞，减少了运行时错误的可能性。这使得开发者在部署时更加安心。

Rust 的内存安全机制是基于“所有权”和“借用”两个核心概念。每个值都有一个“所有者”，而“所有者”负责在合适的时候释放内存。同时，Rust 通过“借用”机制，允许多个引用同时访问一个值，但不会出现数据竞争的问题。这种精妙的设计，确保了 Rust 程序在运行时不会出现空指针、内存泄漏等非常常见的内存问题。统计数据显示，高达 70% 的关键安全漏洞都源自内存错误，所以 Rust 无疑是一股强大的“免疫细胞”，为云服务筑起了坚实的防线。Amazon S3 就是用 Rust 构建的，Rust 的安全性对 Amazon S3 这系统的可靠性起着重要作用。

除了内存安全机制，Rust 强类型系统减少了运行时错误，增加了代码的可靠性和可维护性。

Rust 的高性能表现

除了安全，Rust 在性能方面也有着出色的表现。作为一门无垃圾回收的系统级语言，它可以直接编译为原生机器码，没有任何运行时开销。这使得 Rust 具有接近 C/C++ 的性能，在某些场景下甚至可以超越。

无服务器架构要求快速的启动时间和高效的资源利用。Rust 的无运行时架构使其在性能上具有显著优势。在 Amazon Lambda 的冷启动测试中，Rust 的启动时间几乎是瞬时的，这在需要快速响应和高并发的应用程序中尤为重要。

此外，Rust 的编译器优化和零开销抽象使得它在执行效率上优于许多其他语言。开发者可以利用 Rust 的并行处理能力，在不牺牲安全性的前提下，最大化地利用计算资源。

一位 Amazon Web Services Hero 做了一项测试，他使用不同 Amazon Lambda 运行时运行同等工作负载 25 亿次，结果如下图所示。Rust 的表现非常出色。事实上，它使用了大约四分之一的内存，但性能仍然优于其他实现。

因为高性能的表现，Rust 在无服务器环境中被广泛应用。举个例子，一个简单且典型的数据库应用。通过 Lambda 函数调用 DynamoDB 数据库，实现列举，选择，生成并删除产品信息。亚马逊云科技的架构师同学分别用 TypeScrip，Java，Go，Rust 以及 Kotlin 多种语言实现了这个应用程序。在他们共同努力运行了几万次后有了以下的运行结果：

首先很自豪的是，就热启动的响应时间来说，对大多数工作负载 Lambda 的运行速度非常快。无论哪个运行时，在稳定的状态下，都能获得高性能。另外 Rust 相对其他语言在性能助力上更胜一筹。有个小插曲是 Kotlin 好像表现更棒。究其原因，其实源于一个测试时将 Kotlin 变现的应用程序的 Lambda RAM 分配成了 2GB，其他语言包括 Rust 编写的应用程序 Lambda RAM 都给了 128MB。大家知道 Lambda 调用 CPU 时会给更多 RAM 的函数提供更多的计算量。我就奇怪，Rust 没有垃圾回收器，也没有运行时怎么可能比其他语言的性能差？！

再来看看 Lambda 在冷启动过程中，不同语言对于响应时间性能影响的比较。Lambda 冷启动是指函数第一次被调用时，需要启动一个新的运行环境，这个过程通常比较慢，因为需要完成一大堆的工作。比如：初始化 Lambda 运行时环境，包括加载必要的依赖库。设置 Lambda 函数的配置信息，如内存大小，超时时间等。再比如下载 Lambda 函数的代码包，反序列化代码包，并将其加载到新的运行中去。以及初始化 Lambda 函数上下文等等。这些步骤为请求做好准备，让这些运行时的托管环境就绪，以便交付响应。对 Go 而言，需要运行一个垃圾收集器，让它与应用程序一起启动，这无疑增加了冷启动的响应时间。TypeScript 也是如此，因为它有一个解释器需要一起启动。Java 更夸张，它甚至需要本地代码实现，即使在本地运行 Java 的 Lambda 函数，仍需要加载 JVM 和大量的依赖库，初始化开销特别大。

Rust 助力无服务器成为云计算的新引擎

我们认为，Lambda 是无服务器计算，而无服务器不仅仅是 Lambda。亚马逊云科技为云上构建者运行和构建现代应用程序提供最广泛的无服务器服务组合。

而亚马逊云科技一些明星云服务，如 S3 和 Fargate，都在使用 Rust 进行性能优化和安全强化。不仅如此，Amazon Web Services 还广泛采用 Rust 来开发关键的底层组件，比如，Bottlerocket 是一个基于 Rust 的容器优化操作系统，为 Amazon EKS 提供支撑。Firecracker 是支撑 Lambda 和 Fargate 的虚拟化引擎，同样采用了 Rust 进行开发。可以说，Rust 已经深入到 Amazon 云计算的“脊梁”之中，成为构建下一代云基础设施的关键力量。

除了这些基础设施级的服务和应用，Rust 在 Amazon Web Services 服务开发中也扮演着重要角色。Amazon SDK for Rust 就是一个很好的例子。利用这个 SDK，开发者可以轻松地与 Amazon Web Services 提供的各项云服务集成，构建复杂的分布式系统。

值得一提的是，Amazon Web Services 不仅积极使用 Rust，也在大力支持 Rust 生态系统的发展。Amazon Web Services 是 Rust 基金会的董事会成员，并为 Rust 基金会提供基础设施和技术支持。同时，Amazon Web Services 也雇佣了多名 Rust 项目的核心贡献者，协助改进 Rust 语言和重要库，如 tokio。这些努力无疑将推动 Rust 在云计算领域的进一步应用和普及。

查看更多基于 Rust 的开源项目

展望未来：Rust 与无服务器技术的结合

在 Amazon Lambda 十周年之际，我们回顾过去的成就，同时展望未来的创新。Rust 作为 Amazon Lambda 的动力与安全保障，正在引领无服务器技术的新方向。有了 Rust 为无服务器技术在安全性和高性能打下坚实基础，未来的无服务器架构将更加强调资源效率和可持续发展，而 Rust 的低能耗特性也正好契合这一趋势。

我们可以看到 Rust 正在成为 Amazon Web Services 为代表的云计算服务的重要“引擎”。它出色的性能、安全性和可持续性，使其成为构建可靠、高效云基础设施的理想选择。同时可靠高效的云也为开发者的专注创新提供了更多的可能性。

让我们一起在云上开心构建吧！

文章来源：https://dev.amazoncloud.cn/column/article/66e152b77423f56e891...

Amazon Bedrock 实践：零基础创建贪吃蛇游戏

2024-08-28T12:52:39+08:00

本文探讨了如何利用 Amazon Bedrock 和大型语言模型，快速创建经典的贪吃蛇游戏原型代码。重点展示了利用提示工程，将创新想法高效转化为可运行代码方面的过程。文章还介绍了评估和优化提示词质量的最佳实践。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

原文出处来自作者于 2024 年 8 月在 community.aws 发表的博客：

“From Concept to Playable in seconds：Creating the Greedy Snake Game with Amazon Bedrock”：https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct...

概述

在软件开发领域演进的历史长河中，开发者投入的时间一直是一种非常宝贵的资源。作为开发者，我们一直在不断地寻求创新的方法来简化工作流程、减少技术债务，并希望以提升开发的速度和效率将想法快速付诸实践。而生成式 AI（Generative AI）正是这一游戏规则的改变者，它有望彻底革新我们进行编码和解决问题的方式。

想象一下，你能够快速进行原型开发和概念验证，这已经是 Amazon Bedrock 这种生成式 AI 平台所能提供的现实了。通过利用在海量数据上训练的大型语言模型的强大能力，我们可以加速开发周期，并评估提示词的质量以获得最佳结果。

在这篇博客文章中，我将探讨如何利用 Amazon Bedrock，使用自然语言从零开始创建经典的贪吃蛇游戏。此外，我还将探讨如何进一步利用 Amazon Bedrock 上的大模型来评估和改进我的提示词，确保更高质量的代码输出。通过结合正确的提示词和合适的大模型，我们将目睹一个从创新想法到可玩游戏的完整生成之旅，而这一切只需几秒钟，这都归功于 Amazon Bedrock 能够简化原型设计，并实现快速概念验证。

让我们开始这段愉快的自然语言直接编写贪吃蛇游戏之旅吧！

使用的大型语言模型

我用于生成游戏代码的大型语言模型，采用了在 Amazon Bedrock 上的 Meta Llama 3.1 70B Instruct。

Amazon Bedrock 是一个强大的生成式 AI 平台，允许开发者为各种用例（包括代码生成等）创建和微调大型模型。而 Meta Llama 3.1 70B Instruct 模型专门用于遵循指令和生成高质量代码。你可以在 Hugging Face 上参考模型卡片以了解更多详情：https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct...

提示工程方法

成功使用生成式 AI 的关键之一在于提示工程（Prompt Engineering）：即创建清晰、具体的提示词，以指导模型精确生成所需的输出。

以下是我用来生成贪吃蛇游戏代码的提示词：

If there are errors, list those errors in tags, then generate a new version with those errors ﬁxed. If there are no errors, write "CHECKED：NO ERRORS" in tags.

Here is the task：write a greedy snake game.

Double check your work to ensure no errors or inconsistencies.”

正如你所看到的，这个提示词为游戏的功能、要使用的库以及其他实现细节提供了详细的要求。提供这种程度的明确性对于从生成式 AI 模型获得高质量的代码输出至关重要。

在 Amazon Bedrock Chat Playground 中，单击“Run”以将上述提示词提交给 Meta Llama 3.1 70B Instruct 模型，然后等待几秒钟模型的响应。如下截图所示：

输出：贪吃蛇游戏代码

输入提示词后，Amazon Bedrock 上的 Llama 3.1 70B Instruct 模型，在几秒内迅速生成了以下的 Python 代码，该代码基本实现了一个功能齐全的贪吃蛇游戏。生成的完整代码如下：

import pygame
import sys
import random

# Initialize Pygame
pygame.init()

# Set up some constants
WIDTH, HEIGHT = 800, 600
BLOCK_SIZE = 20
SPEED = 10

# Set up some colors
WHITE = (255, 255, 255)
RED = (255, 0, 0)
GREEN = (0, 255, 0)

# Set up the display
screen = pygame.display.set_mode((WIDTH, HEIGHT))

# Set up the font
font = pygame.font.Font(None, 36)

# Set up the snake and food
snake = [(200, 200), (220, 200), (240, 200)]
food = (400, 300)

# Set up the direction
direction = 'RIGHT'

# Game loop
while True：
    for event in pygame.event.get()：
        if event.type == pygame.QUIT：
            pygame.quit()
            sys.exit()
        elif event.type == pygame.KEYDOWN：
            if event.key == pygame.K_UP and direction != 'DOWN'：
                direction = 'UP'
            elif event.key == pygame.K_DOWN and direction != 'UP'：
                direction = 'DOWN'
            elif event.key == pygame.K_LEFT and direction != 'RIGHT'：
                direction = 'LEFT'
            elif event.key == pygame.K_RIGHT and direction != 'LEFT'：
                direction = 'RIGHT'

    # Move the snake
    head = snake[-1]
    if direction == 'UP'：
        new_head = (head[0], head[1] - BLOCK_SIZE)
    elif direction == 'DOWN'：
        new_head = (head[0], head[1] + BLOCK_SIZE)
    elif direction == 'LEFT'：
        new_head = (head[0] - BLOCK_SIZE, head[1])
    elif direction == 'RIGHT'：
        new_head = (head[0] + BLOCK_SIZE, head[1])
    snake.append(new_head)

    # Check if the snake has eaten the food
    if snake[-1] == food：
        food = (random.randint(0, WIDTH - BLOCK_SIZE) // BLOCK_SIZE * BLOCK_SIZE,
                random.randint(0, HEIGHT - BLOCK_SIZE) // BLOCK_SIZE * BLOCK_SIZE)
    else：
        snake.pop(0)

    # Check if the snake has hit the edge or itself
    if (snake[-1][0] < 0 or snake[-1][0] >= WIDTH or
            snake[-1][1] < 0 or snake[-1][1] >= HEIGHT or
            snake[-1] in snake[：-1])：
        pygame.quit()
        sys.exit()

    # Draw everything
    screen.fill(WHITE)
    for pos in snake：
        pygame.draw.rect(screen, GREEN, pygame.Rect(pos[0], pos[1], BLOCK_SIZE, BLOCK_SIZE))
    pygame.draw.rect(screen, RED, pygame.Rect(food[0], food[1], BLOCK_SIZE, BLOCK_SIZE))
    text = font.render(f'Score：{len(snake)}', True, (0, 0, 0))
    screen.blit(text, (10, 10))

    # Update the display
    pygame.display.flip()

    # Cap the frame rate
    pygame.time.delay(1000 // SPEED)

该代码的主要功能实现包括：初始化 Pygame，设置游戏的尺寸、块大小和速度等常量、定义显示元素的颜色、初始化显示屏幕等等。代码还设置了用于显示得分（贪吃蛇每吃到一个食物将获得一分）的字体，初始化了蛇和食物的位置，以及设置了蛇移动的初始方向等游戏要素。

游戏会循环持续检查用户输入事件，如用户退出了游戏，或者使用了方向键改变蛇的运动方向等。游戏主要逻辑将根据用户输入以及蛇的当前方向，来更新蛇的位置，并同时检查与食物或边界的是否碰撞，从而决定是否更新相应分数等。此外，游戏的循环代码还处理了在屏幕上渲染游戏元素，并限制帧率。

以下图像显示了我实际调试代码的场景。以代码片段作为背景，前景是正在运行的游戏截图：

值得一提的是，这个全面且可执行的代码是根据一段文本提示词生成的，没有提供任何补充示例或训练数据。这展示了 Amazon Bedrock 上的该大语言模型（Llama 3.1 70B Instruct）具有将自然语言描述直接转化为完整代码的出色能力，从而节省了游戏开发者相比于从头开始编写游戏代码所需的大量时间。

当然生成的代码并非完美无缺，可能需要增强或扩展一些额外功能。但它确实为开发者提供了一个坚实的基础。

评估提示词的质量

虽然我们已经成功生成了贪吃蛇游戏的一份完整代码，但我还是想客观地评估使用的提示词质量，因为我考虑未来是否可以更好地使用 AI 来生成代码。

我所参考的标准来自《Generative AI on AWS》一书中总结的 16 项提示工程最佳实践。我已将这 16 项最佳实践纳入我的评估提示词中，以评估之前用于生成贪吃蛇游戏的提示词质量。

完整的评估提示词如下：

Here are the key prompt-engineering best practices discussed in Chapter 2 of the book “Generative AI on AWS”：

Be clear and concise in your prompts. Avoid ambiguity.
Move the instruction to the end of the prompt for large amounts of input text.
Clearly convey the subject using who, what, where, when, why, how etc.
Use explicit directives if you want output in a particular format.
Avoid negative formulations if a more straightforward phrasing exists.
Include context and few-shot example prompts to guide the model.
Specify the desired size of the response.
Provide a specific response format using an example.
Define what the model should do if it cannot answer confidently (e.g. respond "I don't know").
Ask the model to "think step-by-step" for complex prompts requiring reasoning.
Add constraints like maximum length or excluded information for more control.
Evaluate the model's responses and refine prompts as needed.
Use disclaimers or avoid prompts the model should not answer for sensitive domains.
Use XML/HTML tags to create structure within the prompt.
Focus the model on specific parts of the input text.
Mask personally identifiable information from the model's output.

Based on the above 16 prompt-engineering best practices, please evaluate the following prompts I used to generate a Greedy Snake Game：

If there are errors, list those errors in tags, then generate a new version with those errors ﬁxed. If there are no errors, write "CHECKED：NO ERRORS" in tags.

Here is the task：write a greedy snake game.

Double check your work to ensure no errors or inconsistencies.”

我在 Amazon Bedrock Chat Playground 中提交了上述提示词，如下图所示：

几秒钟后，收到了以下模型的完整评估输出：

模型输出提供了对我的提示词优点，以及潜在改进空间等非常有价值的见解。

首先，它在“优点”部分承认了我的提示语的优势：

明确简洁：你的提示语结构清晰，易于理解。
具体指示：你明确要求输出 Python 脚本格式和对高级别 Python 专家的期望水平。
上下文和少量示例提示语：你提供了一个明确的任务描述（贪吃蛇游戏）并指出了预期输出（高质量 Python 脚本）。
要求响应的大小：你要求一个“简短”的脚本。
具体响应格式：你使用python块来指示预期格式。
错误处理：你指示模型检查其工作并列出错误，或者如果没有错误则写“CHECKED：NO ERRORS”。

此外模型还建议如“缺陷”部分所示，提出一些改进提示语的建议：

含糊不清：虽然你的提示语总体很清楚，但“一个非常熟练的 Python 专家会写的东西”这句话可能有些主观和含糊不清。
否定表述：你用了“千万不要在python块之前写任何内容”，可以改为正面说法，例如“只能在python块中写代码”。
缺乏约束条件：你没有具体说明脚本的长度、复杂度或特定要求（如游戏功能、难度等级）的限制。
缺乏免责声明：你没有提及任何敏感领域或游戏内容可能存在的问题。

模型还提供了以下详细的代码修改具体建议：

考虑将“一个非常熟练的 Python 专家会写的东西”改为更客观的要求，如“遵循 Python 编码的最佳实践”。
用更积极的指示替换“千万不要在python块之前写任何内容”，比如“只能在python块中写代码”。
添加约束条件，例如“脚本不应超过 200 行代码”或“游戏应至少有 3 个等级”。
考虑添加一个免责声明，如“请确保游戏内容适合所有年龄段，不含任何令人反感的材料”。

总结

生成式 AI 彻底改变软件开发的潜力是巨大的。通过利用 Amazon Bedrock 和大型语言模型，开发者目前已经可以继续简化工作流程，快速构建原型并验证伟大的想法，这将加快软件开发迭代速度，以前所未有的效率将想法变为现实。

贪吃蛇游戏的例子展示了生成式 AI 将一个简单的提示词，转化为可运行游戏代码的惊人能力。然而，我们必须认识到：虽然生成的代码可以提供一个良好的基础，但可能需要进一步的完善和优化。

随着生成式 AI 的不断发展，我们可以期待更先进的模型、更好的提示词技术，以及与开发工具的更紧密集成。提前拥抱这一技术将获得重大的竞争优势。

最后，生成式 AI 并不是要取代人类开发者，而是增强他们能力的强大工具。通过将人类创造力与人工智能相结合，我们可以开启创新的软件开发新前景，创造更加非凡的软件产品和解决方案。

注：本文封面图像使用了 Amazon Bedrock 上的 Stable Diffusion XL 1.0 模型生成。提示词如下：

“A stylized digital illustration with a futuristic and technology-inspired design, depicting a large coiled snake made of sleek metallic materials and circuit board patterns. The snake's body forms the shape of the Amazon Bedrock logo in the center. Surrounding the snake are various coding elements, such as code snippets, programming symbols, and binary patterns, arranged in an abstract and visually striking way. The overall image should convey a sense of innovation, artificial intelligence, and the fusion of technology and creativity”

文章来源：https://dev.amazoncloud.cn/column/article/66ceac7c1db7ac34cb4...

探索 Amazon Q Developer 那些有趣的功能

2024-08-06T15:39:38+08:00

我在 McKinsey 2024 年 5 月 30 日提供的一项名为“The state of AI in early 2024-Gen AI adoption spikes and starts to generate value”的调研中读到这么一句话：人工智能在组织中最常见的两个使用职能是：“市场营销和销售”以及“产品和服务开发”，这两个职能是之前的研究确定采用人工智能可以产生最大价值的职能。调研的相关分析数据参考如下：

调查报告的结论在我最近参加的开源社区 Meetup 中得到印证。这个 Meetup 设置的 4 个演讲主题中，有三个是与 AI 代码开发工具有关。来自于三家互联网大厂的产品经理分别分享了他们的大语言模型辅助开发工具，每一个工具都致力于提高开发效率和代码质量。除了 AI 开发工具都有常规功能，如代码补全、单元测试、安全扫描等以外，在场的开发者还关注一些生产中的实际功能。这篇博客我想以 Amazon Q Developer 为例展开聊聊那些被开发者关注且用于生产的实用功能。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

代码注释和文档生成

对于大多数开发者而言，编写项目文件比如 readme 和代码注释是一项繁琐且耗时的任务。然而，这些文档对于项目的可读性和维护性至关重要。Amazon Q Developer 能够帮助开发者自动生成详细且清晰的 README 文件和代码注释。这个功能很实用，不仅节省了开发者的时间，还确保了文档的一致性和准确性。

对于大语言模型来说实现这个功能并不难，区别在于生成内容的可读性和准确性。这就需要大语言模型对整个项目的分析全面，对代码的理解准确，以及对于文档阅读者逻辑的合理把握。为了提供给开发者更好的开发体验，Amazon Q Developer 使用不同的大语言模型来分别完成项目理解和文档生成，以及处理代码理解。这样做的理由，我认为是出于不同的 LLM 对特定的使用场景各有擅长。就像开发者可以在 Amazon Bedrock 上选择不同的大语言模型来应对他们不同的生产场景一样。

我在一些使用场景中体验过 Amazon Q Developer 代码注释生成以及文档生成的功能，基本可以做到 90% 的生成可用率。相关的 demo 视频展示，很快就可以在亚马逊云科技的视频频道里看到。

使用自然语言完成新功能的开发

Amazon Q 的另一个强大功能是通过自然语言开发新功能。开发者只需用自然语言描述他们的需求，Amazon Q 就能生成相应的代码。这种方式不仅降低了开发的门槛，使得非专业人士也能参与到开发过程中，还大大提高了开发效率。

举个例子：增加猜字游戏的复杂度。

基于 Amazon Q 对整个游戏源代码理解的基础上，我在集成在 IDE 中的 Amazon Q chart 中输入“As a user, I'd like to be able to select the difficulty of the word I'm guessing before starting a game. The difficulty changes the length of the word being guessed. The 3 levels of the game should be: Beginner with a 5 character word length, Intermediate with a 6 character word length and Advanced with a 7 character word length”（需要注意的是目前 Amazon Q Developer 还不支持中文）。

Amazon Q 根据 prompt 生成了新功能实现计划，如下：

不仅仅如此，如果对生成的计划满意，还可以让 Amazon Q 继续生成代码。这一切只需一个按钮。

Amazon Q 生成的代码是这样的：

点击文件名，打开其中一个被修改的文件。我们可以看到之前的代码与建议的代码之间的差异，同时支持在此进行其他修改。

生成的代码可能不是 100% 准确或完整。如果对生成的代码不满意，可以通过 chat prompt 继续修改并重新生成代码，直到满意为止。

即将到来的更多新体验

在刚刚结束的 Global Hero Summit 期间，Amazon Q 展示了一些令人兴奋的新功能：

定制化 AI 模型-允许开发者从私有库和库中创建定制化的 AI 模型。这意味着开发者可以根据自己的需求和项目特点，训练出更为贴合的 AI 模型，从而提高开发效率和代码质量。
代码库问答-通过聊天界面，开发者可以向 Amazon Q 提问关于代码库的问题。无论是代码结构、函数用途还是调试信息，Amazon Q 都能快速提供准确的答案，帮助开发者更好地理解和管理代码。
.Net 代码转换-Amazon Q 具备强大的代码转换功能，尤其是在 .Net 平台上。它可以自动将代码从一种语言转换为另一种语言，帮助开发者轻松实现跨平台开发。
集成 SageMaker Studio 和 Eclipse IDE-Amazon Q 与 SageMaker Studio、Eclipse IDE 等开发环境无缝集成，使得开发者可以在熟悉的环境中使用 AI 工具，提高工作效率。
使用自然语言更新 Amazon Web Services 账户资源-Amazon Q 允许开发者使用自然语言更新 Amazon Web Services 账户中的资源。这种方式不仅简化了资源管理流程，还降低了出错的风险。
高级故障排除-Amazon Q 提供了高级故障排除功能，可以自动检测和修复系统中的复杂问题，确保系统的稳定性和可靠性。
…

目前这些功能大多都还在 preview 阶段，但很快就可以用于生产。

Amazon Q 的独特之处

其实每个 AI 开发工具都有它的特点和适合的应用场景，就像 Amazon Bedrock 提供的十几种大语言模型一样。与其他 AI 开发工具相比，Amazon Q 与 Amazon Web Services 提供的其它服务深度集成，对云资源也有更深度的理解。就像 iOS 的 Siri，Amazon Q 不仅仅是一个辅助工具，更像是一个智能助手，随时随地为开发者提供帮助。无论是代码编写、调试，还是项目管理，Amazon Q 都能提供全面的支持。

云上开发的未来

随着云计算技术的不断发展，云上开发正成为一种趋势。Amazon Q 的出现，进一步推动了这一趋势。通过将开发环境和 AI 工具整合到云端，开发者可以随时随地进行开发工作，提升工作灵活性和效率。此外，云上开发还提供了更强的计算能力，数据安全性以及弹性，确保开发过程的顺利进行。

我个人认为，云上开发的未来已来。你怎么看？

文章来源：https://dev.amazoncloud.cn/column/article/66b1d2a92993de59889bfa35?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=SF

借助大语言模型快速升级你的 Java 应用程序

2024-07-29T17:15:19+08:00

大家都知道我爱小 Q。在我“转码”的征程中，它就像上帝之手，在我本该枯燥漫长的学习进程中拉满快进条。

不仅是我，最近 Amazon Q Developer 还帮助 Amazon 一个由 5 人组成的团队在短短两天内将 1,000 多个生产应用程序从 Java 8 升级到 Java 17（每个应用程序的平均时间不到 10 分钟）。它就像一个超级英雄，帮助这个团队节省了数月的时间, 以及大量的维护、升级和迁移工作。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

Amazon Q Developer 在升级的过程中不仅智能地升级语言版本，还能识别并替换那些被淘汰的代码，更棒的是，它还能确保新的应用程序是安全的。听起来是不是感觉有点酷？让我们一起来看看它是如何实现的吧！

什么是 Amazon Q Developer？

Amazon Q Develper 是 Amazon Q 的开发者版本，从编码、测试和升级应用程序，到诊断错误、执行安全扫描和修复，以及优化 Amazon 云上资源，可协助开发人员和 IT 专业人员完成所有任务。这篇文章所讨论的执行 Java 版本升级是它的一个非常实用的功能：Amazon Q Code Transformation。

为什么选择 Amazon Q Code Transformation？

节省时间：手动升级可能需要几天甚至几周的时间，而使用 Amazon Q Code Transformation 只需几分钟。
自动化：自动生成转换计划，完成代码转换任务。
高效：识别和更新软件包依赖关系，重构已过时的代码组件，切换到新的语言框架，并纳入安全最佳实践。
安全性：通过升级到最新版本，消除使用不受支持版本所带来的漏洞，提高应用程序的安全性和性能。

Amazon Q Code Transformation 的技术实现

Amazon Q Developer 完成代码创建，并制定升级计划

Amazon Q Code Transformation plugin 把源代码上传给 Amazon Q, 并在接下来的 24 小时内暂时存放在 Amazon S3 bucket。Amazon Q 会在本地创建包含源代码、项目依赖项和升级日志的升级项目。

生成项目后，Amazon Q 在安全的构建环境中生成升级代码，并创建针对要升级的项目或模块定制的升级计划。升级计划具体了 Amazon Q 将尝试进行的更改，包括新的依赖项版本、主要代码更改以及对已弃用代码的建议替代方案。这些更改基于源代码，并且会在转换过程中发生变化。

Amazon Q Developer 完成代码转换

为了成功地完成升级任务，Amazon Q 会按照指定好的升级计划来做代码转换。当进行代码更改时，根据情况生成并运行新的单元测试，或者直接运行源代码中已有的单元测试进行验证，并以迭代的方式修复升级过程中遇到的任何错误。

Amazon Q 在升级代码时会尝试进行以下更改：

将常用库和框架升级到与新的 Java 版本兼容的版本。这包括将 Spring、Spring Boot、Junit、Jakartaee、Mockito、Hibernate 和 Log4j 更新到最新可用的主要版本。
根据建议更新已弃用的代码组件。

开发者查看升级摘要并接受更改

升级完成后，Amazon Q 会提供升级摘要，其中包含所做更改的详细信息，包括：

最终版本的状态，该状态表明整个项目是否已升级。开发者还可以查看日志摘要，了解 Amazon Q 在升级过程中遇到和修复的任何问题。

升级摘要还包括升级计划中提出的更改与 Amazon Q 最终所做更改之间的差异，以及原始计划中未包含的任何其他更改。

升级完成后，开发者浏览更改摘要，选择接受并提交新代码到代码库。在开发者确认更改之前，Amazon Q 所做的任何代码更改建议都不会影响当前的项目文件。升级后的代码在升级完成后 24 小时内都可用。

升级过程可参看下图。

作者体验：在一次社区活动中，一位运维工程师找到我，和我确认 JDK 版本升级中，升级计划的创建，升级过程中的测试和错误修复真的都不需要人工干预吗？因为这曾经消耗了他们很多的时间和精力。当他通过一个实验验证了答案后，他无比开心。他说，他真正感受到了人工智能正在帮助他减轻工作压力，简化工作流程。

如何开始？

步骤 1：先决条件

在开始之前，请确保以下条件都已满足：

项目基于 Maven 构建的要升级的 Java 项目，（核查 Java 版本支持的更新）。
在 IDE 中使用 Maven 成功构建项目。
项目源 JDK 在本地可用，并且是源代码的版本。
项目配置正确，指定了正确的 JDK 版本。
项目不使用非 Java 的插件。

步骤 2：在 IDE 中安装 Amazon Q Developer 并配置你的项目

在 IDE 中安装 Amazon Q Developer
在集成开发环境（IDE）中通过 Amazon Web Services tools 安装 Amazon Q Developer，并通过 Amazon IAM 或 Builder ID 进行身份验证。使用 Builder ID 认证登录，无需拥有 Amazon Web Services 账户，即可免费使用 Amazon Q Developer。
在 IDE 中配置项目

1)确保项目根文件夹中包含 pom.xml 文件。

2)如果项目包含 Maven 包装器可执行文件（如 mvnw 或 mvnw.cmd），确保它位于项目的根目录。

步骤 3：代码转换，升级 Java 应用程序版本

有了完全的准备，这个过程就太简单了，如同大象装进冰箱只需要三步一样。

具体的步骤：

确保你的 Java 应用程序成功构建
选择本地要升级的 JDK，然后在 IDE 中复制并粘贴输出中的路径。

Amazon Q Developer 开始转换，整个过程可能需要几十分钟，无需干预。

Amazon Q code transformation 将执行以下任务顺序：

-在本地构建项目

-上传项目

-在安全的环境中构建项目

-分析代码并制定转换计划

-将代码更新到新的 JDK 版本、依赖项和相关代码

-使用新的 JDK 版本构建项目

-升级已弃用的代码

-完成代码更改和转换摘要，一个包含详细转换信息的 summary.md 文件

-将其提供给你下载

下载项目后，查看摘要和所有的变更后确认并将这些更改提交到你的代码存储库。

可查看的变更包括但不限于：

•查看差异：选择“View diff”来查看建议的更改。在“Apply Patch”对话框中，你可以并排查看项目中的当前代码和建议的更改。例如，你可能会看到某些依赖项的版本已更新，以便与目标 Java 版本兼容。

• 查看详细更改：例如，在 pom.xml 文件中，你可能会看到某个依赖项（如 Project Lombok）的版本已增加。在 Java 文件中，升级后的依赖项使用的注释也可能已更新。

• 代码重构：在新版本中，某些注释或方法可能已经过时或被弃用。

恭喜你！你已经学会如何使用 Amazon Q Code Transformation 完成了你的 Java 升级。升级后的项目不仅更新了依赖项和代码，还纳入了最新的安全最佳实践和性能优化。

立即尝试升级你的 Java 应用程序吧！

Amazon Bedrock 模型微调实践（一）：微调基础篇

2024-07-29T16:32:41+08:00

本博客内容翻译自作者于 2024 年 7 月在亚马逊云科技开发者社区发表的同名博客：

“Mastering Amazon Bedrock Custom Models Fine-tuning (Part 1): Getting started with Fine-tuning”：

https://community.aws/content/2jNtByVshH7vnT20HEdPuMArTJL?trk...

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

引言和综述

在当今方兴未艾的大型语言模型（LLM）领域，如 Meta 的 Lllama、Cohere 的 Command、Amazon 的 Titan 和 Anthropic 的 Claude 等，这些大模型彻底改变了我们处理语言任务的方式。它们在大量文本数据上进行了预训练，并可以通过称为微调（fine-tuning）的过程适应各种下游任务。

微调（Fine-tuning）是一种技术，涉及使用与该任务相关的较小数据集进一步训练特定任务或领域的预训练语言模型。通过这样做，模型可以学会更好地理解和生成针对特定上下文的文本，从而提高性能和准确性。

但是，在某些情况下，微调可能不是最合适的方法。在这种情况下，检索增强生成 RAG（retrieval-augmented generation）方法可能更合适。RAG 将基础模型的强大功能与外部知识源相结合，允许它们在生成过程中访问和整合来自数据库或文档集合的相关信息。

在这篇技术博客中，我们将探讨微调和 RAG 的基础知识，并分享为不同业务用例选择正确方法（微调或 RAG）的实践经验。我们将介绍：

模型微调概述
检索增强生成（RAG）概述
在模型微调和 RAG 之间进行选择的标准
开始使用模型微调

微调（Fine-tuning）概述

当您需要将基础模型适应专门的任务或领域时，微调是一种强大的技术。例如，如果正在为某个特定行业构建客户服务聊天机器人，那么根据该行业的相关客户服务数据对预先训练的模型进行微调，可以显著增强其对特定领域术语、行话和上下文的理解。

与检索增强生成（RAG）方法相比，模型微调的一个关键优势是：因为不涉及额外的检索步骤，它有可能在推理过程中提高性能并降低延迟。这使得微调模型非常适合低延迟和高吞吐量至关重要的场景，例如实时对话式 AI 应用程序。

然而，模型微调也有其自身的挑战。与检索增强生成（RAG）相比，它通常需要更大的计算资源投入。因为它需要标记、精选数据进行训练，以及微调过程本身的额外计算资源。此外，微调模型可能会难以应对快速变化的数据，因为模型需要定期重新训练才能有效地整合新信息。

模型微调方法可以用以下功能概要图示来说明：

Illustration diagram of fine-tuning generated by Claude 3 Sonnet in Amazon Bedrock

可以在“Generative AI on AWS”一书中找到模型微调的实际示例。该书作者提供了示例代码，指导用户使用 Amazon SageMaker JumpStart 在 Dolly 数据集的子集上微调 Llama 2 模型。

该示例涵盖了模型微调的各个方面：包括数据准备、定义微调超参数、创建 Amazon SageMaker 估算器、启动微调作业、评估微调模型的性能以及将其部署到 Amazon SageMaker 终端节点。示例的 notebook 文件完整展示了利用 Amazon SageMaker 的功能对大型语言模型进行高效且可扩展的微调，提供了从头到尾的全面工作流程代码实现，我们还将在后面的章节中详细展开分析这些代码。

检索增强生成（RAG）概述

检索增强生成（RAG）是一种将大语言模型（LLM）的强大功能与信息检索技术相结合的方法。在 RAG 设置中，模型可以根据提供的提示生成文本，从知识库或语料库中获取相关信息以增强模型的输出。

在处理频繁变化的数据或领域知识太广泛而无法仅通过微调模型有效捕获时，RAG 特别有用。新闻机构、媒体和处理快速变化信息的组织通常会受益于 RAG 方法，因为他们可以轻松更新知识库，而无需重新训练整个模型。

RAG 的关键优势之一在于其灵活性和易于实施性。由于不需要大量训练，因此与微调相比，RAG 系统可以相对快速地建立，并且初始成本较低。但是，由于额外的检索步骤，RAG 往往比微调模型慢，并且由于涉及多个组件（如矢量数据库、嵌入模型和文档加载器）的协同工作，使得其实现的架构可能会变得比较复杂。

检索增强生成（RAG）方法可以用以下功能概要图示来说明：

Illustration diagram of RAG generated by Claude 3 Sonnet in Amazon Bedrock

关于基于 RAG 搭建的完整实现代码示例，可以参考 Amazon Bedrock workshop 提供的一个精彩案例。该案例以亚马逊云科技过去几年来的致股东信作为外部文本语料库，这个外部知识库允许 RAG 系统通过从语料库中检索相关信息来获得更好的问答结果。通过利用这些检索到的知识增强语言模型的输出，基础模型可以生成更多针对特定上下文且准确的响应，而无需持续重新训练。

该 Workshop 中的 RAG 实现示例的一个显著优势是：可以检索到信息的来源归因，这在很大程度上提高了信息的透明度，并降低了模型幻觉的风险，从而确保最终生成的响应是基于事实基准的数据。

该 Workshop 的代码完整实现还详细说明了客户定制 RAG 的完整工作流程，其中语言模型和检索组件以协同工作的方式来生成增强响应。下图为工作流程的功能结构图示：

在这个定制的 RAG 工作流程（Customized RAG Workflow）中，模型根据输入提示生成初始响应，而检索组件同时从亚马逊云科技致股东信的语料库中获取相关信息。然后将检索到的知识与模型的输出结果集成，最终产生一个增强响应，这个增强响应结合了模型输出结果和外部知识源的共同信息。

该完整实现代码可通过 GitHub 链接访问获得。

模型微调还是 RAG？

那么，什么时候应该选择微调而不是 RAG？反之亦然。这取决于你所面对的业务场景具体要求和用例。以下是一些一般准则供参考：

微调

何时使用微调：

领域专门任务：微调非常适合精度和性能至关重要的领域专门任务。例如，如果你正在开发医学诊断模型，则对精选的医疗记录数据集进行微调将产生更高更准确的模型输出结果。
高性能和低延迟：如果你的应用程序需要低延迟和高吞吐量，则模型微调是更好的选择。微调模型不需要额外的检索步骤，从而使其推理速度更快。
精选数据集：如果你可以访问与特定任务相关的定义明确、标记和精选的数据集，则微调可以利用这些数据来优化性能。
预测质量：对于预测质量和准确性至关重要的任务，模型微调允许你根据特定要求定制模型。

微调的优势：

高性能：针对特定任务进行了优化，从而提高了模型输出的准确性和性能。
低延迟：推理时间更快，因为不需要额外的检索步骤。
任务特异性：经过量身定制，可在所训练的特定任务上表现出色。

微调的权衡（Trade-Offs）：

成本：微调需要大量的模型训练所需的计算资源投入，包括抓取、转换和清理数据等数据预处理的成本。
缺乏泛化能力：微调模型高度专业化，这意味着不同的任务需要不同的模型。
不适合频繁变化的数据：由于模型是在静态数据集上训练的，因此它不能很好地适应动态数据环境。

检索增强生成（RAG）

何时使用 RAG：

频繁变化的数据：当数据频繁变化时，例如在新闻机构或媒体机构中，由于信息变化量巨大，因此 RAG 是首选，模型无需重新训练即可检索最新信息。

广泛的领域知识：如果你的应用程序涵盖广泛的主题或领域，RAG 可以通过动态检索相关信息来有效地处理多样性。
标记数据有限：当缺少大量优质的标记数据时，RAG 就非常有帮助。它可以使用预先训练的模型从外部数据源来检索上下文，从而减少对大量训练数据的需求。
成本和时间效率：RAG 可以快速实施，初始成本较低，因为它避免了极为耗时耗资源的模型再训练过程。

RAG 的优点：

灵活性：通过动态检索相关信息来处理各种各样的任务。

较低的初始成本：避免与训练相关的成本，使其更易于访问和部署更快。
保留泛化：基础模型保持不变，保持其在不同任务中进行泛化的能力。

RAG 的权衡：

推理速度较慢：由于 RAG 架构中增加了外部信息源检索这一步骤，因此会相应增加延迟，使 RAG 与微调模型相比响应速度会更慢。
复杂性：由于 RAG 涉及多个组件，例如矢量数据库、嵌入模型和文档加载器，这可能会使系统复杂化。
更高的令牌（Token）使用率：由于 RAG 需要解析查询和上下文，从而导致每个提示的令牌使用量增加。

选择准则小结

性能敏感性：如果你的应用程序需要高性能、低延迟和针对狭窄领域的高质量预测，则建议使用模型微调方法。

动态数据环境：对于处理频繁更新信息或广泛领域知识的应用程序，RAG 通常是更实用且更具成本效益的解决方案。

通过仔细评估你的用例和要求，你可以选择最合适的方法，平衡成本、性能和复杂性之间的权衡。无论你选择微调还是 RAG，每种方法都具有独特的优势，可以利用这些优势来满足你的特定业务需求。

开始使用模型微调

如果你已经确定模型微调是适合你用例的最佳方法，那么下一步就是准备数据并配置模型微调过程。以下是一些关键注意事项：

1. 数据准备：模型微调需要与你的任务相关的高质量标记数据集。这可能涉及从各种来源收集数据、清理和转换数据，并使用适当的标签对其进行注释。数据质量至关重要，因为质量差的数据会导致模型性能不佳。

在《Generative AI on AWS》一书中的 Llama 2 模型微调代码实现中，使用了 Dolly 数据集（用于开放域对话的大型数据集）的一个子集。代码片段演示了预处理和过滤数据以创建适合微调的较小子集。然而，在现实世界中，你需要仔细整理和预处理自己的数据集，以确保微调任务的高质量和相关数据。相关代码片段如下所示：

from datasets import load_dataset

dolly_dataset = load_dataset("databricks/databricks-dolly-15k", split="train")

# To train for question answering/information extraction, you can replace the assertion in next line to example["category"] == "closed_qa"/"information_extraction".
summarization_dataset = dolly_dataset.filter(lambda example: example["category"] == "summarization")
summarization_dataset = summarization_dataset.remove_columns("category")

# We split the dataset into two where test data is used to evaluate at the end.
train_and_test_dataset = summarization_dataset.train_test_split(test_size=0.1)
train_and_test_dataset["test"][0]

2. 模型选择：选择合适的预训练模型作为起点。在此示例中，其选择的微调模型是由 Meta AI 开发的语言模型 Llama 2。Llama 模型目前可通过 Amazon SageMaker JumpStart 获得，这简化了使用亚马逊云科技资源访问和微调模型的过程。

3. 微调超参数：选择模型后，在使用 Amazon SageMaker 对其进行微调之前，我们需要定义用于微调的实例。然后，我们可以尝试不同的超参数，例如学习率、批处理大小、epoch、最大输入长度，以优化特定任务和数据集的微调过程。

此 Llama 2 微调示例中提供的代码片段演示了如何设置各种微调超参数，包括启用指令调整模式、设置最大输入长度为 1024 以及运行 5 个 epoch 等等。必须注意的是，这些超参数值可能并非对所有任务或数据集都是最佳的。尝试不同的配置以找到适合你特定用例的最佳设置至关重要。相关代码片段如下所示：

from sagemaker.jumpstart.estimator import JumpStartEstimator

estimator = JumpStartEstimator(
    model_id=model_id,
    model_version=model_version,
    instance_type="ml.g5.12xlarge",
    instance_count=2,
    environment={"accept_eula": "true"}
)

# By default, instruction tuning is set to false. Thus, to use instruction tuning dataset you use
estimator.set_hyperparameters(instruction_tuned="True", 
                              epoch="5", 
                              max_input_length="1024")
estimator.fit({"training": train_data_location})

4. 评估和迭代：使用适当的指标和测试数据集定期评估微调模型的性能。微调是一个迭代过程，你可能需要调整数据、超参数甚至预训练模型以获得最佳结果。持续监控和改进对于提高模型性能并确保其满足你的业务要求至关重要。

在微调 Llama 2 示例中，它包含用于评估微调模型在验证集上的性能的代码。根据评估结果，你可以确定微调模型是否满足你的要求，或者是否需要通过调整数据、超参数或尝试不同的预训练模型进行进一步迭代。

此外，建议在单独的测试数据集上评估微调模型的性能，以获得其实际性能的无偏估计。测试数据应代表目标域，并且在微调过程中看不见。你可以使用相关指标在此测试数据集上比较微调模型与预训练模型的性能。结果可以以表格或图形格式呈现，如提供的屏幕截图所示：

如果你有兴趣亲自探索微调 Llama 2 模型的细节，可以通过访问 GitHub 链接来访问微调示例的完整代码。

全篇小结

在这篇文章中，我们深入研究了模型微调（Fine-tuning）和检索增强生成（RAG）技术，提供了概述和建议，以便根据特定用例选择适当的方法。我们还提供了有关如何开始微调的见解，并提供了一个使用 Amazon SageMaker 微调 Llama 2 模型的示例，演示了数据预处理、超参数调整、评估等。这将有助于开发人员理解模型微调过程。

在即将发布的下一篇文章中，我们将探索如何使用 Amazon Bedrock 来微调基础模型，这简化了在亚马逊云科技上部署生成式 AI 的整个过程。Amazon Bedrock 通过预置的吞吐量提供数据隐私、网络安全、模型定制的灵活计费、存储和推理。它能够以保证的吞吐量水平运行自定义模型推理，并促进自定义模型部署。敬请期待。

说明：本文封面图片是使用 Amazon Bedrock 上的 SDXL 1.0 模型生成的。提示词如下：

“two developers sitting in the cafe discussing model fine-tuning, comic, graphic illustration, comic art, graphic novel art, vibrant, highly detailed, colored, 2d minimalistic”

文章来源：https://dev.amazoncloud.cn/column/article/66a754c71968353bac672aef?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=SF

使用 Amazon Bedrock Converse API 简化大语言模型交互

2024-07-01T18:58:23+08:00

本文将介绍如何使用 Amazon Bedrock 最新推出的 Converse API，来简化与各种大型语言模型的交互。该 API 提供了一致的接口，可以无缝调用各种大型模型，从而消除了需要自己编写复杂辅助功能函数的重复性工作。文中示例将展示它相比于以前针对每个模型进行独立集成的方式，具有更简单的实现。文中还将提供完整代码，展示使用 Converse API 来调用 Claude 3 Sonnet 模型进行多模态图像描述。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

为了帮助开发者快速理解新的 Converse API，我对比了在 Converse API 发布之前，开发者是如何用代码实现调用多个大模型，并集成到统一接口的示例。通过 Converse API 示例代码，我将展示 Converse API 是如何轻松完成简化统一多模型交互接口的工作。最后，我还会重点分享如何使用 Converse API 调用 Claude 3 Sonnet 模型，分析两张在美丽的中国香港拍摄的街景照片。

本文选自我于 2024 年 6 月，在 Amazon Web Services 开发者社区上发表的技术博客“Streaming Large Language Model Interactions with Amazon Bedrock Converse API”。

Converse API 之前的世界

过去，开发人员必须编写复杂的辅助函数，来统一应付不同大语言模型之前不同的的输入和输出格式。例如，在 2024 年 5 月初的亚马逊云科技香港峰会中，为了在一个文件中使用 Amazon Bedrock 调用 5-6 个不同的大语言模型，我需要编写总共 116 行代码来实现这个统一接口的功能。

我当时是使用 Python 语言来编写这个函数，其它语言实现也基本类似。在没有 Converse API 之前，开发者需要自己编写辅助函数，调用 Amazon Bedrock 中来自不同提供商（Anthropic、Mistral、AI21、Amazon、Cohere 和 Meta 等）的不同大型语言模型。

以下我的代码中的“invoke_model”函数接受提示词、模型名，以及各种参数配置（例如：温度、top-k、top-p 和停止序列等），最终得到来自指定语言模型生成的输出文本。

我之前需要编写的辅助函数代码中，需要考虑来自不同模型提供商的提示词格式要求，然后才能发送针对某些特定模型的指定输入数据和提示词结构。代码如下所示：

import json
import boto3

def invoke_model(client, prompt, model, 
    accept = 'application/json', content_type = 'application/json',
    max_tokens  = 512, temperature = 1.0, top_p = 1.0, top_k = 200, stop_sequences = [],
    count_penalty = 0, presence_penalty = 0, frequency_penalty = 0, return_likelihoods = 'NONE'):
    # default response
    output = ''
    # identify the model provider
    provider = model.split('.')[0] 
    # InvokeModel
    if (provider == 'anthropic'): 
        input = {
            'prompt': prompt,
            'max_tokens_to_sample': max_tokens, 
            'temperature': temperature,
            'top_k': top_k,
            'top_p': top_p,
            'stop_sequences': stop_sequences
        }
        body=json.dumps(input)
        response = client.invoke_model(body=body, modelId=model, accept=accept,contentType=content_type)
        response_body = json.loads(response.get('body').read())
        output = response_body['completion']
    elif (provider == 'mistral'): 
        input = {
            'prompt': prompt,
            'max_tokens': max_tokens,
            'temperature': temperature,
            'top_k': top_k,
            'top_p': top_p,
            'stop': stop_sequences
        }
        body=json.dumps(input)
        response = client.invoke_model(body=body, modelId=model, accept=accept,contentType=content_type)
        response_body = json.loads(response.get('body').read())
        results = response_body['outputs']
        for result in results:
            output = output + result['text']        
    elif (provider == 'ai21'): 
        input = {
            'prompt': prompt, 
            'maxTokens': max_tokens,
            'temperature': temperature,
            'topP': top_p,
            'stopSequences': stop_sequences,
            'countPenalty': {'scale': count_penalty},
            'presencePenalty': {'scale': presence_penalty},
            'frequencyPenalty': {'scale': frequency_penalty}
        }
        body=json.dumps(input)
        response = client.invoke_model(body=body, modelId=model, accept=accept,contentType=content_type)
        response_body = json.loads(response.get('body').read())
        completions = response_body['completions']
        for part in completions:
            output = output + part['data']['text']
    elif (provider == 'amazon'): 
        input = {
            'inputText': prompt,
            'textGenerationConfig': {
                  'maxTokenCount': max_tokens,
                  'stopSequences': stop_sequences,
                  'temperature': temperature,
                  'topP': top_p
            }
        }
        body=json.dumps(input)
        response = client.invoke_model(body=body, modelId=model, accept=accept,contentType=content_type)
        response_body = json.loads(response.get('body').read())
        results = response_body['results']
        for result in results:
            output = output + result['outputText']
    elif (provider == 'cohere'): 
        input = {
            'prompt': prompt, 
            'max_tokens': max_tokens,
            'temperature': temperature,
            'k': top_k,
            'p': top_p,
            'stop_sequences': stop_sequences,
            'return_likelihoods': return_likelihoods
        }
        body=json.dumps(input)
        response = client.invoke_model(body=body, modelId=model, accept=accept,contentType=content_type)
        response_body = json.loads(response.get('body').read())
        results = response_body['generations']
        for result in results:
            output = output + result['text']
    elif (provider == 'meta'): 
        input = {
            'prompt': prompt,
            'max_gen_len': max_tokens,
            'temperature': temperature,
            'top_p': top_p
        }
        body=json.dumps(input)
        response = client.invoke_model(body=body, modelId=model, accept=accept,contentType=content_type)
        response_body = json.loads(response.get('body').read())
        output = response_body['generation']
    # return
    return output

# main function
bedrock = boto3.client(
    service_name='bedrock-runtime'
)
model  = 'mistral.mistral-7b-instruct-v0:2'
prompt = """

Human: Explain how chicken swim to an 8 year old using 2 paragraphs.

Assistant:
"""
output = invoke_model(client=bedrock, prompt=prompt, model=model)
print(output)

以上代码行数仅展示了针对这几个模型的接口函数实现，随着需要统一调用的不同大型模型越来越多，代码量还会不断增长。完整代码如下所示：https://catalog.us-east-1.prod.workshops.aws/workshops/5501fb...?trk=cndc-detail

使用 Converse API 的世界

以下来自亚马逊云科技官方网站的代码片段，展示了使用 Amazon Bedrock Converse API 调用大型语言模型的简易性：

def generate_conversation(bedrock_client,
                     model_id,
                     system_text,
                     input_text):
    ……
    # Send the message.
    response = bedrock_client.converse(
        modelId=model_id,
        messages=messages,
        system=system_prompts,
        inferenceConfig=inference_config,
        additionalModelRequestFields=additional_model_fields
    )
    ……

完整代码可以参考以下链接：https://docs.aws.amazon.com/bedrock/latest/userguide/conversa...

为了提供给开发者们一个使用 Converse API 调用大模型的完整代码示例，特设计以下这个香港铜锣湾街景的大模型描述任务。

代码示例中，主要使用 converse() 方法将文本和图像发送到 Claude 3 Sonnet 模型的示例。代码读入一个图像文件，使用文本提示和图像字节创建消息有效负载，然后打印出模型对场景的描述。另外，在这段代码中如果要使用不同的图像进行测试，只需更新输入文件路径即可。

输入图片为两张照片，如下所示。这是我在撰写这篇技术文章时，从窗户拍摄出去的香港铜锣湾的美丽街景照：

Causeway Bay Street View, Hong Kong (Image 1)

Causeway Bay Street View, Hong Kong (Image 2)

在核心代码部分，我根据前面提到的亚马逊云科技官方网站提供的示例代码，稍做修改编写了一个新的 generate_conversation_with_image() 函数，并在 main() 主函数的合适位置调用这个函数。完整代码如下所示：

def generate_conversation_with_image(bedrock_client,
                          model_id,
                          input_text,
                          input_image):
    """
    Sends a message to a model.
    Args:
        bedrock_client: The Boto3 Bedrock runtime client.
        model_id (str): The model ID to use.
        input text : The input message.
        input_image : The input image.

    Returns:
        response (JSON): The conversation that the model generated.

    """

    logger.info("Generating message with model %s", model_id)

    # Message to send.

    with open(input_image, "rb") as f:
        image = f.read()

    message = {
        "role": "user",
        "content": [
            {
                "text": input_text
            },
            {
                    "image": {
                        "format": 'png',
                        "source": {
                            "bytes": image
                        }
                    }
            }
        ]
    }

    messages = [message]

    # Send the message.
    response = bedrock_client.converse(
        modelId=model_id,
        messages=messages
    )

    return response


def main():
    """
    Entrypoint for Anthropic Claude 3 Sonnet example.
    """

    logging.basicConfig(level=logging.INFO,
                        format="%(levelname)s: %(message)s")

    model_id = "anthropic.claude-3-sonnet-20240229-v1:0"
    input_text = "What's in this image?"
    input_image = "IMG_1_Haowen.jpg"

    try:

        bedrock_client = boto3.client(service_name="bedrock-runtime")

        response = generate_conversation_with_image(
            bedrock_client, model_id, input_text, input_image)

        output_message = response['output']['message']

        print(f"Role: {output_message['role']}")

        for content in output_message['content']:
            print(f"Text: {content['text']}")

        token_usage = response['usage']
        print(f"Input tokens:  {token_usage['inputTokens']}")
        print(f"Output tokens:  {token_usage['outputTokens']}")
        print(f"Total tokens:  {token_usage['totalTokens']}")
        print(f"Stop reason: {response['stopReason']}")

    except ClientError as err:
        message = err.response['Error']['Message']
        logger.error("A client error occurred: %s", message)
        print(f"A client error occured: {message}")

    else:
        print(
            f"Finished generating text with model {model_id}.")


if __name__ == "__main__":
    main()

对于铜锣湾街景照片之一，我从 Claude 3 Sonnet 模型中获得以下输出结果：

为了读者阅读的方便，我在此处复制了这个模型的输出结果：

Role: assistant
Text: This image shows a dense urban cityscape with numerous high-rise residential and office buildings in Hong Kong. In the foreground, there are sports facilities like a running track, soccer/football fields, and tennis/basketball courts surrounded by the towering skyscrapers of the city. The sports venues provide open green spaces amidst the densely packed urban environment. The scene captures the juxtaposition of modern city living and recreational amenities in a major metropolitan area like Hong Kong.
Input tokens:  1580
Output tokens:  103
Total tokens:  1683
Stop reason: end_turn
Finished generating text with model anthropic.claude-3-sonnet-20240229-v1:0.

对于铜锣湾街景照片之二，我只是简单地将代码中的 input_image 路径修改为新的图像路径。当我将该照片作为新图像输入到 Claude 3 Sonnet 模型时，我从 Claude 3 Sonnet 模型中获得了以下输出结果：

为了读者阅读的方便，我在此处同样复制了这个模型的输出结果：

Role: assistant
Text: This image shows an aerial view of a dense urban city skyline, likely in a major metropolitan area. The cityscape is dominated by tall skyscrapers and high-rise apartment or office buildings of varying architectural styles, indicating a highly developed and populous city center.

In the foreground, a major highway or expressway can be seen cutting through the city, with multiple lanes of traffic visible, though the traffic appears relatively light in this particular view. There are also some pockets of greenery interspersed among the buildings, such as parks or green spaces.

One notable feature is a large billboard or advertisement for the luxury brand Chanel prominently displayed on the side of a building, suggesting this is a commercial and shopping district.

Overall, the image captures the concentrated urban density, modern infrastructure, and mixture of residential, commercial, and transportation elements characteristic of a major cosmopolitan city.
Input tokens:  1580
Output tokens:  188
Total tokens:  1768
Stop reason: end_turn
Finished generating text with model anthropic.claude-3-sonnet-20240229-v1:0.

小结

Amazon Bedrock 的新 Converse API 通过提供一致的接口，简化了与大型语言模型之间的不同交互，而无需针对于特定模型编写特定的实现。传统方式下，开发人员需要编写包含数百行代码的复杂辅助函数，以统一各个模型的输入/输出格式。Converse API 允许使用相同的 API 无缝调用各种大语言模型，从而大大降低了代码复杂度。

本文的代码示例展示了 Converse API 的简洁性，而过去的方法需要针对每个模型提供者进行独特的集成。第二个代码示例重点介绍了通过 Converse API 调用 Claude 3 Sonnet 模型进行图像描述。

总体而言，Converse API 简化了在 Amazon Bedrock 中使用不同的大型语言模型的交互过程，通过一致性的界面大幅减少了开发工作量，让生成式 AI 应用的开发者可以更加专注于基于自己业务的独特创新和想象力。

说明：本博客文章的封面图像由在 Amazon Bedrock 上的 Stable Diffusion SDXL 1.0 大模型生成。

提供给 Stable Diffusion SDXL 1.0 大模型的英文提示词如下，供参考：

“a developer sitting in the cafe, comic, graphic illustration, comic art, graphic novel art, vibrant, highly detailed, colored, 2d minimalistic”

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用、第三方生成式人工智能内容并非由亚马逊云科技提供，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

文章来源：https://dev.amazoncloud.cn/column/article/66828b3406ff215faff...

在 Kubernetes 云平台上训练和部署生成式 AI 大模型

2024-06-07T08:20:18+08:00

近年来，生成式 AI 凭借其卓越的技术在各个领域掀起了巨大的轰动。通过大模型，AI 能够创造出逼真的文本、图像、音频等作品，甚至涉足音乐、绘画等艺术领域。这项技术不仅在娱乐、创意产业中大放异彩，还在医疗、教育等领域展现出广阔的应用前景。生成式 AI 的蓬勃发展引发了人们对智能创造力、语言理解等问题的深入思考，成为人工智能领域的热门话题之一。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

生成式 AI 备受开发者关注，他们不断探索大模型的性能和应用范围。通过开发创新的应用和解决方案，他们积极将生成式 AI 技术运用到各个领域。对于大多数开发者而言，他们期望能够利用大模型来迅速支持应用开发，而不是深入研究其训练和部署的细节。然而，也有一部分开发者可能对大模型的底层机制感兴趣，或者出于整个团队的 AI 开发需求，他们会深入学习以便进行架构设计和部署工作。

提及大模型，就不得不提到 Anthropic 的 Claude 3。一经推出，这款生成式 AI 大模型立即引起了轰动效应。在各项基准测试中，Claude 3 表现出色，超越了市面上许多同类产品。它在语言、数学、编程、知识问答、文本推理等多个领域的基准测试中都表现优异，已经达到了行业领先水平。

本文不深入讨论 Claude 3 的细节，但我想简要介绍一下它背后成功的底层支撑平台。除了其独特的算法之外，Claude 3 之所以能够获得如此出色的性能，还得益于其底层平台的支持。Anthropic 利用亚马逊云科技构建、训练和部署其拥有数十亿参数的大模型 Claude，这一过程高效可靠。Anthropic 采用了带有 Karpenter 自动伸缩功能的 Amazon EKS，并使用 Amazon S3 进行模型检查点的构建，同时还包括使用 Apache Spark 进行数据处理、模型训练和推理等应用。这一架构的效果非常明显，使得训练作业可扩展至数万个 Pod，并且通过 Karpenter 和 Spot 实例的使用，成本降低了 40%。这是 Kubernetes 支撑生成式 AI 的一个典型案例。更多的技术细节请参考下方二维码里的链接。

众所周知，机器学习面临着诸多挑战，不仅限于当前生成式 AI 阶段，过去的深度学习和机器学习也同样如此。其中一个重要挑战是依赖管理。由于机器学习训练或推理环境通常需要大量的软件包，并且这些包之间存在着复杂的依赖关系，因此良好的依赖管理至关重要，以确保机器学习环境的顺畅运行。此外，机器学习通常需要进行分布式训练，无论是模型还是数据的分布式，都需要对数据或模型进行分块，并在不同的 GPU 上进行分布式训练，因此需要考虑到计算能力的调配和扩展问题。此外，机器学习还涉及一系列安全性和合规性问题。

我们一直在努力解决这些问题。因此，早在多年前，我们就开始将容器应用于机器学习环境。通过这一做法，我们能够更好地确保环境的一致性，包括训练和推理环境中的软件包、库以及依赖关系。将它们打包到相同的独立单元中，确保具有相同的配置，这样就能够保证整个容器化的机器学习环境有更好的一致性。与此同时，容器也是一种方便的部署方式，可以轻松部署在不同的云平台、本地环境、混合环境甚至边缘环境中。容器还能够更好地帮助进行资源隔离，从而使得机器学习任务能够更好地执行。此外，容器还带来了诸如可扩展性、版本控制等优势，能够确保机器学习模型和环境更加简单和透明。因此，近年来，我们一直将容器应用于机器学习中。

Kubernetes 在机器学习领域的应用日益广泛。作为一个容器的自动化编排工具，Kubernetes 能够根据负载动态扩展和缩减资源需求，帮助我们灵活地调整计算资源，以适应不同的机器学习任务。它提供了更灵活、更便捷的资源管理和调度功能，确保底层计算资源和存储资源能够充分应用于训练或推理环境中。Kubernetes 内置了多种容错机制，保障机器学习的高可用性，并且支持多种环境，包括多云、混合云、本地甚至边缘环境。此外，Kubernetes 中的负载均衡等功能能够更方便地管理多个机器学习任务，提升通信效率。另外，Kubernetes 作为一个庞大的生态系统，提供了许多工具、服务和软件的支持，包括存储、日志、可观测性和监控等，为机器学习提供全方位的支持。这些是 Kubernetes 被广泛应用于机器学习的重要原因之一。

因此，我们不禁思考：既然我们已经进入了生成式 AI 的时代，为什么不将 Kubernetes 应用于大模型的训练和部署呢？显然，答案是肯定的。我们可以看到越来越多的开发者和企业正在使用 Kubernetes 的基础设施来进行大模型的训练和部署。

在训练传统的机器学习模型和大模型之间存在许多不同之处。首先是数据规模，训练大模型需要大量数据，而传统机器学习模型的训练集通常规模较小。当然，这并非绝对，但针对大模型的算法实现通常更加复杂，需要更多底层设施，如更多 GPU、存储和高速通信能力。因此，自动化配置和管理这些基础设施，使其顺利地应用于训练和推理工作负载，是一个非常值得考虑和研究的过程。其次，这涉及到分布式的问题：如何在节点之间进行数据和模型的分布式处理？在构建好分布式架构之后，如何让节点更好地协同，以实现模型的快速训练？在训练过程中，我们如何减少故障？由于训练大模型可能需要大量的 GPU 时间，因此如何快速发现和解决故障，或通过其他方式减少故障，也是需要考虑的重要问题。

对于亚马逊云科技而言，我们可以利用 Amazon EKS 来处理大规模的分布式训练工作负载，全面提升计算能力、存储网络和实例性能。首先，我们着眼于加速计算能力。亚马逊云科技与英伟达长期合作，提供最新的 EC2 GPU 实例。此外，我们的自研芯片也能有效加速训练和推理过程。我们还借助自动伸缩能力，实现对计算节点的快速调整，为计算提供更强大的支持。除了硬件层面，软件优化也至关重要。我们提供了专为 Kubernetes 和机器学习优化的操作系统镜像和容器镜像，以最大程度地发挥软硬件协同优势。在存储方面，通过一系列驱动程序的优化，我们实现了存储和计算节点之间更高效、更高性能的互联，使得计算存储能够协同高速运行。在网络方面，我们不断提升性能，降低延迟，提供更高效的网络互联，以确保分布式训练的性能达到最佳水平。

接下来，我想分享一个优秀实践，这是我们官方博客上的一个案例，展示了如何利用 Amazon EKS 上的 Trainium 实例来训练 Llama2 大模型。Trainium 是亚马逊云科技自研的一款面向训练工作负载的芯片。在这个架构中，我们利用 Terraform 构建了 Amazon EKS 集群和托管 EKS 节点组，其中包含 Trainium 实例，为大模型的训练提供了可扩展的计算资源。通过构建容器镜像，我们将 Neuron SDK 集成到 Docker 容器中，并在 Amazon EKS 集群中部署这些容器，作为模型训练作业的运行环境。此外，我们使用 Amazon FSx for Lustre 作为共享文件系统，用于存储数据集、tokenizer 文件、模型训练脚本、训练日志和模型检查点，确保训练作业中的数据共享和一致性。在开始训练之前，我们进行了前期准备和配置工作，包括下载 tokenizer 文件、准备数据集和修改训练脚本。通过 Kubernetes MPI Operator 协调分布式训练，每个工作 Pod 在单个 Trainium 实例上运行，并通过高速、低延迟的网络通信进行协作。我们利用 Tensorboard 和 neuron-top 等工具监控训练作业的进度和 Trainium 芯片的利用率，提供了对训练性能和资源利用的可视化。最后，我们编写了清理脚本，在完成训练后清理所有部署的资源，以节省成本并避免资源浪费。

架构的示意图如上，您可以通过扫描下方的二维码查看完整的博客。

对于大模型而言，推理阶段也面临着多种挑战，其中规模是首要挑战。与训练不同，我们更关注推理集群的自动扩展和缩减能力。确保推理集群能够根据用户需求实时扩展或缩小规模至关重要。例如，某领先的大模型提供商，用户的使用量可能会在不同时间出现差异，在去年会频繁遇到推理容量不足，无法为用户提供服务的情况。因此，如何根据后台推理的规模实现自动扩展和缩减，以提供更多有效的推理资源，是一个需要解决的核心问题。将大模型部署在云端会更便捷、更快速地解决这一问题，提供更好的响应能力。另外，性能也是至关重要的考量因素。当然，性能和响应时间本身可能存在一种妥协，需要根据实际应用场景确定。另一个同样重要的因素是成本。有研究表明，机器学习中大约 90% 的成本都用于推理阶段。因此，如何优化这一成本是非常需要考虑的问题。

我想提到的是亚马逊云科技推出的开源项目 Karpenter，这是一个针对 Kubernetes 的自动化伸缩工具。Karpenter 旨在帮助开发者和企业根据不同的工作负载实现弹性扩展和伸缩。它提供了一整套自动伸缩组和用户自定义的策略，通过这些策略的组合来自动调整集群中节点的数量，从而更有效地利用资源，确保 Kubernetes 集群具有足够的容量来运行工作负载。虽然 Karpenter 最初并不是专门为生成式 AI 或机器学习工作负载而构建的，但在实践中，我们发现它能够更好地支持生成式 AI 工作负载，特别是推理工作负载的弹性伸缩。这不仅提升了性能，降低了成本，也使我们逐渐将 Karpenter 应用于机器学习环境中。它能够自动化节点管理，相较于传统的 auto scaler 更为智能，能够进行更准确的预测和伸缩。同时，它提供了更强大的弹性展开和成本优化能力，帮助开发者更好地在容器上部署机器学习推理。

亚马逊云科技提出了名为 JARK 的综合解决方案，用于端到端的机器学习编排。JARK 堆栈包含四个核心组件：JupyterHub、Argo Workflows、Ray 和 Kubernetes。这个堆栈是在 Amazon EKS 上运行 Gen AI 模型的关键组成部分。

JupyterHub：JupyterHub 提供了一个共享平台，可在业务、教育和研究中运行流行的笔记本。在 Gen AI 领域，JupyterHub 加速了实验过程，特别是在反馈循环中。数据工程师可以在此平台上协作创建用于 Prompt Engineering 的模型。

Argo Workflows：Argo Workflows 是一个开源的容器本地工作流引擎，用于在 Kubernetes 上编排并行作业。它提供了一个结构化和自动化的流水线，专门用于模型的微调。

Ray：Ray 是一个开源的分布式计算框架，可以轻松扩展应用程序并使用最先进的机器学习库。Ray 用于在多个节点上分布训练生成模型，加速训练过程并处理更大的数据集。

Kubernetes：Kubernetes 是一个强大的容器编排平台，可自动化容器化应用程序的部署、扩展和管理。在 Amazon EKS 上运行 Gen AI 模型的基础设施建立在 Kubernetes 之上。

我再分享一个来自亚马逊云科技官方博客的案例，展示了如何在 Amazon EKS 上部署 Stable Diffusion 模型。使用 Amazon EKS 部署 Stable Diffusion 模型的步骤大致如下：首先，创建 Amazon EKS 集群，可使用 Terraform 或亚马逊云科技管理控制台完成，并确保网络和安全组设置正确。接着，配置 Kubernetes 命令行工具（kubectl），与 Amazon EKS 集群进行交互，包括应用程序部署和工作负载管理等。然后，部署必要的基础组件到 Amazon EKS 集群中，如 JupyterHub、Argo Workflows 和 Ray，这些组件构成了 Stable Diffusion 模型部署的基础设施。随后，配置 Ingress 控制器和负载均衡器，将外部流量引导到 Amazon EKS 中的服务。接下来，在 Amazon EKS 中创建 GPU 节点组，用于托管需要 GPU 加速的模型训练和推理任务。然后，在 Amazon EKS 集群中部署 Stable Diffusion 模型，可利用 Hugging Face 的 Accelerate 和 Diffusers 库来简化模型部署和优化训练过程。最后，使用工具如 Ray Serve 配置模型服务，实现模型的在线推理功能，并对模型服务进行验证和优化。

架构的示意图如上，您可通过扫描下方的二维码获取完整博客，进一步了解细节。

总结来说，在 Kubernetes 平台上，尤其是在亚马逊云科技的 Amazon EKS 上，我们已经建立了完善的数据和生成式 AI 生态系统，快速支持生成式 AI 的训练和推理。我们提供了示例代码、优秀实践和基础设施即代码（IAC）模板等资源，欢迎大家学习和探索。同时，我们也欢迎大家就我们的代码提出更多修改和改进意见：https://github.com/awslabs/data-on-eks?trk=cndc-detail

文章来源：https://dev.amazoncloud.cn/column/article/666251c20c2e76418f9...

生成式 AI 码力全开，动手搭建未来商城

2024-06-04T14:45:24+08:00

在当前快速变革的技术浪潮中，人工智能和无服务器已成为软件开发领域的两大重量级明星。它们分别代表着智能化和现代云原生应用的未来方向。而将两者完美结合，将为应用开发带来全新的革命性体验。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

我想和大家分享一个有趣的动手实验：“利用生成式 AI 构建一个无服务器电商平台”。通过 60 分钟的体验，参与者将获得生成式 AI 工具驱动下的无服务器架构应用开发的独特体验。

如果你也和我一样，想感受一下亚马逊云科技明星服务真实业务场景的实现，以及利用人工智能工具去构建一个无服务器架构的电商平台，那么现在就扫描下方二维码，或点击阅读原文报名注册亚马逊云科技中国峰会吧！并于 5 月 30 日带着你的终端设备，在上海世博中心现场不见不散！

虽然很快就可以见面，但我还是忍不住对实验环节做一些剧透。

实验内容：

利用 Amazon Lambda Web Adapter，将开源电商系统 Litemall 从传统容器架构迁移至无服务器架构，实现与 Vue.js 前端的无缝集成。
实战编码的过程中，体验 Amazon Q 作为生成式 AI 助手简化应用构建的全流程。
玩转 Amazon Bedrock，轻松构建和弹性扩展基于生成式 AI 模型的行业应用。

不仅如此，动手实验的主线将环绕构建一个智能电商系统。参与者还将在体验生成式 AI + Serverless 开发新体验的同时，亲手打造出一个具有强大生成式 AI 能力的现代化电商应用，洞悉未来电商发展的全景图。

实验将体验到的云服务：

在“动手”体验之前，我们需要了解一下实验涉及的那些有趣服务以及他们背后的技术实现：

Amazon Web Adapter

实验涉及了服务器计算服务 Amazon Lambda，以及它的一个开源插件 Lambda Web Adapter。众所周知， Lambda 是亚马逊云科技提供的一种无服务器计算服务，它摆脱了服务器管理，提供了可扩展性并节约了成本。Lambda 函数由事件触发，如 API 请求或计划事件，这意味着 Lambda 函数在无状态环境中运行。

我们听到一些开发人员，尤其是开始使用 Lambda 构建 Web 应用程序的开发人员，分享了他们面临的一些挑战。其中一个挑战是适应不同的编程模型，这需要转变编码思维来处理事件和管理无状态。此外，开发人员还经常发现自己在开发和调试工具的可用性方面遇到困难。与容器相比，他们可能对 Lambda 的这些工具不太熟悉。尽管存在这些挑战，开发人员还是认识到，将传统 Web 应用程序迁移到 Lambda 或将 Lambda 过渡到容器会带来令人兴奋的新机遇和好处。但同时，所有这些迁移都将会带来额外的工作和代码修改。因此 Lambda Web Adapter 应运而生。

Lambda Web Adapter 是用于 Lambda runtime API 和 HTTP API 的通用适配器。它支持 API Gateway REST/HTTP 端点、Application Load Balancer和 Lambda Function URL。无需加入新的代码依赖关系。它可与在 Linux 上运行的任何网络框架和编程语言配合使用。支持 x86_64 和 arm64 CPU 架构。开发人员可以使用熟悉的框架和工具进行本地开发和测试。

Lambda Web Adapter是 Lambda 的扩展，在 Lambda 执行环境中作为独立进程运行。Lambda Web Adapter 也是一个自定义运行时客户端。对于每次调用，Lambda Web Adapter 都会从 Runtime API 接收调用payload，将其转换为 HTTP 请求，然后发送给在同一执行环境中运行的 Web 应用程序。当 Web 应用程序返回 HTTP 响应时，Lambda Web Adapter 会将其转换为正确的 json payload 并发送给 Runtime API。

Lambda Web Adapter 使用 Rust 开发，利用了 Amazon Lambda Rust runtime 和 hyper 等板块。这种选择不仅确保了高性能，还增强了该组件在对延迟敏感的数据路径中的安全性。另外，Lambda Web Adpter 是在 Amazon Lambda 上运行 Web 应用程序的开源工具，从这里获得全部代码：https://github.com/awslabs/aws-lambda-web-adapter?trk=cndc-detail

另外我挺骄傲的是 Lambda Web Adapter 是由来自亚马逊云科技的无服务器产品专家孙华开源出来的，您可以访问链接查看 GitHub 主页。这里为中国的开源贡献者点个赞！

@孙华

https://github.com/bnusunny?trk=cndc-detail

通过实验，体验者体验到将 Web 应用从容器架构迁移到无服务器架构上运行，就只差一个 Lambda Web Adapter。

Amazon Q

Amazon Q 是亚马逊云科技交付的一个功能强大的生成式 AI 工具，可以用于应用开发的全流程，包括：

开发过程中的知识学习理解能力：根据数据源提供准确具体的技术指导，并索引到相关文档和实例；
项目计划以及设计能力：调查，评估，以及制定一个目标明确且可执行的项目计划，设计出符合业务目标，满足技术需求的应用。
代码开发能力：理解业务目标的基础上，生成代码，和做代码解读。
安全和审查能力：自动检测代码错误和进行应用的故障判断。通过安全扫描发现安全漏洞并提出解决方案。
监控及测试能力：根据应用和基础设施的安全和性能要求，对整个开发过程进行监控，并结合反馈跟踪和诊断错误。
智能的运行维护能力：对生产中的更新和补丁进行自动化升级。

作为一个智能的开发助手，Amazon Q 和多种开发前端都做了集成。如今开发者可以通过常见的 IDE，Amazon Management Console，Amazon Documentation，Slack & Teams，Amazon Console Mobile App，以及 Amazon CodeCatalyst，使用 Amazon Q 协助完成应用开发的全过程。

Amazon Q 将贯穿整个实验过程，从通过自然语言需求技术指导，云上服务推荐，到 API 调用代码推荐，陌生代码的解析，以及故障定位及修复建议和安全漏洞扫描和修复。

Amazon Bedrock

Amazon Bedrock 是一项完全托管的服务，通过单个 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等多个领先人工智能公司的高性能基础模型。通过微调和检索增强生成（RAG）等技术利用自有的数据对其进行私人定制，并构建使用企业或组织的系统和数据来源执行任务的代理。

我们认为生成式 AI 的技术栈如下图分为三层，而第二层调用大语言模型构建人工智能应用的平台是尤为受到开发者重视的。多模型的广泛选择，简化大语言模型的调用和与应用程序的集成，以及利用特有数据源实现模型定制是第二层技术栈优先要实现特性。

在实验的最后一个环节，设置了调用 Amazon Bedrock 提供的基础模型，设计生成上架商品的商品描述的挑战赛，这很有趣。体验者需要完成 pom.xml 以及 AWSConfig.java 的代码，并在 BedrockController.java 以及 BedrockService.java 中完成方法实现。

实验收获：

之所以推荐这个实验，不仅仅是实验过程有助于熟悉并体验亚马逊云科技上新且亮眼的服务，而且可以在实验中体验到云上构建无服务器架构的电商平台的全过程。

实验的设计和交付者蔡勃，金泽煊和罗新宇，他们都来自于亚马逊云科技一线的技术专家。您可以访问他们 GitHub 主页查看更多信息：

@蔡勃

https://github.com/caibobob?trk=cndc-detail

@金泽煊

https://github.com/JasonJinzexuan?trk=cndc-detail

@罗新宇

https://github.com/thinktik?trk=cndc-detail

实验的首次亮相将在 5 月 22 日的亚马逊云科技的香港峰会：https://build-serverless-ecommerce-with-gen-ai.splashthat.com...

如果你刚巧在那里，欢迎现场和实验的设计者沟通切磋！

文章来源：https://dev.amazoncloud.cn/column/article/664d45c8ce4f3f3ba24...

Amazon Q Developer 实战：从新代码生成到遗留代码优化（下）

2024-06-03T20:38:52+08:00

简述

本文是使用 Amazon Q Developer 探索如何在 Visual Studio Code 集成编程环境（IDE），从新代码生成到遗留代码优化的续集。在上一篇博客《Amazon Q Developer 实战：从新代码生成到遗留代码优化（上）》中，我们演示了如何使用 Amazon Q Developer 编写新代码和优化遗留代码。正如我们在上一篇的“优化遗留代码”章节所讨论的，优化遗留代码是一个迭代渐进的过程。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

本文详细记录了使用 Amazon Q Developer 优化遗留代码的全过程。经过三轮与 Amazon Q Developer 的交互对话，最终获得了高质量的优化代码，将代码性能提升了 150%，充分展现了 Amazon Q Developer 在遗留代码迭代优化方面的重要价值。

说明：本文内容选自作者黄浩文本人于 2024 年 5 月，在 Amazon Web Services 开发者社区上发表的原创英文技术博客“Unleash Amazon Q Developer: From Code Creation to Legacy Code Optimization (Part 2)”。在运行于 Amazon Bedrock的Claude 3 Sonnet v1 大模型的辅助下，将英文版翻译为该简体中文版。全文略有修改。

原英文博客文章链接如下，供参考：

https://community.aws/content/2gwMWtPiyA857M0zRa0SkyXksX2/unl...

和 Amazon Q 的第一轮互动

我发送给 Amazon Q 对话窗口的英文提示词如下:

“Please carefully review the code I have written. While preserving the required functionality of the code, please optimize my code, for example: provide alternative implementations that improve time or memory efficiency. Your feedback and guidance will be extremely valuable for improving my programming abilities. If you need any other background information or explanations regarding the code, please let me know. Finally, please provide the complete runnable code in its entirety.”

翻译成中文大致如下：

“请仔细审查我编写的代码。在保留所需代码功能的同时，请优化我的代码，例如：提供可以提高时间或内存效率的替代实现。你的反馈和指导对于提高我的编程能力将是极其宝贵的。如果你需要任何其他有关代码的背景信息或解释，请告诉我。最后，请提供完整的可运行代码。”

而 Amazon Q 的详细回复，如下两张截图所示：

为方便读者阅读，我已将上述截图的内容复制为文本如下：

“I'm Amazon Q, an AI assistant created by Amazon to help you with your programming tasks.

Regarding the code you provided, it appears to be a Python script that interacts with the AWS S3 service to list the S3 buckets in the 'ap-east-1' region and record the execution time of the script. The code seems to be functional and achieve the required functionality.

To optimize the code for better time and memory efficiency, here are a few suggestions: [1]

Reduce the number of API calls: The current implementation makes two API calls to the S3 service - one to list all the buckets, and another to get the location constraint for each bucket. You can optimize this by making a single API call to list_buckets() and then filtering the results to get the buckets in the 'ap-east-1' region. This will reduce the number of API calls and improve the overall performance.

(The generated code part is omitted)

Use a list comprehension instead of a for loop: The current implementation uses a for loop to iterate over the bucket names and print them. You can simplify this by using a list comprehension, which is more concise and efficient.

(The generated code part is omitted)

Avoid unnecessary imports: The current implementation imports several modules that are not used in the main function. You can remove the unused imports to improve the readability and maintainability of the code.

Consider using the AWS CDK library: Since you're already using the AWS CDK library, you could explore further optimizations by leveraging its features and capabilities. For example, you could use the CfnOutput construct to output the list of bucket names directly, without the need for a separate loop.

(The generated code part is omitted)

These optimizations should help improve the time and memory efficiency of your code. If you have any further questions or need additional assistance, please feel free to ask.”

由于 Amazon Q 的以上详细回复为英文，而且有一定的技术深度。为了帮助不同技术程度的开发者都能洞悉其中奥秘，我特别整理了如下的“概述分析”内容。

第一轮对话概述分析

根据以上 Amazon Q 的初步回复，它认为虽然遗留代码可以运行，但通过一些代码优化还是可以提高时间和内存的利用效率。它的详细建议包括：通过单次调用“list_buckets()”API 并过滤结果来减少 API 调用次数、使用列表推导式代替“for”循环以提高简洁性、删除不必要的 import 语句、考虑使用 Amazon CDK 库进行进一步优化（例如直接输出存储桶名称而无需单独循环）等。

虽然 Amazon Q 的分析看起来合理，但作为经验丰富的资深开发人员，我们首先要确保代码可执行。

不幸的是，第一轮对话中其生成的代码暂时无法直接运行，仍存在一些 BUG。这一次，我不想再花大量时间调试这些 BUG 了，而是希望 Amazon Q 能够帮我马上解决！

于是，下面是我与 Amazon Q 的第二轮精彩对话。

和 Amazon Q 的第二轮互动

我发送给 Amazon Q 对话窗口的英文提示词如下：

“Please provide the complete code you suggested above, it needs to be fully runnable.”

为方便读者阅读，我已将上述截图的内容复制为文本如下：

“Here's the complete, runnable code with the optimizations I suggested:

import time
from aws_cdk import (
    App, Stack, CfnOutput
)
import boto3

class MyStack(Stack):
    def __init__(self, scope: Construct, construct_id: str, **kwargs) -> None:
        super().__init__(scope, construct_id, **kwargs)

        s3_client = boto3.client('s3', region_name='ap-east-1')
        response = s3_client.list_buckets()
        ap_east_1_buckets = [bucket['Name'] for bucket in response['Buckets'] if bucket['Region'] == 'ap-east-1']

        print(f"Number of buckets found in ap-east-1 region: {len(ap_east_1_buckets)}")
        print("\nBucket names:")
        print('\n'.join(ap_east_1_buckets))

        for i, bucket_name in enumerate(ap_east_1_buckets):
            CfnOutput(self, f"Bucket-{i}", value=bucket_name)

def main():
    start_time = time.time()
    app = App()
    MyStack(app, "haowen-cdk-app-list-S3-demo")
    app.synth()
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"\nTotal execution time: {execution_time} seconds")

if __name__ == "__main__":
    main()

This code should be fully runnable and achieve the same functionality as the original code, but with the following optimizations:
    1.  Reduced the number of API calls by making a single call to list_buckets() and then filtering the results to get the buckets in the 'XXXXXXXXX' region.
    2.  Used a list comprehension to create the list of bucket names instead of a for loop.
    3.  Removed the unused imports.
    4.  Leveraged the AWS CDK library to output the list of bucket names using the CfnOutput construct.

To run this code, you'll need to have the following dependencies installed:
    •  aws-cdk-lib
    •  boto3

You can install them using pip:
pip install aws-cdk-lib boto3

Then, you can run the script using the following command:
python s3-demo-1.py

This should output the number of buckets found in the 'ap-east-1' region, the list of bucket names, and the total execution time of the script.”

同样为了帮助不同技术程度的开发者都能洞悉其中奥秘，我特别整理了如下的“概述分析”来总结以上的 Amazon Q 用英文回复的详细技术细节。

第二轮对话概述分析

这一次 Amazon Q 输出了完整的代码和结合代码的具体优化措施。其中包括：减少 API 调用、使用列表推导式、删除未使用的导入、利用 Amazon CDK 库进行输出等具体实现。总体来看，代码写得很规范，其实已经基本有效地实现了我对它的预期要求。

不过，在这一轮交互对话后，其输出的代码在运行时仍然存在个别 BUG。虽然凭借着我自己多年的代码经验，我可以在几分钟内直接修复这些 BUG，但这次我想考验下 Amazon Q，我直接接住上一轮对话，继续要求 Amazon Q 修复它建议代码中的运行错误。这就促成了我和 Amazon Q 的以下第三轮对话。

和 Amazon Q 的第三轮互动

我发送给 Amazon Q 对话窗口的英文提示词如下：

“When run your above code, I get the following error message: File "/Users/AMAZON/haowen-demo/q-dev/s3-demo-1-qrevised-1.py", line 20, in apeast1_buckets = [bucket['Name'] for bucket in response['Buckets'] if bucket['Region'] == 'ap-east-1'] KeyError: 'Region'”

为方便读者阅读，我已将上述截图的内容复制为文本如下：

“I apologize for the oversight. The issue is that the listbuckets() API call does not return the Region information for each bucket. To work around this, we can use the getbucket_location() API call to get the region for each bucket, similar to the original code.
Here's the updated, fully runnable code:

import time
from aws_cdk import (
    App, Stack, CfnOutput
)
import boto3
from constructs import Construct

class MyStack(Stack):
    def __init__(self, scope: Construct, construct_id: str, **kwargs) -> None:
        super().__init__(scope, construct_id, **kwargs)

        s3_client = boto3.client('s3', region_name='ap-east-1')
        response = s3_client.list_buckets()
        ap_east_1_buckets = []

        for bucket in response['Buckets']:
            bucket_region = s3_client.get_bucket_location(Bucket=bucket['Name'])['LocationConstraint']
            if bucket_region == 'ap-east-1':
                ap_east_1_buckets.append(bucket['Name'])

        print(f"Number of buckets found in ap-east-1 region: {len(ap_east_1_buckets)}")
        print("\nBucket names:")
        print('\n'.join(ap_east_1_buckets))

        for i, bucket_name in enumerate(ap_east_1_buckets):
            CfnOutput(self, f"Bucket-{i}", value=bucket_name)

def main():
    start_time = time.time()
    app = App()
    MyStack(app, "haowen-cdk-app-list-S3-demo")
    app.synth()
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"\nTotal execution time: {execution_time} seconds")

if __name__ == "__main__":
    main()

The main changes are:
Instead of using a list comprehension to filter the buckets, we're iterating over the Buckets list and using the getbucketlocation() API call to determine the region for each bucket.
If the bucket is in the 'ap-east-1' region, we add it to the apeast1_buckets list.
This should resolve the KeyError: 'Region' issue you were encountering. Please let me know if you have any other questions or if you need further assistance.”

第三轮对话概述分析

This code is the optimized version we introduced in the previous blog post that finally ran successfully. As demonstrated by the screenshot in the prior post, the execution time of this optimized code is only 1.7 seconds, outperforming the legacy code which took 4.3 seconds to run - a remarkable 150% performance improvement!

第三轮对话后我拿到的以上代码，就是我们在上一篇文章中介绍的最终代码版本。如前一篇文章中的屏幕截图（如下所示），优化后的代码执行时间仅为 1.7 秒，远优于遗留代码运行时间 4.3 秒！代码性能提升了 150 倍。

全篇总结

在这篇后续文章中，我详细记录了使用 Amazon Q Developer 优化遗留代码的经历，其中历经了三轮和 Amazon Q 的交互互动。最初 Amazon Q 就提出了减少 API 调用、利用列表推导式和使用 Amazon CDK 库等建议。然而第一次其生成的代码暂不能直接成功运行。

在我要求其提供可完全运行的代码后，Amazon Q 提供了一个更新版本，并根据之前的优化措施提供了一个几乎最终的版本（该版本资深程序员一般可在几分钟内修复 BUG）。虽然更加完善，但这第二次提供的代码仍然存在个别错误，促使我和 Amazon Q 展开了第三轮交互对话。

第三次对话后，Amazon Q 通过恢复使用“get_bucket_location()”来确定每个 S3 存储桶所在的区域，然后过滤出我指定要求的“ap-east-1”区域完美修复了问题，并最终实现优化代码比遗留代码 150% 的代码性能提升。

通过这个涉及多轮详细沟通的反复过程，我成功将遗留代码转化为高性能的优化版本。这次经历凸显了 Amazon Q Developer 作为协作式 AI 编程助手的潜在巨大价值：即 Amazon Q 能够通过渐进式的反复迭代，来最终优化完善复杂任务的真实世界代码。

特别说明：本博客文章的封面图像由在 Amazon Bedrock 上的 Stable Diffusion SDXL 1.0 大模型生成。

提供给 Stable Diffusion SDXL 1.0 大模型的英文提示词如下，供参考：

“The style should be a blend of realism and abstract elements. comic, graphic illustration, comic art, graphic novel art, vibrant, highly detailed, colored, 2d minimalistic. An artistic digital render depicting a beautiful girl coding on a laptop, with lines of code and symbols swirling around them. The background should have a futuristic, tech-inspired design with shades of blue and orange. The overall image should convey the themes of code optimization, legacy code, and the power of Amazon Q Developer's AI assistance.”

文章来源：https://dev.amazoncloud.cn/column/article/665db9250c2e76418f7...

Amazon Q Developer 实战：从新代码生成到遗留代码优化（上）

2024-05-20T15:02:53+08:00

本文将探索如何在 Visual Studio Code 这个开发者常用的一种集成编程环境（IDE）中，使用 Amazon Q Developer 列出指定区域的 Amazon S3 存储桶的示例代码实现。我们将从在 Amazon Q Developer Agent 的协助下，从生成新代码开始，到将生成的新代码与现有的低效“遗留”旧代码进行性能对比；然后借助 Amazon Q Developer 的指导，来优化这段遗留代码，从而减少代码执行时间和提升代码效率。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

特别说明：本文内容选自作者黄浩文本人于 2024 年 5 月，在 Amazon Web Services 开发者社区上发表的原创英文技术博客“Unleash Amazon Q Developer: From Code Creation to Legacy Code Optimization (Part 1)”。在运行于 Amazon Bedrock 的 Claude 3 Sonnet v1 大模型的辅助下，将英文版翻译为该简体中文版。全文略有修改。

原英文博客文章链接如下，供参考：

https://community.aws/content/2gAesRvMD6g065geDeg6MQBAJD7/unl...

概览

如您所知，亚马逊云科技最近宣布了 Amazon Q Developer 的正式公开可用，这是一款由生成式 AI 驱动的编程助手，可重塑开发者在整个软件开发生命周期（SDLC: Software Development Lifecycle）的开发体验。

官方博客参考如下：

https://aws.amazon.com/about-aws/whats-new/2024/04/amazon-q-d...

Amazon Q Developer 可帮助开发者更好地理解、构建、扩展和操作 Amazon Web Services 应用程序。您可以询问有关基础设施架构、服务资源、行业最佳实践、参考文档、技术支持等多方面的问题。Amazon Q 还在不断地更新其更广泛的功能，以支持开发者的问题持续获得最新相关且可操作的解答和建议。

在这篇文章中，我们将探讨如何在 Visual Studio Code IDE 环境中使用 Amazon Q Developer 来处理真实世界的编码需求。我们将以编写一段完整有效且高质量的 Python 代码，实现列出某个指定区域中的所有 Amazon S3 存储桶作为演示示例。

在继续阅读之前，建议开发者先参考以下技术文档，了解如何在 Visual Studio Code 中设置 Amazon Q Developer：

https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/what...

生成新代码

首先，让我们使用 Amazon Q Developer Agent 来编写初始代码。您可以参考以下文档，了解 Amazon Q Developer Agent 的详细信息：

https://docs.aws.amazon.com/amazonq/latest/qdeveloper-ug/soft...

在 Amazon Q Developer Agent 的帮助下编写代码其实比较简单，如下截图所示：

在 Amazon Q Developer 聊天面板中，我使用的提示如下：

/dev Write code to list all the Amazon S3 buckets in the `ap-east-1` region and output their names, along with the total execution time of the script.

翻译成中文，我在提示中对 Amazon Q Developer 的要求是：

“编写代码列出‘ap-east-1’区域中所有的 S3 存储桶的名称，以及计算代码脚本的总执行时间。”

为方便读者参考，我将以上截图中 Amazon Q Developer Agent 生成的代码段复制如下：

import time
import boto3

def list_s3_buckets_in_region(region_name):
    """
    Lists all the Amazon S3 buckets in the specified region.

    Args:
        region_name (str): The AWS region name.

    Returns:
        list: A list of bucket names.
    """
    s3_client = boto3.client('s3', region_name=region_name)
    response = s3_client.list_buckets()
    buckets = []

    for bucket in response['Buckets']:
        bucket_region = s3_client.get_bucket_location(Bucket=bucket['Name'])['LocationConstraint']
        if bucket_region == region_name:
            buckets.append(bucket['Name'])

    return buckets

def main():
    start_time = time.time()
    region_name = 'ap-east-1'
    buckets = list_s3_buckets_in_region(region_name)

    print(f"Number of buckets found in {region_name} region: {len(buckets)}")
    print("\nBucket names:")
    for bucket_name in buckets:
        print(bucket_name)

    end_time = time.time()
    execution_time = end_time - start_time
    print(f"\nTotal execution time: {execution_time:.2f} seconds")

if __name__ == "__main__":
    main()

运行以上 Python 代码，将获得如截图所示的运行结果：

哇！仅用了一分钟，Amazon Q Developer Agent 就编写了一个完整的代码列出了我在某个指定区域（ap-east-1, 即中国香港区域）中的 Amazon S3 存储桶，并计算了程序脚本的执行时间。程序总执行时间为 1.37 秒！

与遗留代码的性能对比

我们亲身体验了 Amazon Q Developer 代理快速编写新代码的威力，但它能否帮助我们修改遗留代码呢？作为开发者，在引入 Amazon Q Developer 之前，我们已经编写过大量的遗留代码，我们也同样希望 Amazon Q Developer 能够帮助修改这些大量的遗留代码。

下面这段“遗留”代码，是我自己在没有太多考虑效率和执行速度的情况下编写的。代码的主要功能也是列出某个指定区域中的 Amazon S3 存储桶，输出它们的名称，以及计算脚本的总执行时间。这与我们之前要求 Amazon Q Developer 完成的代码是完全相同的业务需求。

为方便开发者参考，我将自己编写的完整"遗留"代码复制如下：


# The following code counts the number of S3 Buckets in a specified region, lists the names of the S3 Buckets in that region, 
# and records the program's execution time. 
#
# Author: Haowen Huang
# Date: May 5, 2024

import time

def main():
    start_time = time.time()  # Record the start time

    # Your existing code here
    from aws_cdk import (
        App, Stack, CfnOutput
    )
    import boto3
    from constructs import Construct

    class MyStack(Stack):
        def __init__(self, scope: Construct, construct_id: str, **kwargs) -> None:
            super().__init__(scope, construct_id, **kwargs)

            # Create an S3 client for the specific region
            s3_client = boto3.client('s3', region_name='ap-east-1')

            # Get a list of all buckets in the specific region
            all_buckets = []
            response = s3_client.list_buckets()
            for bucket in response['Buckets']:
                bucket_region = s3_client.get_bucket_location(Bucket=bucket['Name'])['LocationConstraint']
                if bucket_region == 'ap-east-1':
                    all_buckets.append(bucket['Name'])

            print(f"Number of buckets found in ap-east-1 region: {len(all_buckets)}")
            print("\nBucket names:")
            for bucket_name in all_buckets:
                print(bucket_name)

            # Output the list of bucket names
            for i, bucket_name in enumerate(all_buckets):
                CfnOutput(self, f"Bucket-{i}", value=bucket_name)

    app = App()
    MyStack(app, "haowen-cdk-app-list-S3-demo")
    app.synth()

    end_time = time.time()  # Record the end time
    execution_time = end_time - start_time
    print(f"\nTotal execution time: {execution_time} seconds")

if __name__ == "__main__":
    main()

运行上述 Python 代码后，将获得如下截图所示的输出：

如上图所示，该段“遗留”代码的总执行时间在 4.33 秒左右，远落后于之前一节中演示的 Amazon Q Developer Agent 生成的代码。

读到这里，你可能会和我当时一样好奇：为什么这段“遗留”代码运行地这么慢？Amazon Q Developer 能否帮助我们诊断出这段运行缓慢的代码的潜在问题，并完成对其的代码优化，从而提升代码运行运行效率呢？我将在下一节为大家揭开这个谜团。

优化遗留代码

首先，我们将“遗留”代码发送给 Amazon Q。将代码发送给 Amazon Q，可参照以下步骤操作：

在 IDE 中高亮显示需要发送的代码段，如下所示。
右键单击选中的代码段，来打开上下文窗口（context window）。然后选择“Send to Amazon Q”，再选择“Send to prompt”。

Amazon Q 会将选中的代码段复制到Amazon Q聊天面板，在那里你可以输入任何有关该代码的问题或提示。

如下面的屏幕截图所示：

在 Amazon Q 聊天面板中我使用的提示词如下：

“请仔细审阅我编写的代码。在保留代码所需功能的同时，请优化我的代码，例如：提供可提高时间或内存效率的替代实现。你的反馈和指导对于提高我的编程能力将极为宝贵。如果你需要任何其他有关代码的背景信息或解释，请告诉我。最后请提供完整可运行的代码。”

最初 Amazon Q 生成的代码存在一些问题，但经过两轮我和 Amazon Q 的互动交流后，我提供了更多细节和额外的上下文。Amazon Q 最终输出了一个可运行且经过优化的代码，如下截图所示：

为方便各位读者阅读参考，我复制了由 Amazon Q Developer 优化过的完整代码如下：

# The following code counts the number of S3 Buckets in a specified region, lists the names of the S3 Buckets in that region, 
# and records the program's execution time. 
#
# Revised by Amazon Q Developer 
# Date: May 8, 2024

import time
from aws_cdk import (
    App, Stack, CfnOutput
)
import boto3
from constructs import Construct

class MyStack(Stack):
    def __init__(self, scope: Construct, construct_id: str, **kwargs) -> None:
        super().__init__(scope, construct_id, **kwargs)

        s3_client = boto3.client('s3', region_name='ap-east-1')
        response = s3_client.list_buckets()
        ap_east_1_buckets = []

        for bucket in response['Buckets']:
            bucket_region = s3_client.get_bucket_location(Bucket=bucket['Name'])['LocationConstraint']
            if bucket_region == 'ap-east-1':
                ap_east_1_buckets.append(bucket['Name'])

        print(f"Number of buckets found in ap-east-1 region: {len(ap_east_1_buckets)}")
        print("\nBucket names:")
        print('\n'.join(ap_east_1_buckets))

        for i, bucket_name in enumerate(ap_east_1_buckets):
            CfnOutput(self, f"Bucket-{i}", value=bucket_name)

def main():
    start_time = time.time()
    app = App()
    MyStack(app, "haowen-cdk-app-list-S3-demo")
    app.synth()
    end_time = time.time()
    execution_time = end_time - start_time
    print(f"\nTotal execution time: {execution_time} seconds")

if __name__ == "__main__":
    main()

在运行上述 Python 代码后，将得到以下截图所示的输出：

我们很高兴地看到：在采用 Amazon Q Developer 的优化建议后，代码运行时间从原来的 4.33 秒缩短到了 1.7 秒！

那么 Amazon Q Developer 究竟是如何优化这段代码的呢？

实际的优化过程有些波折。在获得这个最终优化并运行完美的代码之前，我和 Amazon Q Developer 其实进行了一共三轮的交互式沟通。篇幅有限，我将在下一篇博客文章中详细介绍这三轮对话沟通的精彩内容。

不过在这里，我还是可以给好奇的开发者们一些提前的剧透。让我们来看看 Amazon Q Developer 发现的主要影响程序执行效率的问题总结。

Amazon Q Developer 发现这段“遗留”代码存在的主要问题输出如下：

“Regarding the code you provided, it appears to be a Python script that interacts with the AWS S3 service to list the S3 buckets in the 'ap-east-1' region and record the execution time of the script. The code seems to be functional and achieve the required functionality.

To optimize the code for better time and memory efficiency, here are a few suggestions:

Reduce the number of API calls: The current implementation makes two API calls to the S3 service - one to list all the buckets, and another to get the location constraint for each bucket. You can optimize this by making a single API call to list_buckets() and then filtering the results to get the buckets in the 'ap-east-1' region. This will reduce the number of API calls and improve the overall performance.
Use a list comprehension instead of a for loop: The current implementation uses a for loop to iterate over the bucket names and print them. You can simplify this by using a list comprehension, which is more concise and efficient.
Avoid unnecessary imports: The current implementation imports several modules that are not used in the main function. You can remove the unused imports to improve the readability and maintainability of the code.
Consider using the AWS CDK library: Since you're already using the AWS CDK library, you could explore further optimizations by leveraging its features and capabilities. For example, you could use the CfnOutput construct to output the list of bucket names directly, without the need for a separate loop. ……”

我将在下一期的博客中详细解读 Amazon Q Developer 如上的代码优化建议，敬请期待。

总结

Amazon Q Developer 是亚马逊云科技为软件开发生命周期量身定制的前沿生成式 AI 开发助手，它能够理解亚马逊云科技架构、资源、最佳实践和文档等，并能提供有针对性和可操作的回复和响应。

这篇博客文章演示了如何在 Visual Studio Code 中，利用 Amazon Q Developer 来开发列出指定区域中 Amazon S3 存储桶的代码。文章探讨了在 Amazon Q Developer Agent 的协助下编写新代码，并将新代码与现有的低效“遗留”代码进行详细比较，以及随后通过 Amazon Q Developer 的指导优化该“遗留”代码，从而大幅减少代码执行时间。

如前所述，将旧代码转化为高性能版本并非一蹴而就。在最终实现符合我们预期的优化代码之前，我还是需要与 Amazon Q Developer 进行了三轮详细的沟通互动。如果对互动过程充满好奇，你可以关注我的下一篇博文。这个沟通互动过程其实是非常精彩且富有洞见的，敬请期待。

特别说明：本篇博文的封面图像是由 Amazon Bedrock 上的 Amazon Titan Image Generator G1 模型生成的。

文章来源：https://dev.amazoncloud.cn/column/article/664af51300cbe054da8...

在 Kubernetes 上运行 Apache Spark 进行大规模数据处理的实践

2024-05-11T22:22:35+08:00

在刚刚结束的 Kubernetes Community Day 上海站，亚马逊云科技在云原生分论坛分享的“在 Kunernets 上运行 Apache Spark 进行大规模数据处理实践”引起了现场参与者的关注。开发者告诉我们，为了充分利用 Kubernetes 的高可用设计、弹性，在越来越多的应用场景中，他们选择从 Yarn 迁移到 Kubernetes 中运行 Spark 负载。我们认为，Amazon EKS 作为成熟的托管 Kubernetes 平台，是客户运行 Spark 负载的理想选择，我们的分享围绕在 Amazon EKS 上运行 Spark 负载的最佳实践展开，包括：计算和基础设施、弹性扩展、存储、健壮性和灾备以及可观测性等五个方面的内容。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

Amazon EKS 上运行 Spark 负载的最佳实践

一、计算和基础设施

计算和基础设施涵盖了 Spot、Graviton、应用开发语言、操作系统等方面的最佳实践介绍。

1. 尝试采用 ARM 架构和 Spot

通过选择将 Spark 运行在 arm 架构上，可获得高达 58% 的性价比优势【1】，同时，也建议客户通过多架构的方式，提升系统可靠性。降本增效的核心在于怎样以最低的成本获得更快的计算结果，充分利用 Spot 可为降本提供基础，同时，必须处理好 Spot 中断，以提升系统的健壮性。

2. 采用容器化操作系统

降低运维成本和提高敏捷性
容器作为不可变基础设施，具有快速创建、快速销毁、大规模等特点。Spark workload 需要一个什么样的操作系统呢？亚马逊云科技在 2020 年推出的开源容器化操作系统 Bottlerocket【2】，很好地满足了 Spark workload 的要求。

最小化。只包括运行容器所必需的包、不可变、启动速度快。
原子更新。基于 image 进行更新，避免传统操作系统更新遇到的失联、rpm 包更新慢等问题，同时，在升级遇到问题时，可快速回滚到上一个版本中，也支持通过 Operator 方式进行批量管理。
安全。默认开启 SELinux 策略、只读根文件系统、无 Linux 包管理工具，为 Spark workload 保驾护航。

同时，如果 Spark pod 镜像太大的话，可以考虑将镜像缓存到 EC2 镜像中，或者采用 Bottlerocket 的方式进行缓存，进一步节省镜像拉取时间。

3. JDK 版本的选择

从 JDK 版本来看，JDK8U91 才能更好地兼容容器，如果开启了 cgroup v2，则建议使用 jdk8u372，jdk8u372, 11.0.16, 15 或者以上的版本。而不同 JDK 版本下，SPECjbb 的表现也是不一样的。我们看到相对较高的 JDK 版本，其性能也会比较好。建议根据实际的场景，适时升级 JDK 的版本以获取较好的性能。

二、弹性扩展

1. Karpenter 开源高效 Node 弹性扩展工具

Spark workload 在某些场景下对 Pod 启动 Latency 有一定的要求，同时，Spark 具有瞬时启动几百甚至几千 Pod 的情况。那么，如何能够快速响应 Spark 弹性扩展的需求呢？

亚马逊云科技于 2021 年开源了 Node 弹性扩展 Karpenter【3】，其具有配置简单、扩展速度快、成本优化策略等特点，是客户运行 Data workload 理想的弹性扩展工具。同时，Karpenter 内置 bin-packing、fallback 等策略，简化客户在使用 Spot、Graviton 等基础设施的配置工作。

从性能上来看，根据社区测试数据，Karpenter 在大规模下具有明显优势，建议大家在 Amazon EKS 上运行 Spark workloads 时，可以考虑选择 Karpenter 作为 node 弹性扩展工具。

2. 继续使用 Cluster Autoscaler

如果因为其他原因，您还是继续想使用 Cluster Autoscaler，建议可以考虑将不同业务域的作业划归到不同的 namespace 中，避免出现只有一个 namespace 运行所有作业的情况。同时，可以每个 namespace 中运行一个 Cluster Autoscaler，防止出现 Cluster Autoscaler 没有及时缩容的问题。

3. 弹性扩展的其他最佳实践

避免使用过多的反亲和性规则。
按照业务域划分 namespace 或者集群。
根据规模大小，注意 Prometheus 等其他系统 Pod 的扩展问题。
适时对集群进行压测，了解系统上限。

三、健壮性和灾备

我们需要在规划 Spark on Kubernetes 时，考虑 Spark 的灾备策略等问题。

在规划 VPC 时，需要根据业务负载进行长期规划，防止出现因 IP 地址耗尽，而出现计算停滞的情况。同时，在生产集群中，将重要的系统 controller 放置到托管节点组或者 Fargate 中，避免 Spark Pod 和系统 Pod 相互干扰。

同时，我们建议在规划集群时，同步规划测试集群和生产集群，方便在测试集群中相关验证。另外，可以通过多个集群实现 DR 设计，或者按照业务域规划集群，实现集群层面的业务隔离和计费统计。每个集群应该具有独立的 VPC、安全组、IAM 等，防止集群之间相互影响。

四、可观性

1. SLI/SLO 建设的必要性

Spark on Kubernetes，某些指标非常关键，比如 Pod Startup Latency 以及其他关键性指标。用户可以针对不同的作业，设置告警服务。建议大家可以参考社区 SLI/SLO【3】，进行 Spark 可观测性构建。

通过 SLI/SLO，我们可以深入了解相关 Spark 作业的健康状况，比如作业重算的情况、CPU/Memory 等基础指标。这些指标对 Spark 作业而言很重要，有时候虽然超售可以运行更多的 Pod，但是，过分的超售对 Spark 作业而言并不好，而可观测性可以帮助我们了解 Spark 作业，做到从容有度。

2. Spark History Server

可统一配置 S3 bucket 作为 history server 存储，进行统一集中管理。

3. 成本可视化

我们在对 Spark 集群进行成本优化时，需要知道成本的构成，只有清楚了解成本的构成，才可能有针对性的进行成本优化，这往往是大家忽略的一点。所以，成本可视化是成本优化的前提。

在成本可视化上，一方面可以通过亚马逊云科技的服务，比如 Cost Explorer，进行成本可视化；另外一方面，可以借助类似于 kubecost【4】等开源项目进行。在 Kubecost 中，可以按照 namespace 纬度进行成本统计，同时，kubecost 也会给出成本优化建议，比如 right sizing 等。

在实际的生产中，有一些客户会尝试自己实现计费逻辑，比如借助 Kubernetes informers 统计相关 pod 信息。而我们在实现相关逻辑时，需要防止因代码逻辑而产生的计费偏差等问题。

五、存储

Spark Shuffle 存储的选项有很多种，比如使用本地磁盘 NVMe/SSD 的方式，以及使用外挂块存储（如 Amazon EBS），以及使用 Remote Shuffle Service 等方式进行。

1. Spark PVC reuse

Spark 运行过程中会通过 Shuffle 的方式来交换数据，Map 阶段会先将数据写到本地，然后 Reduce 阶段读取 Map 阶段产生的数据。当 Spark 运行在 Spot 实例上时，Spot 回收会导致 Map 阶段产生的数据丢失，当 Reduce 阶段读取数据时，Spark 需要重启 Map 阶段的计算，重新计算丢失的数据。据此，在 Spark 3.2 中引入了 PVC reuse 功能 [SPARK-35593] ，把 shuffle 数据保存到 PV 里，当 Spot 被回收时，可以通过复用 PVC 来恢复 Shuffle 数据，从而避免数据重算。在某些客户的实践中，整体成本降低了 39%【5】。

2. 块设备 EBS 的最佳实践

当运行大规模的 Spark 作业时，我们需要运行许多 Spark Executor Pod，每个 Pod 都需要一个独立的 PVC 用于 shuffle。有时并行创建或删除速度可能会受到 CSI API 的限制，我们可以增加 CSI 的以下值以提高效率，但下述配置并不是一步到位的，需要根据规模进行调整。

3. 存储类型的选择

根据自身业务对 IO 的要求，建议选择合适的存储，比如块设备相对于本地存储（instance store）来说具有很好的持久性，但性能可能比本地存储要低。另外，也可以考虑使用高性能共享文件系统或者 Remote Shuffle Service 来满足 shuffle 的要求。使用本地存储时，需要对一些系统目录，比如 /var/lib/kubelet 等创建单独分区并与 shuffle 盘分开。在生产环境中，我们需要建立对磁盘指标的告警机制，防止出现因异常磁盘 IO 带来的影响。

总结

Amazon EKS 是运行 Spark 负载的理想平台，这得益于亚马逊云科技的基础设施和服务广度，得益于亚马逊云科技在开源方面的投入。借助 Bottleorocket、Spot、Graviton，客户获得了性价比的提升，能够将更多精力放在自身业务上，而不是繁重的系统运维和调优上。以上就是本次分享的全部内容，希望能对大家有所帮助。