PTS 3.0：可观测加持的下一代性能测试服务

大家好，我是来自阿里云云原生应用平台的肖长军，花名穹谷，我此次分享的主题是《可观测加持的下一代性能测试服务》。提到性能测试大家并不陌生，性能测试已成为评估系统能力、识别系统弱点、进行系统调优，验证系统稳定性等的重要手段。

我们一般进行性能测试的大概流程就是构造数据，配置场景，发起压测，出压测结果，但测试同学也清楚性能测试并不是这么简单，我们还面临着以下问题：

一、压测前的影响范围评估，如何准确地掌控压测的爆炸半径。

二、压测和业务系统的相关指标监控，分析当前系统性能。

三、如果压测不满足预期，还需要分析性能瓶颈点。

四、需要根据当前的压测结果给出可以支撑的最大容量或当前性能。这些问题是每个测试团队都需要面对的，在当前技术发展下，如何更好的解决这些问题？

针对以上挑战，我们提出性能压测可观测化能力，分别针对以上问题提出压测链路可观测：

首先，在实施压测前，先执行一次拨测，通过拨测发起一次请求来构建整个压测链路拓扑，通过链路拓扑全局来看整个压测的影响范围。
其次，性能指标可观测，获取压测链路所涉及的监控指标，自动生成压测及各业务各实例水位大盘，边压边观测。
再次，聚合压测请求各指标和链路事件，实现链路剖析和智能化分析，实现性能瓶颈可观测。
最后，通过前面提到的压测指标和各服务实例资源水位，进行梯度压测评估验证系统服务容量。构建性能压测可观测，实现从压测到数据分析。

在此之上，我们构建了性能测试 PTS 3.0 可观测加持下的下一代性能压测服务。

性能测试 PTS 3.0 平台整体架构分为七部分，从底向上来看，底层压测引擎支持自研的 PTS 引擎，同时全面兼容开源 JMeter 压测引擎，后续会支持 K6 引擎，使用户能将已配置的压测顺滑迁移到 PTS 平台。将压测指标数据写入 Prometheus 和 Logs，开放给用户用于查询，并提供 Grafana 大盘供用户调用，满足用户对数据的灵活处理需求。

在压测准备阶段，性能测试 PTS 与应用实时监控服务 ARMS 产品打通，集成 ARMS 各项功能，包含获取应用列表、调用接口、数据库调用、容器、基础设施、Trace 等数据，通过这些数据打通，简化压测配置，构建压测链路拓扑。

在压测执行阶段，压测引擎透传链路标，打通 ARMS 调用链，通过 Streaming 统一聚合处理。在压测过程中，提供各项实例指标的压测 Grafana 大盘，通过 ARMS 智能洞察和调用链分析能力实现性能瓶颈分析，在压测中可实现边压边调速。

压测结束后，自动生成详细压测报告，提供性能基线对比、全景快照。

整体压测各个阶段，都可以通过云原生大模型提供的自然语言交互来支持，满足业务上云、大促活动、规格选型等场景。通过以上能力，性能测试 PTS 3.0 具备以下特点：

应用实时监控服务 ARMS 加持下的压测全面可观测化，大语言模型加持下的压测智能化，全面拥抱开源引擎，实现压测脚本任务托管。以下分别重点来介绍这些特性：

01 压测可观测中的压测链路可视化

性能测试 PTS 与 ARMS OpenTelemetry 服务打通，接入 ARMS OT 探针后即可使用，无需额外配置。在发起压测之前，会通过拨测能力进行压测脚本测试和链路探测，能自动准确识别请求链路所经过的组件，根据拨测请求建立链路拓扑图，不会涉及正常请求所经过的链路，这样我们就可以很直观的感知压测所经过的链路，明确压测影响的范围。

02 压测数据大盘，链路各项指标全监控

性能测试 PTS 集成 Grafana 大盘，在压测过程中会根据压测链路动态生成压测数据大盘，实现链路各项指标全监控。如覆盖以下监控大盘：

业务大盘：对核心业务指标进行监控，如场景请求量、业务转化率等。
压测大盘：对压测服务指标进行监控，如 TPS、RT、成功率、异常请求数、总请求数，90/95/99 RT 等。
应用监控大盘：覆盖请求链路所涉及的应用监控指标改了，以应用为维度包含各应用实例数、请求数、错误数、RT 等指标。
容器监控大盘：容器服务监控，覆盖 API Server、Node、Pod 等核心实例组件监控，覆盖 QPS、成功率、Pod 数，资源使用率等指标。

除此之外，还有接入层 SLB 大盘、ECS 实例大盘、数据库实例大盘等。通过以上大盘，监测压测链路各实例水位和状态，可以通过此大盘边观测边调速，达到最优压测的目的。

03 性能瓶颈可观测，快速定位问题根因

性能测试遇到很多的问题是压测结果不及预期，这就需要逐步分析当前系统或整个链路的性能瓶颈点。性能测试 PTS 与应用实时监控服务 ARMS 中智能洞察能力相融合，自动化的筛选压测期间异常的事件，进入异常事件详情，可以插件此事件所涉及的接口、异常原因、完整的异常栈、异常发生次数、异常率、异常时间范围、调用链等信息，点击调用链分析，即可进入调用链详情，查看此次异常分析报告，如在以上场景中，监测到获取数据库连接超时异常事件，经过调用链分析指出异常时刻数据库连接池最大使用率 100%（最大活跃连接数/最大可用连接数）并给出建议调大连接池配置建议。通过此功能，大大提升性能分析效率，实现性能持续调优的目的。

04 系统容量可观测，自动化容量规划与验证

基于以上配置和指标数据，我们还计划推出自动化容量规划与验证。我们先看压测梯度的三个阶段：

一、是如果资源负载不高时，TPS 和资源使用率呈线性增长关系。

二、是持续加压当资源负载饱和时，随着并发量增长，TPS 趋势保持平稳，CPU 开始飙升。

三、是当资源负载满，并发量突破系统所能承载的最大容量点时，TPS 趋势及 CPU 都出现大幅波动，此时服务出现不可用的现象。

借助此容量评估方法，在压测前可配置预期的并发量，结合上述自动识别出的链路组件，同时配置各实例预期的最大资源水位阈值，逐步加压达到资源阈值，可以计算出如果达到预期流量所需要的资源实例数，进行容量规划。再进一步加压，达到资源负载极限，计算在此资源实例数下支持的最大并发量，进行容量评估。

05 支持生成式 AI，降低压测门槛

以上是通过与 ARMS 产品深度集成，实现压测全面可观测化，达到持续监控和反馈，做更深入的性能分析，优化性能问题，从而实现压测产出价值最大化。性能测试 PTS 3.0 还有与阿里云云原生大语言模型相结合，通过自然语言交互式方式实现智能化压测。

通过生成式 AI，分析性能测试指令，创建压测任务，完成脚本调试，执行压测任务。从全链路视角，查看动态图标，观测应用系统整体性能状态。针对性能瓶颈，实现问题定位，发现瓶颈根因。还可以利用大模型对压测报告进行深入分析和解读，给出压测总结等。

06 托管 JMeter 生态，发挥压测最大价值

在能力升级之外，开源开放是性能测试 PTS 一直以来的产品核心价值。目前，性能测试 PTS 支持托管 JMeter 压测引擎，平台已经具备的可观测、智能化等能力，发挥压测最大价值。

JMeter 脚本直接在性能测试 PTS 控制台页面上传即可压测，上传脚本后，平台会解析脚本，自动下载补齐所依赖的 jar 包，减少用户配置成本，从而提升压测成功率。对 JMeter 压测配置也进一步优化，提供便捷的瀑布流式配置，从上而下沉浸式配置，基础配置和可选高阶配置分开，减少用户配置理解成本，降低压测场景配置难度。前面提供到与可观测集成的能力，也在 JMeter 压测中支持，压测结束后自动生成报告，复用平台压测大盘，提供性能分析结果。在复用 JMeter 压测引擎的同时，通过平台得到更加稳定、更大规模、更具有价值的压测体验。

性能测试 PTS 持续保持开放，提供 OpenAPI，产品具备集成和被集成的能力，赋能云服务，推荐给用户适合自己的规格实例。如在函数计算产品上可通过性能测试 PTS 提供的函数性能探测获取单实例性能上限，降低并发度配置难度，给用户推荐合适的实例规格，降低函数计算使用成本。在微服务引擎 MSE 产品上，支持 Dubbo 等服务性能测试，发现服务性能问题，支持云原生网关性能测试，从而获取网关性能上限。

目前，性能测试 PTS 可从全球 22 个地域发起压测，支持百万级最大并发和千万级最大 TPS，满足实时发起全球大规模压测，服务超过全球数万家企业。

作者：肖长军（穹谷）

原文链接

本文为阿里云原创内容，未经允许不得转载。

PTS 3.0：可观测加持的下一代性能测试服务

01 压测可观测中的压测链路可视化

02 压测数据大盘，链路各项指标全监控

03 性能瓶颈可观测，快速定位问题根因

04 系统容量可观测，自动化容量规划与验证

05 支持生成式 AI，降低压测门槛

06 托管 JMeter 生态，发挥压测最大价值

数据库知识分享者

引用和评论

【瑶池数据库动手活动及话题本周精选（体验ADB、 SelectDB，参与 RDS 迁移训练营）】（4.28-5.4）

支付宝H5下载被拦截的原因排查与解决指南

JManus - 面向 Java 开发者的开源通用智能体

MCP协议重大升级，Spring AI Alibaba联合Higress发布业界首个Streamable HTTP实现方案

PAI Model Gallery 支持云上一键部署 Qwen3 全尺寸模型

阿里云 ESA 游戏行业解决方案｜安全防护、加速、低延时的技术融合

2025年3月中国数据库排行榜：PolarDB夺魁傲群雄，GoldenDB晋位入三强