头图

作者|白玙

在电商时代,流量已成为企业核心竞争力,秒杀、抢购等活动成为必备营销手段。自淘宝开启双十一活动,各大电商平台以及品牌主的促销活动更是如雨后春笋般不断涌现。当需要向一个庞大群体提供服务时,可用性成为电商运营&网站运维的关键,面对电商大促带来的流量浪涌,如何在应对散布全球不同地区与国家的海量用户以及流量激增的同时,保障业务稳定运行已成为企业必须解决的问题。以拥有千万注册用户的某电商举例,在大促活动期间,该企业将面对近千万不同地区的用户同时涌入,系统可用性将影响着大促的成功与否。

1.png

对电商网站而言,网站的加载缓慢或者不可用往往代表着前期的营销造势都付之一炬,这不仅仅是损失数千万元订单,更会对品牌口碑造成影响。在双 11 这种电商大促场景下,由于流量的增加,网站一旦发生可用性问题,造成的社会影响也会成倍放大。
 
因此,针对双 11 这类大促场景,不管是电商平台还是自建站都会在前期进行压测,通过压测发现系统的性能瓶颈并做出对应的容量规划。但是仅仅做压测和扩容就够了吗?远远不够,压测这种场景更多的是从商家或平台的视角评估网站的性能和容量,缺乏用户视角的性能评估手段和方法。

这样的网站优化不只是对 IaaS 层资源进行简单扩容那么简单,而是需要对整个网站浏览路径上的各环节进行优化调整。模拟全球不同地区用户的使用,如果没有仿真海量用户且模拟真实用户行为的测试工具,想预知这个复杂购物网站系统的性能、瓶颈或故障点位于何处,更像是一项不可能完成的任务。

我们以某著名大型电商网站的产品预售活动为例,我们希望在产品预约、抢购活动开始之前,对网站系统的性能进行测试,找到系统瓶颈,进而帮助系统优化,确保预约/抢购活动的顺利进行。

2.png

本次测试为全球范围的拨测测试,涉及到网站系统的店铺页、商品详情页、订单页。要对每个模块以及整个系统的性能进行测试。需要模拟大量全球不同地区的真实用户同时操作,查看页面响应时间,确保系统在不同地区用户浏览时响应及时,不会产生未知错误或者延迟影响网站用户体验。

我们借助工具对相关性能与体验指标进行收集与整合后,就要开始进行相关分析,我们以真实用户的性能与体验数据为核心,那么分析流程应与真实用户访问流程大致为:终端—网络—应用—系统。在分析的过程中,我们需要确保拥有足够的样本量,以及自身对于不同指标对用户体验影响的权重评估。其中,我们着重关注终端、网络部分。

(1)全地域可用性摸底

在大促活动前,我们会针对自己面向的市场,选择全国不同省份的重要城市不同运营商的真实用户监测点,甚至是海外城市监测点,对网站的落地页地址发起多轮网络拨测,从延时、丢包率、可用性等指标维度评估域名、 IP、API 性能情况,形成可用性整体报表,针对可用性较差地域或运营商会进行重点治理。

(2)核心路径页面用户体验评估

用户体验决定着促销活动的效果,尤其是页面的大概速度,更是直接决定着用户的去留。有研究数据表明,如果网页的打开速度在 6-8 秒,大部分访客会离开,打开速度在 12 秒,99% 的用户会离开。在大促前对用户体验的评估也是我们需要重点关注的地方。

针对于用户体验,我们前期会梳理出用户的核心浏览路径,在核心浏览路径上的页面会进行重点优化和治理。通过云拨测的浏览任务,我们会获得不同地域和运营商用户访问该页面的首屏时间、100K 时间等核心的体验指标。尤其针对整体首屏时间,要求核心浏览路径的首屏时间必须符合相应要求。

(3)DNS 解析效果评估

DNS 解析是最容易被忽略的地方,前端时间 Facebook 的教训还历历在目,所以针对 DNS 我们也会进行重点治理。通过遍布全球的 1000+ 监测点,包括真实用户监测,全天候 24 小时对目标域名发起网络请求,帮助用户监测 DNS 服务对可用性和解析性能,同时 DNS 拨测支持指定递归、迭代不同查询方式以及解析服务器,通过灵活的拨测参数配置尽可能模拟真实用户的访问。

3.png

经过定时的拨测任务,阿里云拨测可以生成不同地区的 DNS 解析用时的报表,同时针对每次拨测都清晰的列出 DNS 请求对详情,包括 A 地址、DNS 用时、DNS 解析过程等,能给帮助用户快速分析和定位 DNS 解析的问题。另外,通过配置 DNS 告警,针对于 DNS 的可用性问题和解析性能问题,也可以先于用户感知并问问题的修复争取时间,提高用户的满意度,降低经济损失。

(4)CDN 质量监测

随着网站的图片、视频内容越发丰富,为了解决不同地区、不同运营商访问速度慢的问题,非常多电商网站都在使用 CDN 服务,提高网站加载速度,降低带宽成本,增加内容可用性和冗余。选取了目标用户群体,如北美、欧洲、南美洲、东南亚等主要国家的 LastMile(真实网民)监测点,配置浏览器拨测任务,对大促网站进行拨测。

4.png

通过对拨测日志进行分析,实时了解 CDN 部署后的展示性能为多少,是否有提升台主机节点的性能情况,可用性是否稳定。目标客户是否正确命中对应主机节点,或匹配度是否合理,CDN 节点与源站同步、对元素发布是否提供到位并长期有效。并基于以上评估标准对 CDN 设置策略进行调整及优化。

每年双 11 前夕,全链路压测成为企业的必备选项,不断地通过压测发现问题进行迭代优化、全方位验证业务的稳定性,而云拨测的出现,是对全链路压测的完美补充,从用户视角全面解析大促场景下的用户体验情况,让用户能够拥有更加优质的购买体验。并且随着业务的发展不断进化,持续发挥着不可替代的作用。

关于云拨测

云拨测作为面向业务的非侵入式云原生监测产品,成为最佳的选择。通过阿里云遍布全球的服务网络,模拟真实用户行为,全天候持续监测网站及其网络、服务、API端口可用性与性能。实现页面元素级、网络请求级、网络链路级细颗粒度问题定位。丰富的监测关联项与分析模型,帮助企业及时发现与定位性能瓶颈与体验暗点,压降运营风险,提升服务体验与效能。

(一)全球监测节点覆盖

全球超过 20 万 LM,500 余个 IDC 终端监测节点,海内外 400+ 运营商以及数十万量级注册会员,确保监测规模满足日益庞大的业务规模。

(二)无需嵌码,开箱即用

零侵入式监测,只需输入 URL 并进行简单配置即可,无需研发支持。数分钟即可获得完整的网站性能数据分析报告。资源包&按量付费多种购买模式,满足运维测试需求。

(三)面向业务,预置多种分析模型

监测周期精细至分钟级别,7 大类 20 余项监测关联参数设置、支持多种主流协议,为站点和业务端口等提供 7×24 小时细颗粒度故障实时监测、告警及性能分析服务。以最终客户视角,通过地域、运营商等多维度组合分析,下钻分析单样本详情,利用丰富的指标体系与图表类型,直观定位问题、受影响范围及其根因,压降分析时间,提升运维效率。真正做到精细化监测。

(四)智能告警,精准定位

针对首屏用时、整体性能、可用性实现实时告警,丰富的告警策略设置,与阿里云告警中心深度集成,有效缩短MTTR。支持发现页面元素级错误,问题归因精准定位至单次网络请求过程,提升问题定位效率。

点击下方链接,了解更多详情!
https://www.aliyun.com/activi...


阿里云云原生
1k 声望302 粉丝