——原生ANN引擎,QPS飙升数十倍,成本新低,开发体验「真香」!

开通入口>>https://www.aliyun.com/product/es/es-serverless

随着生成式AI与实时数据分析需求激增,开发者亟需兼顾高性能、低成本且免运维的检索服务。阿里云 Elasticsearch Serverless 基于官方8.17版本,深度融合无服务器架构与分层扩展能力,面向信息检索、向量搜索、语义分析等通用场景,提供全托管服务。

一、Serverless服务简介

阿里云 Elasticsearch Serverless 采用读写分离架构与智能资源调度策略,自动监控 CPU、内存、网络等关键指标,动态调整计算资源,消除手动扩缩容与集群配置负担,是企业轻量化搭建搜索应用的高性价比选择。

与2024年7月发布的检索通用型7.10版本相比,本次推出的检索增强型8.17版本在最新特性扩展、自动扩缩性能、资源成本优化三大维度实现全面跃升。本文将深度解析该版本通过工程优化带来的核心能力升级。

升级一:向量检索性能飞跃

基于 Elasticsearch 8.17 版,发布最新向量能力,实现检索性能、开发体验的跨越式升级

  • 高效 KNN 检索:相较于7.10版依赖 script_score 自定义脚本进行暴力检索,8.17版原生支持高效的 KNN 检索,查询速度实现了质的飞跃。
  • 资源优化:在高召回的同时,默认int8量化能力将内存占用降低75% ,bbq 量化进一步降低资源消耗。同等资源下,百万级向量检索 QPS 提升数十倍。
  • 灵活组合查询:8.17版原生支持 knn 向量查询与传统 query 子句的灵活组合,并结合 RRF(Reciprocal Rank Fusion)实现多元召回结果的智能融合与统一排名,显著提升复杂场景下的搜索相关性与用户体验。

升级二:智能化弹性调度架构

全面升级智能化弹性调度架构,保障服务稳定的同时1秒内资源拓展到位,扩缩更丝滑

ES Serverless 服务底层采用弹性架构,基于应用 CU 等水位观测,高效调度底层机器资源,实现低成本承接高用量的业务效果。相比检索通用型(7.10版)应用,检索增强型(8.17版)不但大幅缩短了弹性响应时效,同时放开了低峰期突增流量限流的限制

真实案例对比:

  • A场景-流量逐渐稳定增长:8.17版能够瞬时响应并正常承接增加的用户请求量,几乎没有触发限流;整体 RT 平稳度和耗时更有优势,扩容期间服务稳定、性能有保障。
  • B场景-流量瞬时突增:8.17版能够稳定承接流量突增,而7.10版需要一定时间缓冲,初期成功率较低。8.17版在整体RT平稳度、稳定性与无感扩容体验上更优。

如下图,某真实电商网站在下午 18:00-21:00时间段开展品类大促活动,搜索流量能达到平时的3倍,并且会有突增 6 倍的秒杀活动,本文将模拟【A场景-流量逐渐稳定增长】与【B场景-流量瞬时突增】两种不同趋势,对比分析检索通用型(7.10版)应用与检索增强型(8.17版)应用的体验差异(下文简称为7.10应用、8.17应用)。

A-场景流量逐渐稳定增长:三小时流量分别是一小时稳定增流,一小时稳定高峰,一小时稳定减流。其中高峰为低峰的 3 倍流量。

深度解读:

稳定承接增加的用户请求量

  • 7.10 应用受限于弹性机制的限制。在启动增压时,若增压过程较快(如上),会出现因弹性反应时间过长导致的限流;
  • 8.17 应用完成了瞬时响应,正常承接了增加的用户请求量,没有触发限流。具体可见:失败请求数统计图表。

扩容期间服务稳定、性能有保障

  • 8.17 应用较 7.10 应用在整体 RT 平稳度、RT 耗时上都更有优势,可见流量增长过程中 8.17 的 RT/took 都很稳定。具体可见:平均 RT 统计图表。
  • 8.17 应用与 7.10 应用均表现出优秀的稳定性体验,8.17应用扩容更加无感、几乎未出现重试操作。具体可见:成功率、重试率统计图表。

严格贴合资源调度核算计量CU

  • 在 CU 统计上,8.17 应用更线性更稳定;7.10 应用在初期弹性和高峰期会有波动。具体可见:消耗CU、应用请求 QPS、总请求数统计图表。

B场景-流量瞬时突增低峰期流量突增 6 倍场景

深度解读:

稳定承接增加的用户请求量

  • 8.17 应用能够稳定承接流量突增;较「A-流量逐渐稳定增长」, 该 case 更可见 7.10 应用受限于弹性机制的限制需要一定的时间缓冲。在刚突增时,成功率维持在 42%左右,7 分钟后恢复至 95%以上;下一区间的七分钟后整体恢复。具体可见:消耗 CU、应用请求 QPS、总请求数统计图表。

Tips:使用8.17应用时,需保证突增后的流量在 CU 上限以下,CU上限默认取值为固定CU额度的3倍,可根据流量情况选择合适的固定CU额度配置。7.10应用在突增初期 QPS 更高是因为客户端重试机制在限流时触发了重试,在弹性完成后恢复正常。

扩容期间服务稳定、性能有保障

  • 8.17 应用较 7.10 应用在整体 RT 平稳度、RT 耗时上都更有优势,可见流量增长过程中 8.17 的 RT/took 都很稳定。具体可见:平均 RT 统计图表。
  • 8.17 应用较 7.10 应用在稳定性与无感扩容体验更优,始终保持更优的成功率与重试率。具体可见:成功率、重试率统计图表。

严格贴合资源调度核算计量CU

  • 在 CU 统计上,8.17 应用由于完成了秒级响应,贴合实际应用请求 QPS 调度资源;7.10 应用也根据实际调度情况统计出计量 CU,但在初期弹性和高峰期会有波动,8.17 应用更线性更稳定。具体可见:消耗 CU、应用请求 QPS、总请求数统计图表。

Tips:如果您已经使用了7.10应用,因版本或排期限制暂无计划使用8.17应用,针对周期性流量场景,您可通过工单形式提交分时弹性需求,为您的应用开启分时弹性功能后,将追平8.17应用的弹性响应效果。

最终对比结论:综上所述,8.17 应用弹性扩容性能提升明显,可做到无感升配,能有效承接突增、平稳趋势下的流量增长,提供流畅、稳定的服务体验。

升级三:资源成本优化

通过预留+弹性 CU 模式灵活调度资源,CU 单价再调低,资源成本再优化

为进一步优化资源成本,提升资源扩缩体验。检索通用型8.17版采用了预留固定 CU 配额+按需使用的弹性 CU 用量收费的模式,预留固定 CU 的单价调整至更低。

综上所述,阿里云 Elasticsearch Serverless 8.17 版在向量检索性能、智能化弹性调度架构及资源成本优化方面实现了全面升级,为开发者提供了高性能、低成本且免运维的检索服务解决方案。

二、使用指南

公测说明

检索增强型应用(8.17版)_检索分析服务 Elasticsearch版(ES)-阿里云帮助中心

检索增强型应用(8.17版)于2025年4月25日起已陆续在华东2(上海)、华北2(北京)、华南1(深圳)、华东1(杭州)地域开启公测,在此期间,您无需申请即可免费试用。预计公测将于2025年6月16日结束,届时,使用服务将按照相关计费项收取相应费用

三、开通检索增强型应用(8.17版)

步骤一、开通服务

第一次使用ES Serverless服务时,需要进行服务开通。

  1. 登录Elasticsearch Serverless服务控制台
  2. ES Serverless 服务页面,单击 立即开通
  3. 进入服务开通页面,选中服务协议,单击立即开通

步骤二、创建应用

1.进入创建Serverless应用的页面,选择创建实例的区域。

  1. 单击应用管理
  2. 进入应用管理页面,单击创建应用,配置应用的基本信息。

(示例)本示例选择应用选型为检索增强型(8.17版),其他参数保持默认或自定义。

  1. 配置应用的访问设置。

a. (示例)本示例选择网络访问方式公网访问,在公网访问白名单中添加本地设备的IP地址,以便使用本地设备访问 Serverless 应用的 Kibana 配置应用公网访问私网访问,请参见配置Serverless应用公网或私网访问

b. 输入用户密码,登录时需要。

  1. 单击立即创建

您可以在应用管理页面查看已创建的应用列表。请等待应用状态变为运行中,这表示应用已成功创建。随后,您可以根据个人需求,尝试体验更多功能。

四、产品答疑&用户支持

有任何疑问都可以在评论区留言!

开通入口>> https://www.aliyun.com/product/es/es-serverless



阿里云大数据AI
12 声望12 粉丝

分享阿里云计算平台的大数据和AI方向的技术创新、实战案例、经验总结。