导 语
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
相关内容推荐:《大咖说|Data+AI:企业智能化转型的核心驱动力》
行业趋势
在当今数字化浪潮汹涌澎湃的时代,电商行业正经历着深刻的变革与发展。数据(Data)与人工智能(AI)成为推动电商行业变革发展的核心力量。海量的数据中蕴含着无尽的价值与机遇,通过对大数据的深入挖掘和分析,电商企业能够精准洞察消费者需求、优化运营流程、提升决策效率。而 AI 的加入为电商领域带来了更强大的智能服务能力,同时在数据价值发现上带来无限的想象空间。
在过去几年,电商企业通过构建大数据体系实现数字化转型,然而在享受数据红利背后也发现了现有大数据架构的不足:在信息维度上主要以结构化分析为主,图片、文档等信息有待挖掘;在应用方面缺乏实时和敏捷的分析应用;在运维上多引擎组合极大增加开发和运维成本。随着技术变革,大语言模型和RAG已实现多模态分析可拓展更多信息维度,离在线一体引擎可实现了流、批处理及在线分析的场景融合。
在极需创新的当下,如何快速升级成可支撑未来3~5年业务创新的Data+AI架构?在拥有更多信息维度下,如何实现更深入和精准的数据洞察?本文将深入探讨如何利用好新的数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
技术挑战
随着在线处理、实时分析、智能化决策成为电商行业的刚需,企业技术架构在数据分析能力和AI能力构建上同时面临很多挑战:
- 数据在线重刷:业务上开放了自定义配置能力,商家修改配置后想要立马看到配置之后的数据。数据仓库引擎需要具备丰富的函数支持、事务以及复杂逻辑处理能力,能够根据配置在线重算历史数据并且对客提供分析服务。
- 实时在线分析:电商业务需要提供实时分析的同时也需要结合历史数据作对比分析,因此需要引擎提供流批一体的能力,满足实时指标、离线指标、累计指标、同环比及趋势分析等指标的加工和复杂运算。
- 成本优化:长周期数据分析对商家来说很有价值,但数据仓库引擎需要支持冷/热数据分层来控制长周期数据存储成本,同时在开发和使用上对业务是无感的。
- 稳定性提升:由于对外提供付费服务因此需要时刻保障业务的连续性。数据仓库引擎在极端情况需要保障集群性能不降级。
- 数据质量和治理:AI的应用依赖于高质量的数据,数据的“自由散漫”问题,即数据的不准确、分散性和新鲜度是制约电商行业AI落地的重要因素。
- 数据资产与AI联动:企业积累了大量数据资产,这些资产价值的释放不仅依赖数据资产与AI的相互联动(数据赋能AI,AI赋能数据),还依赖数据资产团队和AI团队间的协同,企业缺乏高效的联动机制。
- 成本、人才与组织:AI落地通常需要较高的初期投入,包括基础设施投入、人才培养投入、业务流程、组织变革等,企业需要评估AI投资回报率,实现降本增效。
阿里云 Data+AI 解决方案
在今年9月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的Data+AI数据管理服务”。该平台通过OneMeta和OneOps两大创新,简化了数据管理与AI开发,实现DMS+X一站式的Data+AI全生命周期管理。在DMS+X之上,阿里云将助力企业数据以最快的速度拥抱AI,落地业务,产生价值。
为了应对业务发展对技术的挑战,电商行业客户可以通过阿里云DMS+AnalyticDB实现 Data+AI 架构全新升级,构建AI原生的仓内智能能力,打造新一代的在线数仓。
面向 Data+AI 的数据架构升级
Zero-ETL
随着电商行业升级,业务规则配置灵活性、报表分析自助性成为刚需。传统基于ETL和离线调度加工的开发模式越发不能满足商家分析诉求。为应对日益旺盛的分析需求,阿里云瑶池旗下的云原生数据仓库AnalyticDB PostgreSQL版(以下简称ADB-PG)推出 Zero-ETL 功能,无需配置ETL任务即可实现业务数据库的增量同步,结合 ADB-PG 增量实时物化视图实现无调度的任务加工和数据重刷,提升商家分析时效性和灵活性。
实时在线分析
在过去流数据和历史数据进行关联分析的成本极高,同时在开发和运维上因为要学习两套引擎语法成本较高。ADB-PG 增量实时物化视图支持丰富语法:多表关联、嵌套子查询、窗口函数等;支持行级数据刷新和级联刷新,不需要业务上来实现数据任务的调度依赖。在Upsert下通过ADB-PG分布式直写计算节点能力加持下可达到10W+ RPS的写入吞吐。
混合负载资源隔离
集群同时存在高吞吐写入、历史数据重算、实时计算和在线分析服务需求,因此需要支持混合业务的负载。结合 ADB-PG 资源隔离能力构建了不同资源组,根据业务在不同时间段的重要性动态地分配资源,比如在早上需要保障在线分析服务和实时计算的业务连续性,在数据刷新资源时可以调低一些。在凌晨则相反,批处理加工的资源最大,同时也保留一部分资源保障KA客户的分析服务。
长周期数据归档
在过去由于成本考虑无法为客户提供两年前的历史数据分析服务,同时对于没有分区的表需要业务上手动转冷非常不方便。通过ADB-PG 实现了长周期数据的自动归档,可以支持分区级和行级(指导字段)。在使用上可以自动路由到热或冷数据,也可以通过参数控制仅访问热数据。在保障用户能够使用历史数据的同时实现存储成本优化。
满足 KA 业务
对KA用户需要有独立的资源保障,但同时也要考虑整体的计算和存储成本。对于一些批处理加工的数据,通过ADB-PG 数据互访能力实现跨实例的数据访问避免数据冗余存储,通过实时物化视图可以对中心数仓和KA 数仓上的数据进行计算,结果数据留存在卫星数仓。对于一些高频率查询的数据通过CDC增量同步到KA数仓,提供高性能的在线服务。对计算任务根据资源消耗情况进行费用分摊。
动态资源弹升
数据产品对外提供付费服务,因为需要时刻保障业务连续性。开源MPP架构产品虽然能提供高可用能力,但在计算节点依赖的宿主机发生宕机情况下会影响整个集群的性能。为了保障集群性能不降级,ADB-PG 提供了动态资源弹升的能力。
AI 场景实践探索
电商行业客户可在数据仓库之上进行AI场景化实践探索,阿里云瑶池数据库提供了智能问数和以图搜图场景的解决方案。
智能问数
在当今快速演进的商业环境中,数据已成为企业策略制定的关键资源。无论是优化决策流程还是驱动创新,对数据的精确分析和高效管理至关重要。
DMS是阿里云在2013年发布的数据管理服务,能够满足企业一站式数据管理诉求。DMS Data Copilot是DMS基于阿里云大模型构建的数据智能助手,支持用户通过自然语言的方式生成并优化SQL,降低SQL编写门槛,提升开发效率。
企业内的数据团队需要为商家研发数据智能产品,并对内部的产品运营团队提供数据分析支持。大量的数据报表并不能完全满足商家,运营和产品的需求,在繁重的开发工作之外还需要频频应对各方的取数需求,这些临时的需求并不足以建设报表来满足,诸如此类的问题每天都在发生,为数据研发工作带来不小的挑战。
DMS Copilot解决方案可以满足各方灵活取数需求,以自然语言交互方式获取数据,只需提出问题即可获得所需结果,还支持一键生成图表,查看数据变化趋势。
对内部提升数据报表开发效率。以一个场景为例,需求方要基于销售大区和合同版本维度统计近7天访问"全局概览"页面的TOP3商家类目。只需输入这段文本需求 DMS Copilot即可生成相应的SQL代码。根据用户的个性化需求Copilot还给出了历史知识库引用进一步提升回答准确度。
对内部提升数据报表开发效率。以一个场景为例,需求方要基于销售大区和合同版本维度统计近7天访问"全局概览"页面的TOP3商家类目。只需输入这段文本需求 DMS Copilot即可生成相应的SQL代码。根据用户的个性化需求Copilot还给出了历史知识库引用进一步提升回答准确度。
以图搜图
基于 ADB-PG 一站式RAG的OpenAPI构建图片上传、向量化 (Embedding)、图片检索完整链路,三天即可完成整个图搜技术底座的搭建和优化,对客提供同源货品推荐服务。
总结与展望
针对电商行业痛点,阿里云瑶池数据库提供完整的 Data+AI 解决方案及落地最佳实践,针对七大挑战提供了创新的技术方案。利用 DMS+AnalyticDB 同时满足数据在线处理、实时分析和智能化AI实践,大大降低了企业开发和运维成本。
Data+AI为企业提供了增长的新途径,企业必须认识到Data+AI的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市场领导地位,迎接新的机会。电商行业客户进行面向Data+AI的升级和转型,对外提供AI原生能力,能让AI的开发和应用更普惠。通过循序渐进地探索和落地,期待未来能在电商产品上实现全面智能化。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。