导 语
本文为数据库「拥抱Data+AI」系列连载第4篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。
本篇文章针对B站在运营场景中的痛点,深入探讨如何利用阿里云Data+AI解决方案实现智能问数服务,赋能平台用户和运营人员提升自助取数和分析能力,提高价值交付效率的同时为数据平台减负。
往期内容推荐:
《大咖说|Data+AI:企业智能化转型的核心驱动力》
《如何破解电商7大挑战?DMS+AnalyticDB助力企业智能决策》
《玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析》
《“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力》
1 公司及业务介绍
B站(Bilibili)是一个以中国年轻人为核心的文化社区和视频平台,它最初是专注于ACG(动画、漫画、游戏)及其相关领域。如今,B站已经成为中国范围内最受欢迎的视频分享网站之一,内容覆盖了动画、番剧、国创、音乐、舞蹈、游戏、科技、生活、鬼畜、娱乐、时尚等多个领域。
B站从2016年就开始与阿里云合作,双方的合作范围非常广泛,从内容的智能分发,让内容和观看需求高效匹配,到资源的弹性伸缩,满足例如全球电竞直播赛事的弹性支撑,再到全托管云原生数据仓库,轻松实现多业务线日志采集、高效的离线及实时分析、机器学习等复杂需求,挖掘数据价值。
基于双方长期的合作经验,B站在多个业务板块使用了阿里云全套解决方案,其中B站猫耳FM业务通过引入阿里云AnalyticDB MySQL湖仓版,替换原有开源离在线数据仓库,大幅降低数据仓库运维成本,并利用分时弹性能力实现资源按需伸缩,实现资源高效利用。目前,猫耳FM业务实现数据离在线处理效率从原来的 T+1 或 H+1 大幅提升至毫秒级,支撑打赏榜排名实时刷新,提升用户参与积极性,通过提高广播剧的评论/弹幕活跃度,促进用户停留时长与付费转化。
2 业务需求和挑战
随着猫耳FM整体业务的快速增长,为了进一步提升主播和平台的运营能力,猫耳FM数据平台团队推出了一系列运营工具,但在实际使用过程中面临以下需求和挑战:
- 分析门槛高。大多数主播不具备运营分析能力,也没有专业的运营团队,难以借助数据实现分析和洞察,更无法针对数据情况做出有效应对。
- 数据交付效率低。平台业务变化快,运营需求多样,数据平台团队被各种数据需求折腾得晕头转向,疲于奔命,却仍然有需求累积,无法及时满足业务侧的数据交付要求。
- 实时分析与成本的平衡。直播业务实时性分析要求高,虽然已通过AnalyticDB MySQL实现在线实时分析,但相当一部分业务分析需求无法实现实时,但这些需求如果都采用数仓承接又会导致成本较高,得不偿失。
为了应对上述挑战,猫耳FM数据团队积极探索解决方案,随着大模型的兴起,团队发现借助大模型能力实现自然语言分析,能够大幅降低分析门槛,提高数据交付效率,实现业务分析需求实时,从而满足当下的需求。但大模型在企业中的落地处于探索验证状态,同时需要底层大量基础设施的支持(大模型、算力等),无法保证ROI。因此猫耳找到阿里云瑶池数据库团队,期望借助于阿里云的Data+AI解决方案来实现自然语言分析,提升主播和平台的运营能力。
3 阿里云Data+AI解决方案
在今年9月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的Data+AI数据管理服务”(X即云原生数据库PolarDB、云原生数据仓库AnalyticDB、云原生多模数据库Lindorm等多样化的数据存储、分析、计算、AI引擎)。该平台通过OneMeta和OneOps两大创新,简化了数据管理与AI开发,实现DMS+X一站式的Data+AI全生命周期管理。在DMS+X之上,阿里云将助力企业数据以最快的速度拥抱AI,落地业务,产生价值。
猫耳FM目前核心业务数据存储在RDS和AnalyticDB MySQL中,数据管理统一通过DMS实现,因此通过对引擎AI节点扩容即可快速实现从数据开发管理到Data+AI开发管理的升级,轻松获得大模型应用的基础和服务能力。DMS+X内置了多种基于大模型构建的应用服务供用户选择使用,其中采用大小模型结合的智能问数服务能够解决猫耳FM的核心诉求。
DMS+X为企业提供开箱即用的智能问数服务,无需复杂配置即可通过自然语言获得想要的数据和报表,同时提供调优服务,能够从初始65%准确率提升至95%,满足各类问数场景(取数、数据统计、业务运营、线索分析等),猫耳FM通过智能问数服务获得以下收益:
- 大幅降低分析门槛。智能问数服务支持多轮对话,无论是主播还是平台运营人员都能够轻松获取想要的数据,并且问数服务还能根据历史知识、大模型能力结合实际数据情况提供可参考的处理方案,以及这些处理方案对应需要观测的评估指标,方便相关人员构建问数、建议、监测的运营闭环。
- 数据交付效率提升10倍。有了智能问数服务,猫耳FM数据平台的开发人员仅需结合领域和场景构建问数Agent,并根据Agent对客的服务反馈来进行知识优化提升准确性即可,无需花费过多的时间在数据准备上,业务侧仅需通过自然语言即可获得准确数据,实现数据交付效率10倍提升。
- 低成本实现实时分析。智能问数服务可跨越多个引擎,根据历史访问知识自动路由访问路径,无需数据移动即可实现实时分析,降低存储和传输成本,覆盖更多业务实时分析场景。
那么DMS+X到底是如何构建出准确性如此之高的智能问数服务的呢?接下来为您详细揭晓:
能力一:大小模型结合的智能问数服务
智能问数核心技术架构是通过大模型实现意图、语义、验证相关工作,小模型进行Copilot能力推理,结合DMS主动元数据实现自动化的知识积累,大模型保证Copilot能力下限(65%+)的同时通过小模型不断提升上限(95%+)。大小模型结合使得生成式AI的整体成本可控、延迟较低、泛化能力强的同时准确率高。
能力二:领域化的知识管理服务
DMS+X提供强大的知识管理服务,通过对历史用户操作(SQL、功能使用等)、已有知识导入、字段注释等内容进行自动化的解析生成各类知识,实现主动的知识获取,这些知识有场景和领域属性,能够供管理人员进行优化调整,并会结合实际服务情况进行自动优化,确保知识的准确性和自主维护性,领域知识库为智能问数提供强大的知识支持,冷启动效率提升5倍,知识管理成本下降90%,服务准确性提升100%。
能力三:X引擎InDB ML
阿里云瑶池数据库自带InDB ML能力,内置模型创建、模型训练、模型状态监测、模型评估和模型推理能力,实现在线数据的模型训练和推理服务,并且内置了一系列机器学习和人工智能算法,包括分类算法、回归算法和聚类算法等。数据实现就近处理,大幅提升模型服务效率和实时性,同时无需数据移动,也能够降低由此产生的存储和传输成本。
能力四:可自定义编排的LLM工作流
DMS+X托管开源大模型工具链Dify,实现生态打通,提供白屏化的大模型工作流编排,支持用户结合实际诉求对大模型应用进行优化调整,串联从用户请求到意图识别模型再实现分发至多个应用执行链路的完整流程,为智能问数提供了无限可能,比如通过智能问数查询获得数据结果后自动触发后续的监控预警操作、处置动作等。
4 总结与展望
阿里云Data+AI解决方案为B站猫耳FM实现智能问数服务,大幅降低分析门槛、数据交付效率提升10倍的同时实现低成本实时分析,赋能平台主播和运营人员实现自助取数和分析。在DMS+X 4大核心能力加持下,智能问数服务不仅实现准确率95%+,还能够降低数据存储和传输成本,并且可通过自定义编排的大模型应用实现自主优化,不断提升场景适配能力。
未来,借助阿里云Data+AI解决方案的可自定义编排的LLM工作流以及不断提供的解决方案,不仅能够实现智能问数的拓展应用(各种运营动作触发或建议提供),还能够通过大模型方案解决企业经营的各项问题,从而提升经营效率,加速企业智能化转型,为企业发展带来新的动力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。