传统的指标管理平台往往面临指标数据查询复杂、分析决策门槛高等挑战,难以满足企业快速、精准决策的需求。
为了让数据分析管理更智能,袋鼠云数栈指标管理平台结合大模型完成了智能化的升级,可以给数据分析的场景提供更强大、更高效的助力。大模型凭借其强大的自然语言理解能力和泛化能力,能够精准识别用户的查询意图、分析复杂数据、并能提供分析建议,与指标平台相结合大幅降低了数据分析的技术门槛。
接下来将带领大家展示指标平台的解析其中的功能及关键技术。
功能点展示
基于大模型,我们在指标平台上开发了智能机器人,可以通过自然语言对话的方式完成指标信息检索、指标走势查询、指标数据查询和指标归因分析。
1.1 指标检索
指标管理平台中传统检索指标的方式往往依赖关键字的匹配,这在海量指标市场中快速找到目标指标将是一个挑战,关键字的方式很难理解用户的实际需求,如果关键字不准确又很难匹配到目标指标。通过与大模型和RAG技术相结合,我们实现了可以通过自然语言进行检索的功能。
1.2 指标图表展示
将数据以图表的形式展示是数据分析中常见的方式,我们可以通过大模型的自然语言理解能力,识别出用户需要图表展示的意图,并通过对应的格式样式来展现。
1.3 指标数据查询
用户对指标数据的查询需求日益复杂化,传统的SQL查询方式对非技术用户门槛较高,而基于自然语言的查询(NLQ, Natural Language Query)能大大降低使用门槛,使业务人员能够更高效地获取所需的数据。基于大模型技术的数栈指标平台已经支持通过自然语言进行数据查询的功能。
1.4 指标归因分析
当指标出现异常波动时,找出背后的原因是解决问题的关键。传统的归因分析往往依赖于人工经验和手动排查,耗时费力且容易遗漏。通过与AI大模型的结合,指标平台提供了更加智能的归因分析功能。
技术解析
2.1 指标平台元数据向量化
指标平台的元数据包括指标ID、指标名称、指标描述等等,当用户在指标平台上进行指标开发新建、更新时会触发指标信息向量化的流程。这一流程由我们的AIWorks(AI应用平台)提供的接口完成,主要包括以下几个核心步骤:
关键字段提取:从指标元数据中筛选出核心字段(指标名称、指标英文名、指标描述),确保只对最关键的信息进行向量化处理,以降低噪音,提高检索精度。
文本拼接:将选定的多个字段(指标名称、指标英文名、指标描述)通过逗号分隔符拼接成一个完整的文本。
向量化处理:利用向量模型对拼接后的文本进行向量化,将文本转换成高维向量表示,保留语义信息。
向量存储:将生成的向量数据与原始指标信息一并存入向量数据库(Vector Store),便于后续的高效检索和匹配。
2.2 指标信息召回
用户可以在指标平台输入自然语言进行指标信息查询,收到用户的查询请求后并没有直接在向量数据库中进行匹配,而是进行了Query重写的优化,这可以大大提高命中的准确率。在Query重写阶段我们定义了重写的规则,然后生成Prompt交由大模型去完成。Query重写的Prompt如下:
任务描述:你的任务是接收用户关于数据指标查询的问题输入,并将其按照中文语法规则准确地分割成独立的词汇单元。每个词汇或短语应当能够作为搜索数据中台内对应指标名称的关键字。
输入示例:过去一个月的销售额是多少?
分词要求:
- 将句子分解成可以用于搜索相关数据指标的关键词。
- 请确保保留时间相关的词汇(如“过去一个月”),因为它们对于查找正确的数据指标至关重要。
- 输出格式应为‘**, ’两个星号和逗号分隔的字符串,便于进一步处理。
输出格式示例:过去一个月,销售额
2.3 指标数据查询
我们在设计通过自然语言查询指标数据方案时并没有走NL2SQL的路线,因为NL2SQL在我们实际应用落地中存在以下挑战:
对大模型能力要求高:准确率高的NL2SQL方案通常都需要参数量比较大的大模型,如ChatGPT,参数大的模型意味着模型推理的成本大大提高。
大模型多样性:袋鼠云是一家To B的公司,未来面对的不同客户环境下的大模型具有多样性、存在性能差异。
为了解决这些问题,我们在智能指标平台中采用了NL2API(自然语言到API)的数据查询方案。方案如下:
我们的指标平台是基于维度建模的思想建设的,在平台上需要先建立好数据模型,定义各类业务需要的维度和度量,指标由时间维度 + 维度 + 指标组成。所以我们天然有了一层维度建模的语义,为NL2API奠定了基础。
为了降低大模型对SQL解析的依赖,我们基于维度建模的语义设计开发了自助取数的API接口,通过给自助取数的API接口传递指标ID、维度列表、时间范围、where过滤条件相关参数即可完成数据查询。
用户输入自然语言查询数据时,先根据用户问题匹配目标指标元信息,然后生成与大模型交互的Prompt,Prompt由用户问题+指标元信息+历史对话组成,让大模型解析出自助取数API需要指标ID、维度列表、时间范围、where过滤条件参数。指标平台根据大模型解析出来的参数进行指标数据查询展示
欢迎大家关注“数栈研习社”公众号,我们会持续更新技术开发的相关学习内容,希望能与大家多多沟通交流。对上述产品和技术感兴趣的朋友,可以点击文末的「阅读原文」申请产品试用。
《数据资产管理白皮书》下载地址:https://www.dtstack.com/resources/1073/?src=szsm
《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001/?src=szsm
《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004/?src=szsm
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szsm
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。