原创 PowerData-李奇峰 PowerData

PowerData

数据之力 非同凡想

■ ■ ■

思考  交流  贡献  共赢

  全文共  3467 字,建议阅读 10 分钟

  文章导读 / Company Nature

       数据中台建设的必要性,那肯定毋庸置疑。谁家数据量大了不建个数据中台,或者类似的数据管理平台,那他们整个数据上下游的团队,指定没有好果汁吃。

但是你要说数据中台好用吗,那真不一定,应该如何去优化呢,正好最近DeepSeek这么火,看看怎么通过DeepSeek来拯救数据中台逐渐没落的颓势。

注:文章通过DeepSeek指代大模型,蹭一下人家的流量(手动狗头)

     作者:PowerData-李奇峰|编辑:PowerData-李钊

Chapter

01

  数据中台发展现状

近两年数据中台的发展貌似有些后继无力,没有了前两年大量的讨论与争议,有的只是国内各厂商的默默落地,负重前行。

数据中台真的没落了吗,以艾瑞咨询发布的《2024年中国数据中台行业研究报告》来看,21-24年数据中台的市场增长率大幅降低,但是这两年大模型以及数据要素的快速发展,对于数据质量、管理的需求,一定程度上会推动数据中台的企业落地,所以未来市场增长率将会呈缓慢上升状态。

在数据中台的"冷静"发展期,借助大模型的东风【任何应用都值得用大模型重新改造】,我们需要好好思考一下数据中台的优化改进。

Chapter

02

  数据中台简介

什么是中台

中台是将系统的通用化能力进行打包整合,通过接口的形式赋能到外部系统,从而达到快速支持业务发展的目的。

从技术角度,中台是为了搭建一个灵活快速应对变化的架构,可以快速实现前端提的需求,避免重复建设,这也是符合敏捷开发理念。

数据中台的定义

数据中台的作用

  • 指导数据化整体规划
  • 数据中台汇聚全域数据
  • 数据中台检验数据质量
  • 数据中台提供数据对外服务
  • 数据中台支持数据应用高效 、低成本落地

数据中台的内核就是OneData理论,统一的数据规范,统一的数据模型,统一的数据服务,做到以上三点也就达到了整合企业全域数据、提升数据质量、使数据服务化、服务价值化、价值资产化。

Chapter

03

  数据中台落地难点梳理

既然要优化,那肯定是针对落地过程中的难点进行对症解决,根据我开发数据中台的经验,以及在收集用户需求的过程中来看,数据中台的落地难点一共三类

滴:这里讲的是落地,特指数据中台开发完成后的推广与使用,至于前期的业务调研以及开发层面的难点,暂不讨论。

数据中台的运营投入不足

很多技术人认为产品的开发侧重于功能的实现投入,其实不然,一款好用的产品,不仅是前期的调研、功能的设计、技术的实现,在产品落地层面的运营也至关重要,主要包括:产品使用文档、用户培训、技术支持与问题反馈、使用场景的拓展、功能的持续优化。

目前很多数据中台产品,技术思维过重,侧重于技术->产品,忽略了产品->用户的环节。总结一句话就是:东西虽好,但是离用户太远了。

数据治理与可信度

之前遇到过一个比较无语的事儿,业务部门用了中台的数据作为参考,进行了公司资产的投放,然后发现此资产的投入产出比相较于其他资产有断崖式的下跌。最后排查发现是由于此数据的清洗规则不小心给取消了,某些异常数据未被过滤。导致业务部门追责到数据团队...

上面讲的是数据质量的问题,同时数据标注与梳理,也需要投入大量的人力去进行数据物理存储与业务语义的映射、数据分类分级、数据口径的收集与统一等等。

数据中台作为数据服务方,数据治理的好坏直接导致了用户对产品的使用信心。

产品使用门槛较高

下图是某款数据中台产品的主数据建模的功能页面,说实话,我要是用户,数据和功能都那么多,一上手绝对一脸懵。

智能化程度不足

数据中台是数据最充沛的地方,现在这个时代,数据代表的是啥,是智能。但是绝大部分数据中台还是按照后台管理系统的思路去开发,过于普通。

智能化不足其实和产品使用门槛高说的是同一件事儿,需要解决的都是用户的使用成本与使用体验的问题。

价值衡量较难,不利于长期投入

数据中台离业务还是太远了,出的成果也都是技术成果,不像人家业务团队,都是实打实的GMV。而且作为业务支撑系统,就算是为业务提升做了贡献,目前也没有很明确的数据->业务提升的成果核算方式,全屏主观争取。

就算现在有了数据资产入表可以作为数据中台团队的直接效益, 数据资产入表的投入产出比,也比公司主营业务要低得多,最重要的是目前也无法快速进行变现。

Chapter

04

 DeepSeek优化方向

针对上述数据中台的落地难点,我们来看看如何通过DeepSeek(大模型)来进行针对性的优化。

自然语言交互,降低使用门槛

PART.01

   产品使用问答

这个就很直接,将当前产品团队对于中台的文档积累,通过 ollama + DeepSeek R1 离线部署 + ragflow 进行内部知识库的搭建,后续用户的使用问题可先在知识库进行检索解决。同时中台团队也可以根据知识库的使用反馈对文档进行补齐。

PART.02

   自然语言检索

数据人的终极梦想,NL2SQL,一句话直接进行数据检索,甚至直接生成图表。这块现在github有现成的开源工具Chat2DB,大家可以先体验一下。看一下SQL语句生成的准确性以及使用的复杂程度。后续可以考虑将此能力集成至中台内。

数据智能治理,构建可信数据基石

PART.01

  数据质量提升

数据质量强依赖于规则,例如数据不重复、id不为空、数据阈值范围,都有着固定的要求和格式。同时数据质量的异常修复,也有着特定的算法或补全逻辑。

所以可以结合大模型,结合公司特定的数据质量规则要求以及异常数据的修复,开展自动化、智能化的数据质量检测和修复工作。

  1. 质量规则推荐:基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则
  2. 质量阈值推荐:通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。
  3. 质量异常智能修复:针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。

PART.02

  数据自动标注

针对数据中台中的数据->业务名称、业务类型、业务实体、分类分级等的标注,以及字段的业务说明,大模型对规则和文档具有强大的理解能力,非常适合处理这类任务。

将元数据信息喂到大模型中,利用大模型批量给出当前数据的业务信息说明,只要你的表名和字段名还符合命名规范,结合提示词中的公司详细业务说明,一般来说,都能给个八九不离十的内容,然后你筛一筛改一改就行了。

PART.03

  数据口径对齐

数据口径是老生常谈的问题了,在数据库表以及数据指标中,不同的业务系统以及业务场景下,同名不同义、同义不同名、口径不清晰等问题时长发生。可以通过大模型,来帮助咱们进行数据口径的对齐,主要是以下几点:

1.同名不同义:

相同字段名称在不同系统或场景下含义不同。例如,“销售额”在系统A中可能包含税费,而在系统B中不包含。

可以通过大模型分析字段的元数据(如表名、字段描述、数据样例)和业务文档,理解字段在不同上下文中的具体含义。为字段添加业务场景标签,明确其定义边界。例如,标注“销售额(含税)”和“销售额(不含税)”。基于解析结果,自动生成字段转换逻辑。

2.同义不同名:

相同业务概念在不同系统中使用不同字段名称。例如,“客户ID”可能被命名为“customer\_id”、“user\_id”、“id”。

可以利用大模型的同义词识别能力,将不同字段名称映射到统一业务概念。例如,识别“customer\_id”、“user\_id”和“id”均表示“客户ID”。自动生成字段名称对照表,记录不同系统中的字段映射关系。根据企业数据标准,推荐统一的字段命名规则,并自动生成转换脚本。

3.口径不清晰:

字段或指标的业务定义模糊,导致不同团队理解不一致。例如,“活跃用户”可能被定义为“登录用户”或“完成交易用户”。

可以通过大模型解析字段或指标的业务定义,结合行业标准和企业规范,生成清晰、标准化的口径描述。提供自然语言交互界面,业务人员可通过自然语言提问(如“活跃用户的定义是什么?”),系统自动返回口径说明。同时自动生成数据字典和指标说明书,确保口径定义透明且可追溯。

模型驱动数据资产开发

PART.01

  辅助进行数据资产评估

大模型对于规则的理解能力,也比较适合于数据资产评估,主要包括几个方面:

评估维度

描述

大模型的作用 

数据稀缺性

数据在行业内的独特性、不可替代性 

分析行业数据分布,识别稀缺数据特征

数据质量

数据的准确性、完整性、一致性、时效性

自动检测数据异常,生成质量评分

使用场景价值

数据在具体业务场景中的潜在价值 

关联业务场景,预测数据在营销、风控等领域的应用效果

合规性

数据是否符合法律法规要求(如GDPR、数据安全法等)

自动识别敏感数据,评估合规风险

成本效益

数据获取、存储、加工的成本与预期收益的对比

计算数据全生命周期成本,预测ROI

可交易性

数据在外部市场中的流通潜力

分析市场需求,评估数据在数据交易市场中的定价

结语

很久没写大模型的文章了,手生了,这次算是借着deepseek的热度,重新把大模型的知识给捡起来一点了。

其实大模型在数据中台的全生命周期,可以做的事情还有很多,比如说辅助开发人员进行功能实现,帮助产品人员进行需求的梳理和提炼,帮助领导写好汇报PPT,但是这些都是比较通用性的支撑能力,就不在文章中单独体现了。

往期精彩文章合集

【开源人物专栏】

 开源人物-禅道社区王春生:让项目管理更便捷

 开源人物—IoTDB乔嘉林:征服工业互联网数据

【技术文章专栏】

【技术实践】Doris数据查询性能解析:Explain 与 Profile 功能深度应用

【技术实践】大数据SQL优化原理与实践系列之认知篇(一)

【技术实践】推荐系统概述

【社区活动专栏】

 活动回顾 |【数字经济·城市脉动】PowerData西安开源行

 活动回顾 |【数字经济·城市脉动】PowerData 杭州开源行

 国内开源数据社区运营天团

<<<  END >>>

PowerData是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的数据开源社区。

社区整理了一份每日一题汇总及社区分享PPT,内容涵盖大数据组件、编程语言、数据结构与算法、企业真实面试题等各个领域,帮助您提升自我,成功上岸。

点击关注下方公众号,点击"加入社区",即可加入社区群,免费领取资料,报名社区活动,与社区共同成长。

图片

图片

图片


PowerData
1 声望2 粉丝

PowerData社区官方思否账号