原创 PowerData-李奇峰 PowerData
PowerData
数据之力 非同凡想
■ ■ ■
思考 交流 贡献 共赢
○
○
全文共 3467 字,建议阅读 10 分钟
文章导读 / Company Nature
数据中台建设的必要性,那肯定毋庸置疑。谁家数据量大了不建个数据中台,或者类似的数据管理平台,那他们整个数据上下游的团队,指定没有好果汁吃。
但是你要说数据中台好用吗,那真不一定,应该如何去优化呢,正好最近DeepSeek这么火,看看怎么通过DeepSeek来拯救数据中台逐渐没落的颓势。
注:文章通过DeepSeek指代大模型,蹭一下人家的流量(手动狗头)
作者:PowerData-李奇峰|编辑:PowerData-李钊
Chapter
01
数据中台发展现状
近两年数据中台的发展貌似有些后继无力,没有了前两年大量的讨论与争议,有的只是国内各厂商的默默落地,负重前行。
数据中台真的没落了吗,以艾瑞咨询发布的《2024年中国数据中台行业研究报告》来看,21-24年数据中台的市场增长率大幅降低,但是这两年大模型以及数据要素的快速发展,对于数据质量、管理的需求,一定程度上会推动数据中台的企业落地,所以未来市场增长率将会呈缓慢上升状态。
在数据中台的"冷静"发展期,借助大模型的东风【任何应用都值得用大模型重新改造】,我们需要好好思考一下数据中台的优化改进。
Chapter
02
数据中台简介
什么是中台
中台是将系统的通用化能力进行打包整合,通过接口的形式赋能到外部系统,从而达到快速支持业务发展的目的。
从技术角度,中台是为了搭建一个灵活快速应对变化的架构,可以快速实现前端提的需求,避免重复建设,这也是符合敏捷开发理念。
数据中台的定义
数据中台的作用
- 指导数据化整体规划
- 数据中台汇聚全域数据
- 数据中台检验数据质量
- 数据中台提供数据对外服务
- 数据中台支持数据应用高效 、低成本落地
数据中台的内核就是OneData理论,统一的数据规范,统一的数据模型,统一的数据服务,做到以上三点也就达到了整合企业全域数据、提升数据质量、使数据服务化、服务价值化、价值资产化。
Chapter
03
数据中台落地难点梳理
既然要优化,那肯定是针对落地过程中的难点进行对症解决,根据我开发数据中台的经验,以及在收集用户需求的过程中来看,数据中台的落地难点一共三类
滴:这里讲的是落地,特指数据中台开发完成后的推广与使用,至于前期的业务调研以及开发层面的难点,暂不讨论。
数据中台的运营投入不足
很多技术人认为产品的开发侧重于功能的实现投入,其实不然,一款好用的产品,不仅是前期的调研、功能的设计、技术的实现,在产品落地层面的运营也至关重要,主要包括:产品使用文档、用户培训、技术支持与问题反馈、使用场景的拓展、功能的持续优化。
目前很多数据中台产品,技术思维过重,侧重于技术->产品,忽略了产品->用户的环节。总结一句话就是:东西虽好,但是离用户太远了。
数据治理与可信度
之前遇到过一个比较无语的事儿,业务部门用了中台的数据作为参考,进行了公司资产的投放,然后发现此资产的投入产出比相较于其他资产有断崖式的下跌。最后排查发现是由于此数据的清洗规则不小心给取消了,某些异常数据未被过滤。导致业务部门追责到数据团队...
上面讲的是数据质量的问题,同时数据标注与梳理,也需要投入大量的人力去进行数据物理存储与业务语义的映射、数据分类分级、数据口径的收集与统一等等。
数据中台作为数据服务方,数据治理的好坏直接导致了用户对产品的使用信心。
产品使用门槛较高
下图是某款数据中台产品的主数据建模的功能页面,说实话,我要是用户,数据和功能都那么多,一上手绝对一脸懵。
智能化程度不足
数据中台是数据最充沛的地方,现在这个时代,数据代表的是啥,是智能。但是绝大部分数据中台还是按照后台管理系统的思路去开发,过于普通。
智能化不足其实和产品使用门槛高说的是同一件事儿,需要解决的都是用户的使用成本与使用体验的问题。
价值衡量较难,不利于长期投入
数据中台离业务还是太远了,出的成果也都是技术成果,不像人家业务团队,都是实打实的GMV。而且作为业务支撑系统,就算是为业务提升做了贡献,目前也没有很明确的数据->业务提升的成果核算方式,全屏主观争取。
就算现在有了数据资产入表可以作为数据中台团队的直接效益, 数据资产入表的投入产出比,也比公司主营业务要低得多,最重要的是目前也无法快速进行变现。
Chapter
04
DeepSeek优化方向
针对上述数据中台的落地难点,我们来看看如何通过DeepSeek(大模型)来进行针对性的优化。
自然语言交互,降低使用门槛
PART.01
产品使用问答
这个就很直接,将当前产品团队对于中台的文档积累,通过 ollama + DeepSeek R1 离线部署 + ragflow 进行内部知识库的搭建,后续用户的使用问题可先在知识库进行检索解决。同时中台团队也可以根据知识库的使用反馈对文档进行补齐。
PART.02
自然语言检索
数据人的终极梦想,NL2SQL,一句话直接进行数据检索,甚至直接生成图表。这块现在github有现成的开源工具Chat2DB,大家可以先体验一下。看一下SQL语句生成的准确性以及使用的复杂程度。后续可以考虑将此能力集成至中台内。
数据智能治理,构建可信数据基石
PART.01
数据质量提升
数据质量强依赖于规则,例如数据不重复、id不为空、数据阈值范围,都有着固定的要求和格式。同时数据质量的异常修复,也有着特定的算法或补全逻辑。
所以可以结合大模型,结合公司特定的数据质量规则要求以及异常数据的修复,开展自动化、智能化的数据质量检测和修复工作。
- 质量规则推荐:基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则
- 质量阈值推荐:通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。
- 质量异常智能修复:针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。
PART.02
数据自动标注
针对数据中台中的数据->业务名称、业务类型、业务实体、分类分级等的标注,以及字段的业务说明,大模型对规则和文档具有强大的理解能力,非常适合处理这类任务。
将元数据信息喂到大模型中,利用大模型批量给出当前数据的业务信息说明,只要你的表名和字段名还符合命名规范,结合提示词中的公司详细业务说明,一般来说,都能给个八九不离十的内容,然后你筛一筛改一改就行了。
PART.03
数据口径对齐
数据口径是老生常谈的问题了,在数据库表以及数据指标中,不同的业务系统以及业务场景下,同名不同义、同义不同名、口径不清晰等问题时长发生。可以通过大模型,来帮助咱们进行数据口径的对齐,主要是以下几点:
1.同名不同义:
相同字段名称在不同系统或场景下含义不同。例如,“销售额”在系统A中可能包含税费,而在系统B中不包含。
可以通过大模型分析字段的元数据(如表名、字段描述、数据样例)和业务文档,理解字段在不同上下文中的具体含义。为字段添加业务场景标签,明确其定义边界。例如,标注“销售额(含税)”和“销售额(不含税)”。基于解析结果,自动生成字段转换逻辑。
2.同义不同名:
相同业务概念在不同系统中使用不同字段名称。例如,“客户ID”可能被命名为“customer\_id”、“user\_id”、“id”。
可以利用大模型的同义词识别能力,将不同字段名称映射到统一业务概念。例如,识别“customer\_id”、“user\_id”和“id”均表示“客户ID”。自动生成字段名称对照表,记录不同系统中的字段映射关系。根据企业数据标准,推荐统一的字段命名规则,并自动生成转换脚本。
3.口径不清晰:
字段或指标的业务定义模糊,导致不同团队理解不一致。例如,“活跃用户”可能被定义为“登录用户”或“完成交易用户”。
可以通过大模型解析字段或指标的业务定义,结合行业标准和企业规范,生成清晰、标准化的口径描述。提供自然语言交互界面,业务人员可通过自然语言提问(如“活跃用户的定义是什么?”),系统自动返回口径说明。同时自动生成数据字典和指标说明书,确保口径定义透明且可追溯。
模型驱动数据资产开发
PART.01
辅助进行数据资产评估
大模型对于规则的理解能力,也比较适合于数据资产评估,主要包括几个方面:
评估维度
描述
大模型的作用
数据稀缺性
数据在行业内的独特性、不可替代性
分析行业数据分布,识别稀缺数据特征
数据质量
数据的准确性、完整性、一致性、时效性
自动检测数据异常,生成质量评分
使用场景价值
数据在具体业务场景中的潜在价值
关联业务场景,预测数据在营销、风控等领域的应用效果
合规性
数据是否符合法律法规要求(如GDPR、数据安全法等)
自动识别敏感数据,评估合规风险
成本效益
数据获取、存储、加工的成本与预期收益的对比
计算数据全生命周期成本,预测ROI
可交易性
数据在外部市场中的流通潜力
分析市场需求,评估数据在数据交易市场中的定价
结语
很久没写大模型的文章了,手生了,这次算是借着deepseek的热度,重新把大模型的知识给捡起来一点了。
其实大模型在数据中台的全生命周期,可以做的事情还有很多,比如说辅助开发人员进行功能实现,帮助产品人员进行需求的梳理和提炼,帮助领导写好汇报PPT,但是这些都是比较通用性的支撑能力,就不在文章中单独体现了。
往期精彩文章合集
【开源人物专栏】
【技术文章专栏】
【技术实践】Doris数据查询性能解析:Explain 与 Profile 功能深度应用
【社区活动专栏】
活动回顾 |【数字经济·城市脉动】PowerData西安开源行
活动回顾 |【数字经济·城市脉动】PowerData 杭州开源行
<<< END >>>
PowerData是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的数据开源社区。
社区整理了一份每日一题汇总及社区分享PPT,内容涵盖大数据组件、编程语言、数据结构与算法、企业真实面试题等各个领域,帮助您提升自我,成功上岸。
点击关注下方公众号,点击"加入社区",即可加入社区群,免费领取资料,报名社区活动,与社区共同成长。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。