在数据要素化与大模型私域部署落地的时代背景下,企业的数据运营战略正经历着前所未有的变革与升级。随着大量的异源异构数据不断积累,如何高效、精准地管理和运营企业的海量数据,成为了一大挑战。本次直播中,我们介绍了企业数据战略的新架构,以及云原生数据仓库如何打通数据运营的各种底层诉求,实现全域数据的无缝对接和高效利用。以下内容根据直播内容成稿。
企业数据战略新架构
随着信息技术的飞速发展和数据资源的日益丰富,企业对于数据的依赖和利用程度不断加深。在这一背景下,企业数据运营策略的目标正在发生变革。首先,数据要素化已上升为企业发展的重要战略方向。国家发布“数据二十条”围绕促进数据合规高效流通使用、赋能实体经济这一主线 ,以数据产权制度、流通交易制度、收益分配制度、治理制度为核心,推动企业数据资产要素化,数据资产入表和数据产品交易。在这一背景下,企业需积极将内部积累的向量化数据、文本数据、结构化与非结构化数据转化为有价值的数据资源,从而实现数据价值的创造、实现与增值。
此外,私域大模型语料数据管理成为企业面临的新挑战。大模型在提升企业内部运营效率和加强知识流通方面发挥着重要作用,但如何有效运营企业内部的语料数据成为亟待解决的问题。这涉及到对语料数据的精细管理,包括基于大模型微调的垂类模型应用,以及通过检索增强生成方式建立行业知识库等。
面对企业数据管理与运营的复杂性,如何有效地管理与运营愈发复杂的数据?如何融合各种不同类型的数据以打破跨源使用的壁垒?如何敏捷地运营数据资产,提高数据资产管理效率?以及如何应对未来的数据产品与服务交易和金融化需求?这些都是企业需要深入思考的关键问题。为了应对这些挑战,云原生数据仓库通过数据的统一融合和纳管,为我们提供了一个可行的解决方案。接下来,我们将深入探讨如何利用云原生数据仓库打通数据运营的各种底层诉求。
云原生数据仓库促使全域数据融合要想了解云原生数据仓库如何帮助企业更好地管理和运营数据资产,我们先回到分布式数据仓库的演进历史。正所谓天下之事“分久必合,合久必分”,数据平台架构从最初共享存储的存算分离,再到存算一体的分布式,最后回归到基于分布式存储的和云化的存算分离架构,每一个阶段都标志着技术的不断进步与突破。
最初的共享存储架构,受限于存储设备的吞吐能力和网络带宽,使得当多台数据库服务器同时访问共享存储时,性能瓶颈凸显。为了突破这一局限,Share-Nothing MPP架构应运而生。它将计算和存储功能耦合在一起,每台服务器既负责存储数据,也承担数据处理的任务。然而,这种架构也带来了很多问题。受限于架构原因,MPP架构的并发处理能力受限,导致系统的并发数难以大幅提升,同时集群规模也难以有效扩展。随着云原生时代的到来,存算分离架构成为新的趋势。伴随着对象存储技术的成熟和网络带宽的大幅度提升,解决了大规模数据存储和高速传输难题。对象存储具有极高的I/O吞吐量和近乎无限的扩展能力,很好地契合大数据环境的需求。与此同时,云计算技术的飞跃发展,无论是在私有云还是公有云环境下,都赋予了存算分离架构更强的生命力,带来了强大的计算能力和灵活的资源伸缩性,同时还提供了更便捷的运维与更安全的高可用能力,确保数据仓库能更有效地适应业务波动和技术挑战。
上图展示了HashData云原生数据仓库(以下简称“HashData”)的整体架构。HashData满足了所有结构化数据的分析需求,统一了传统数据仓库和数据集市,以及分析类的数据应用平台。从最底层来看,该架构可以灵活地基于私有云、公有云或本地服务器运行,显示出极强的适应性。无论用户环境如何,其核心资源——计算资源、存储资源、网络资源和安全资源,均能以资源池的形式被云原生数据库高效使用,为上层应用提供稳定且可靠的基础服务。再上一层,HashData采用了创新的存储、计算、元数据三分离的架构,有效地整合了过往分散在不同数据平台上的数据,将其整合为逻辑上的一份,存放在对象存储之中,从而显著减少了数据冗余,提高了数据利用率。同时,为了确保数据的一致性和高效访问,所有数据的元数据信息,都由专门的元数据集群进行统一管理和维护。这样一来,上层计算集群能够准确、快速地获取所需数据,极大地提升了数据处理和分析的效率。在计算层面,HashData的每个计算集群都由一组虚拟机或容器组成,形成了无状态的计算集群。每个集群能够包含多个节点,并对外提供稳定且高效的服务,用户可以通过这种架构轻松构建ODS、数据仓库、CDP等应用,并根据实际的业务需求,弹性获取资源。
在云原生框架下,HashData构建了多引擎支撑的数据处理体系,旨在融合传统数据分析和AI能力,以满足日益复杂的数据处理需求。SQL引擎,专注于为数据入仓提供高效的SQL查询能力,用户可以利用SQL语言轻松查询数据。HashML AI引擎,为了适应AI和大模型应用的需求,允许用户以Python方式进行数据训练和模型开发调优,从而更好地满足AI应用对数据处理的特殊要求。
针对非结构化数据处理难题,HashData引入Directory table这一创新技术特性,实现了对各种文档、音视频等非结构化数据的集中管理与统一处理,通过TAGS字段,对非结构化数据进行标注,可以综合管理与分析结构化与非结构化数据。
此外,HashData还引入了对向量化数据库的支持。通过HashML引擎的强大功能,非结构化数据能够被高效提取并转化为语料数据,进而实现向量化处理,并保存在内嵌的向量数据库中,为大模型的使用提供了强有力的数据支撑。补上了数据库对于大模型支撑的最后一块拼图。通过HashML、Directory Table和向量库这三大技术的综合利用,可以将数据平台与AI平台进一步的融合,演化出丰富的应用场景,例如,通过HashML将语料数据向量化保存在向量数据库中,再把向量化的数据提供给私域大模型作为RAG知识库,或者使用这些数据对大模型的微调训练,再由大模型去识别非结构化数据并自动打标签,然后把标签自动化的输入到Directory Table的TAGS字段中,从而避免了人工对于海量非结构化数据打标签的巨量工程,使海量非结构化数据基于场景化的检索和利用成为了可能。
湖仓一体架构正在逐步整合流式与批量数据处理,成为全域数据融合的关键路径。目前,流式数据处理需要数据湖提供的Flink、Spark等引擎完成,而传统数据仓库在此领域有所不足,尽管提及流批一体,实践中常为分立状态。在当前HashData湖仓一体版本中,已具备Iceberg和Hudi的连接器支持,可以打通数据湖与数据仓库的数据连接。除此以外,HashData打造了Hive auto sync组件,强化了Hive MetaStore的集成,实现实时HMS元数据同步至元数据集群,可以实现HashData对于Hive数据的直接访问与处理,从而达成了针对Hive技术栈的湖仓一体,进一步解决批量处理问题。此外,在下一版本将推出更灵活架构,用户可直接创建Iceberg或Hudi表,以实现元数据实时同步和统计信息构建,从而实现Iceberg与Hudi这种主流数据湖引擎的一致性访问,兼容了大数据生态各类计算引擎的集成,实现湖仓数据彻底融合。
云原生架构助力敏捷数据服务
在数字化浪潮的推动下,提升数据与资产运营效率成为企业亟待解决的关键问题。而云原生架构,天生适合敏捷开发流程。HashData运用云原生架构,支持利用DevOps达成敏捷数据服务,或者灰度发布等敏捷服务能力。无论用户选择何种云环境,HashData都能够部署云原生集群,通过PaaS容器化形式高效利用资源。当业务人员请求数据服务时,系统能迅速响应,并通过元数据集群实时获取结构化数据支持。开发人员则利用容器化技术部署镜像、开发框架和代码,依托计算集群和敏捷BI工具进行数据处理和分析。通过CI/CD流程和Git版本控制,将代码转化为数据服务并注册到资产账户,实现DataOps对数据资产运营的全链条支持,提升业务响应速度与资产运营效能。
云原生技术在整合企业数据资产方面发挥关键作用,无论数据本身还是由数据加工出来的模型与标签,甚至包括数据加工所用到的各种工具和框架,都是数据资产的一部分,需要进行资产管理,这些面向开发的数据资产,可以通过PaaS化达成敏捷开发与迭代能力。而面向业务使用的数据消费端,包括了各种数据服务与产品,也要进行统一的纳管,从而形成分层的数据资产治理体系。消费端的资产还需要围绕业务场景,一般情况是通过“人货场”标签化管理,围绕业务的场景化进行归类区分,便于业务快速的检索与使用相关数据产品与服务,确保数据资产“看得见,用得好,管得住”。
数据要素管理的云原生化
针对数据要素的评估确权与安全保障,HashData深入探索并采取创新方法。在涉及跨企业数据共享和合作时,安全性和有效性尤为关键。
以医联体为例,面临数据安全与跨机构合作的双重挑战。为此,我们联合高校与研究机构,设计出一套数据库平台上的可插拔安全组件方案,涵盖隐私计算、区块链及评估登记等技术,确保数据在不同实体间的安全共享与流通,还可以提供数据不出私域的数据确权与评估,一站式完成数据管理任务,显著提升效率与安全性。
数据要素管理的云原生化顺应了数字化趋势,它将企业内外数据资源汇聚、清洗、整合,转化为有价值的数据产品。这些产品经历严格评估与确权后,成为数据资产,并参与资产交易和对外服务,支撑数据资本化运作。云原生平台在该流程中起着核心作用,动态调度资源优化数据处理,提供强大计算集群支持实时数据访问,并内嵌数据确权与评估能力。通过与领先资产评估公司的合作,平台能自动生成评估报告与确权报告。此外,云原生平台的弹性特性使其能灵活应对市场需求波动,快速调整资源以保证数据服务高效供给。
应用场景
HashData云原生数据仓库凭借其卓越的性能和灵活的部署方式,已经在金融、电信、政务、能源、互联网等多个行业领域实现广泛应用。在过去的项目实践中,我们针对数据分析平台上云、数据上收集中治理、金融监管以及企业私域问答大模型等多元化场景,积累了丰富的经验和成功案例。1、数据分析平台上云,整合所有数仓和数据集市在传统企业内部,数据平台架构往往纷繁复杂,数据在不同平台间流转,处理流程冗长且效率低下。而云原生数仓能提供数据分析平台所需的全部能力,无需跨多个异构平台复制数据,大幅提升数据运营效率。
2、集团数据大集中,总部上收数据进行综合治理,提升分支机构的用数体验数据上收集中治理是近年来大型企业,尤其是国企、央企和全国跨省企业的一个重要趋势。然而,这一过程中也面临着数据一致性难以保证、资源利用率低下以及数据风险敞口多等问题。云原生技术为这些问题提供了有效的解决方案:通过整合全域数据,并为分子公司提供计算资源和相关权限,在确保数据一致性的同时,提高资源利用效率,并降低数据安全风险。
3、金融监管场景,金管局“一表通”监管报送可信数据区近年来,监管部门对各类金融机构的监管力度逐年加强。特别是经管局提出的“一表通”概念,对银行提出了更高的要求。云原生技术能够满足监管的“一表通”可信数据区建设的需求,通过不同的计算集群提供数据处理和访问分离的能力,彼此互不干扰,保障监管报送系统的准确性和稳定性;此外针对监管要主动查询明细的要求,可设置专用计算集群,按需按时提供访问,让监管无可挑剔。
4、企业内私域问答,提升内部管理效率利用云原生和向量知识库技术,整合企业内部的语料数据,构建垂直领域大模型应用。通过将历史的知识管理相关文档,把数据进行向量化转换至向量数据库,借助HashML的库内AI训练能力,然后把数据提供给开源大模型进行训练和微调,逐渐形成针对垂直领域的大模型应用,以RAG的方式接入行内的向量化知识库,供智能问答应用调用。
结语随着数据要素化战略的不断深化和私域大模型技术的持续进步,企业数据管理与运营面临着前所未有的机遇与挑战。HashData云原生数据仓库以其强大的全域数据融合能力、灵活敏捷的数据服务以及创新的数据要素管理方法,正成为企业应对这些挑战的有力工具。通过持续创新和完善,HashData将助力更多企业实现数据价值的最大化,推动数据智能的愿景实现。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。