金融行业数据平台的技术演进是一个复杂且持续发展的过程,主要经历了数据库、数据仓库、数据湖以及湖仓一体四个阶段,并在近年来随着AI大模型的兴起而进一步发展。
1. 数仓与数据湖的发展
数据仓库(数仓)是早期的数据管理架构,主要面向结构化数据的存储和分析。由于数据仓库的容量有限,在应用过程中容易产生数据孤岛。对于数据规模较为庞大的企业来说,若完全依赖于数据仓库,通常要面对不小的成本。
数据湖则在数仓的基础上发展而来,专注于非结构化数据的存储和处理,现代化的数据湖具有统一的数据存储,可以大批量地进行导入。但是,数据湖在数据分析性能、数据管理与治理方面也存在不足。
随着技术的不断更迭,数据仓库与数据湖的能力呈现明显的融合趋势,开辟出了一条湖仓一体的发展路线。湖仓一体技术结合了数据湖和数据仓库的优势,形成一种更强大、灵活且易于管理的数据管理架构,逐渐成为当代大数据平台的事实标准。
2. 为什么越来越多的金融企业选择湖仓架构?
回答这个问题,需要回到金融行业数据特点结合着看,这其中不乏外因(技术与政策发展)和内因(业务场景变化)相互作用影响,金融行业数据特点具体如下:
1.数据种类多样、数据量增长迅速
随着5G、物联网、云计算、人工智能等新技术的发展,金融机构不再局限于线下的网点或设备服务,而是通过业务流程再造实现更加实时的业务,这一变革伴随而来的就是数据种类的增长。当前,金融机构所涉及数据类型包括:
结构化数据:主要来自银行交易、保险保单;
半结构化数据:主要包括用户行为数据、日志文件数据,通常以JSON或XML格式存在;
非结构化数据:主要包括文本、图像、音频和视频等;
金融行业每天产生的数据量巨大,并且随着业务的扩展和技术的发展,数据量在迅速增长。以银行业务为例,用户的在线交易、移动支付、财富管理等都产生了大量的数据。
2.业务场景复杂、数据时效性要求高
上述各个业务发展到一定规模时,业务交互所产生的数据不仅需要被有效存储,还需要快速清洗、处理,从而为前端实时应用提供保障,例如业务的事前预测、事中决策和事后分析等环节。复杂的业务场景,也要求着数据的管理必须适应多变的业务需求。
基于上述的数据特点,要求金融机构具备更强大、灵活的数据管理架构,而湖仓一体作为则为金融行业提供了新的选择。
3. 金融湖仓架构建设的关键技术
金融行业需要引入更先进的技术来获取和处理实时数据,包括引入新的数据库技术栈来实现数据的实时捕获、更新、处理和应用。
1.数据存储技术:可以使用分布式文件系统如Hadoop分布式文件系统(HDFS)来存储大规模数据集,同时,为了解决Hadoop在某些方面的局限性,包括Iceberg、Hudi和Paimon在内的多种数据表格式和数据管理系统也正在被更多企业选择。
2.数据处理与查询引擎:需要支持从不同业务系统中,提取数据源并加工流转到湖仓。同时,需要高性能的查询引擎如支持SQL查询和数据分析,在数据湖上执行分析,提供快速的数据访问和分析效率。
以开源产品StarRocks为例,StarRocks采用了开放的lakehouse架构,所有数据统一录入到湖中,再按需供业务端进行数仓的应用建设,湖与仓充分融合并共享一份数据,彼此互联互通,同时,该架构能兼顾成本和性能,同时在资源扩展上也能达到弹性的效果。
另外在湖仓建设过程中,数据的质量和安全是金融机构需要重点关注的。镜舟科技基于StarRocks开发的湖仓分析引擎,在数据安全与权限管理上提供企业级支持,包括多种安全认证、数据加密、鉴权与访问控制、审计追踪等安全保障能力,满足金融行业客户对数据安全的需求。
4. 湖仓与大模型
随着AI大模型的突飞猛进,金融行业从传统的机器学习数据挖掘转变为AI大模型体系,面对着越来越多的非结构化数据挑战。这要求湖仓一体架构能够支持更复杂的AI计算需求,如SQL查询、机器学习和图分析等。
StarRocks for LLM:助力智能数据处理
•高效向量搜索:通过支持余弦和欧式距离,实现高性能的向量搜索,帮助企业在大数据中快速找到相关信息。
•集成Langchain:与Langchain无缝集成,StarRocks作为高效向量引擎,助力企业快速实现基于检索增强生成(RAG)的应用。
•先进算法支持:采用HNSW和IVFPQ算法,支持范围搜索和标量过滤,确保数据检索的准确性和效率。
•卓越性价比:整体性能提升10倍,单机可处理百万数据集,50个并发请求响应时间保持在20毫秒以内。
LLM for StarRocks:降低数据使用门槛
•智能报表生成:通过自然语言处理(NLP)技术,自动生成SQL报表,结合AI和SQL,显著提升开发效率。
•降低使用门槛:结合大模型,提供类似ChatBI的交互式业务探查功能,使业务人员无需专业技术背景即可高效使用数据。
•广泛兼容性:StarRocks可以与Vanna、DBGPT等框架融合,进一步扩展其应用场景和功能。
StarRocks 结合自动化报表生成和智能业务探查功能,能显著降低企业开发和数据使用的门槛,提升整体运营效率。同时通过高效的数据处理能力和搜索能力,增强业务决策的速度和准确性。StarRocks与大模型也还在探索更多碰撞和融合,帮助企业在提升性能的同时,带来显著的成本效益降低。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。