原创 董吉甫 开源社KAIYUANSHE
PowerData 数字经济·城市开源行·南京分享活动已于2024年6月15日下午在国浩律师事务所圆满谢幕。此次活动,主要以大数据前沿技术展开分享,汇集了华为、字节跳动、雨润集团等企业在处理数据业务过程中的经验分享。此外,以张小丰律师分享的“数据资产入表实践探索”,通过在法律角度与数字经济的对话升华了总个会场,令大家受益匪浅。
李立伟:iceberg 在华为终端云的实践经验及探索
在解读李立伟老师(华为资深工程师)的分享内容之前,为方便小白理解,大家先需知道一个概念:也就是我们经常听到的大数据,到底什么是大数据,大数据的存储结构又包含了哪些?
经科普中国·科学百科认证,大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特点在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据存储架构包含:数据仓库、数据集市、数据湖、数据网格、湖仓一体(技术名词这里不一一述说,感兴趣的同学可网上查阅相关资料理解)。
李立伟老师这次分享的 iceberg 正是属于数据湖范畴,数据湖是一个存储大规模、多样化数据的组织方法,可以存储结构化 、 非结构化和半结构化的数据,是一个大型、灵活的数据存储仓库,可以将企业的所有数据源整合起来。
随着大数据技术的不断演进,企业面临着前所未有的数据存储和分析挑战。数据湖,作为一种能够存储和管理海量数据的解决方案,已经成为企业构建大数据架构的关键组件。然如何在数据湖中高效地存储、管理和处理数据,仍是一个需要解决的问题。在这个背景下,Iceberg 作为一种新型的开放表格式,以其独特的优势,正在逐渐引领大数据的下一代变革。
使用 Iceberg 的实际价值 [1]
- 降低数据存储成本:通过提供高效的存储和压缩机制,Iceberg 可以帮助企业降低数据存储成本,同时保证数据查询性能
- 提升数据处理效率:Iceberg 的 ACID 能力和流批一体处理能力可以大大提升数据处理效率,缩短数据处理周期,从而帮助企业更快地获取业务价值
- 简化数据管理流程:通过提供强大的元数据管理能力,Iceberg 可以简化数据管理流程,降低数据管理的复杂性。同时,它还提供了丰富的工具和 API,方便企业进行数据分析和挖掘。
使用 Iceberg 注意事项 [2]
- 需要清除过期文件:Iceberg 有很多的历史版本,会占用大量的存储资源,虽然它有一定的价值,但是也应该得到定期的清理
- 需要清理垃圾文件:计算引擎在写入 Iceberg 的时候,如果它的写入任务失败了,可能会残留一些垃圾文件在那边。这些文件并没有提交进去,也不会影响到这个表的正确读取,但是浪费了一些存储资源。这些数据应该在后面定期地去做数据清理,把浪费的存储资源给释放出来
- 需要合并数据文件:
(1)合并碎片文件。在实时场景下,这个非常重要,实时场景下会频繁地往表中提交数据,这样就会产生很多小文件,这些小文件需要进行治理,以提升表上查询性能并减少对存储系统的压力
(2)减少数据冗余。在使用了行级更新的场景下,删除操作通过独立的 delete file 文件来标记,这就会造成数据冗余,冗余数据过多会大大降低表上的查询性能。故需要通过合并数据文件操作把 delete 文件和 data file 做合并。
4. 需要重写元数据:当表上的提交越来越多,manifest file 也可能会越来越多,过多的元数据文件同样会影响表上的读取性能,重写元数据操作会对元数据进行重新整理。
正是基于 Iceberg 这些特点,李立伟老师及团队成员在华为终端云的实践已逐渐崭露头角。
👉 学习参考推荐
- Apache Iceberg 开源项目地址:https://gitcode.com/apacheice...
- Iceberg 数据湖介绍:https://www.sqlboy.tech/pages...
- 华为 Iceberg 文章连载:https://bbs.huaweicloud.com/b...
石公星:Apache Doris 在雨润集团数据场景最佳实践
Apache Doris 由来及特点:Apache Doris 是一个基于 MPP(大规模并行处理架构)架构的大数据分析处理存储系统,或称分析型数据库。
Apache Doris 最初是百度广告报表业务的 Palo 项目,2017年正式对外开源,2018年7月由百度捐赠给 Apache 基金会进行孵化,因此得名 Apache Doris。
Apache Doris 能够较好的满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
其特点如下:
- 高性能:通过列式存储和优化的 MPP 查询引擎,Doris 可以支持高并发的快速分析查询
- 可扩展:Doris 可以通过简单地添加节点来扩展计算和存储能力
- 低成本:Doris 采用 MPP 架构,可以降低成本,通过共享节点和数据本地性优化,实现低成本高效率
- 兼容性:支持多种数据加载方式,包括 JDBC/ODBC、HTTP 接口、以及 Spark/Flink 等计算引擎接口
- 标准 SQL:提供标准的 SQL 支持,方便用户使用
- 云原生:支持容器化部署,方便在云环境中使用
市场范围(参考 Apache Doris 在 github 的简介):Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前,Apache Doris 已经在全球超过4000家中大型企业的生产环境中得到应用,在中国市值或估值排行前50的互联网公司中,有超过80%长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、阿里巴巴、腾讯、网易、快手、微博等。同时在一些传统行业如金融、消费、电信、工业制造、能源、医疗、政务等领域也有着丰富的应用。在中国几乎所有的云商厂比如阿里云、华为云、天翼云、腾讯云、百度云、火山引擎等都在提供托管的 Apache Doris 的云服务。
正是基于 Doris 此多特点,石工星老师(雨润集团数据中台架构师)及团队成员在 Doris 2.0基础上对雨润集团的数据业务进行了架构演进,从而高效的为雨润集团实现了数字化转型服务。
👉 学习参考推荐
- Apache Doris 开源中文地址:https://doris.apache.org/zh-C...
王蕴博:ByConity 的架构与设计从 ClickHouse 到云原生
ByConity 是由字节跳动于2023年1月正式开源的云原生数据仓库引擎。
它的一个重要优势是采用存储计算分离的架构,实现了读写分离和弹性扩缩容。这种架构确保读操作和写操作不会相互影响,使得计算资源和存储资源解耦,两者可以按需的且独立的扩缩容,确保资源高效利用,同时保证数据读写的强一致性。此外,ByConity 支持多租户资源隔离功能,保证不同租户之间不会互相影响,更加适合多租户环境,同时 ByConity 采用主流的 OLAP 引擎优化,提供更加优异的读写性能。
其特点如下:
- 资源隔离:对不同的租户进行资源的隔离,租户之间不会受到相互影响
- 读写分离:计算资源和存储资源解耦,确保读操作和写操作不会相互影响
- 弹性扩缩容:支持弹性的扩缩容,能够实时、按需的对计算资源进行扩缩容,保证资源的高效利用
- 数据强一致:数据读写的强一致性,确保数据始终是最新的,读写之间没有不一致
- 高性能:采用主流的 OLAP 引擎优化,例如列存、向量化执行、MPP 执行、查询优化等提供优异的读写性能
ClickHouse 是俄罗斯 Yandex 公司于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Manaqement Svstem),主要用于在线分析处理査询(OLAP),能够使用 SQL 查询实时生成分析数据报告。ClickHouse 的全称是 Click Stream,Data WareHouse,简称 ClickHouse。
ClickHouse 优点:
- 高性能:ClickHouse 专注于大规模数据分析和处理,具有出色的查询性能和吞吐量。它可以处理百亿甚至万亿级别的数据,并在秒级别提供查询结果
- 低延迟:由于采用了列式存储和压缩技术,ClickHouse 可以提供高效的数据压缩和快速的数据访问,从而实现低延迟的查询和分析
- 灵活的数据模型:ClickHouse 支持动态模式,可以方便地存储和查询各种类型的数据,包括结构化和半结构化数据
- 强大的查询功能:ClickHouse 支持复杂的 SQL 查询和聚合操作,可以进行高级数据分析和数据挖掘
ClickHouse 缺点:
- 由于 ClickHouse 的数据是预聚合的,所以它不适合频繁的插入或更新操作
- ClickHouse 不支持事务,这意味着你不能在同一个查询中更新数
- ClickHouse 在复杂的 join 操作上效率不高,尤其是与其他系统如 MySQL 等进行 join 操作时
- ClickHouse 是一个内存数据库,它需要足够的内存来保存数据和索引
- ClickHouse 不支持二级索引,它只能使用主键或者 pre-aggregated 索引
- ClickHouse 适合于数据一旦进入就不会更改的场景
随着企业使用的数据业务环境翻倍增长,需要不断扩容才得以满足需求,由于 ClickHouse 诸多不便,且 ClickHouse 扩容成本较高,正是基于此,字节跳动团队成员在业务环境的不断探索与实践,诞生了 ByConity,用以更好的服务于大数据业务,云原生数据引擎使用。
通过王蕴博老师(字节跳动首席开源布道师、CCF 开源发展委员会副秘书长)此次分享,也使得我们明白了 ByConity 在大数据中实践意义与价值。
综上,作者判断为:ByConity 是 ClickHouse 的一种比较可靠的替代方案。
👉 学习参考推荐
- ByConity 开源地址:https://github.com/ByConity
- ByConity 单机版本方式:https://github.com/ByConity/b...
- ByConity 物理机部署模式:https://github.com/ByConity/B...
- ByConity 源代码编译方式:https://github.com/ByConity/B...
- ClickHouse 开源地址:https://github.com/ClickHouse...
张小丰:数据资产入表实践探索
数据资产入表是指将数据确认为企业资产负债表中的一项资产,即在财务报表中体现其真实价值与业务贡献的过程。这一过程不仅有助于显化数据资源的价值,提升企业数据资产意识,还能激活数据市场供需主体的积极性,增强数据流通意愿,减少“死数据”,为企业对数据进行深度开发利用提供动力。此外,数据资产入表能够从资产角度揭示数据资源的经济价值,客观反映数字化赋能所带来经济利益的流入情况,为培育数据资源要素市场、促进企业转型升级、更好地赋能数字经济发展提供信息标准。
财政部通过印发《企业数据资源相关会计处理暂行规定》,自2024年1月1日起施行,推动了数据资产入表的具体实施。该规定要求企业在编制资产负债表时,根据重要性原则并结合企业实际情况,在“存货”、“无形资产”和“开发支出”项目下增设“其中:数据资源”项目,反映资产负债表日确认为相应类别的数据资源的期末账面价值。这一举措旨在进一步推动和规范数据相关企业执行会计准则,为监管部门完善数字经济治理体系、加强宏观管理提供会计信息支撑,同时也为投资者等报表使用者了解企业数据资源价值、提升决策效率提供有用信息。(参考[财政部推动强化企业数据资源会计信息披露——数据资源“入表”])
据国浩律师事务所张小丰律师介绍,通过线下走访多个城市大数据交易所交流,数据资产入表路径不同城市有不同的方式,大致分为三步法(数据资源化、资源产品化、产品资产化)、五步法、七步法等。数字经济的发展绕不开数据资产登记、开源数字化技术应用,国浩的数据资产入表正是基于此环境下实践探索。
李奇峰:数据中台-元数据与数据血缘落地实施
描述数据的数据,本质上还是数据,元数据主要分为技术元数据和业务元数据两类:
- 技术元数据:数据本身的特定属性;例如 schema、索引、分区、存储等信息,可通过技术手段自动化获取
- 业务元数据:业务赋予的描述属性;例如数据的业务描述、负责人、统计口径、访问权限等,通常由业务人员手动添加
数据血缘,是指在数据的加工流转过程产生的数据关系。血缘提供了探查数据关系的手段,用于跟踪数据流转路径。
从数据总线角度来看,元数据与血缘数据绑定。在业务开展过程中,用户可通过数据门户中的血缘关联,跳转至相关血缘节点,也可在数据地图中,通过血缘节点直观探查元数据信息。
元数据于数据血缘落地应用可包含:数据门户、数据资产管理、数据资产检索、数据地图、血缘分析。
👉学习参考推荐:
- 推荐书籍:《数据血缘原理分析与实践》 成于念、赛助力著 机械工业出版社
- 怎样参与开源项目技术贡献推荐阅读:【保姆级教程|如何参与开源贡献】:https://mp.weixin.qq.com/s/uwh2Xjx1kJivgZyTpK56cw
最后,非常感谢此次活动主办方 PowerData 李奇峰先生的邀请,非常感谢各位老师的精彩讲解,及参会嘉宾的积极讨论,正是基于你们的精彩分享与开源贡献,才使得我完成此篇关于数字经济-开源行的文章输出。
▲ KCC@南京微信群
相关注释
[1] 参考百度开发者中心 作者-快去 debug 文章https://developer.baidu.com/a...
[2] 参考黑水滴博客文章https://www.cnblogs.com/robot...
作者 | 董吉甫
编辑丨李楠
相关阅读 | Related Reading
KCC@西安首次线下活动圆满举办!
【活动邀请函】6月15 | PowerData 数字经济-"南京"开源行!
开源社简介
开源社(英文名称为“KAIYUANSHE”)成立于 2014 年,是由志愿贡献于开源事业的个人志愿者,依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念,以 “立足中国、贡献全球,推动开源成为新时代的生活方式” 为愿景,以 “开源治理、国际接轨、社区发展、项目孵化” 为使命,旨在共创健康可持续发展的开源生态体系。
开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作,同时也是全球开源协议认证组织 - OSI 在中国的首个成员。
自2016年起连续举办中国开源年会(COSCon),持续发布《中国开源年度报告》,联合发起了“中国开源先锋榜”、“中国开源码力榜”等,在海内外产生了广泛的影响力。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。