二进制文件或者视频、音频、文档文件如何写入数据湖,如何使用?

关于数据湖的存储数据都说支持各类型数据,如结构化、非结构化、二进制等等

但是很多案例或者demo都是做实时数据或者离线数据处理,感觉和以前用kafka,hive用法差不多

没有看到具体怎么将视频或者图片或者pdf文件等等这类数据写入数据湖

有没有大佬有相关示例或者介绍下这类数据入湖的思路

hudi、iceberg都可以,有具体示例最好了

不是很清楚这类数据是怎么实现入湖的,比如有大量pdf文档或者视频文件怎么处理写入数据湖,又怎么读取使用等等

阅读 3.8k
1 个回答

目前 hudi、iceberg 等数据湖方案,都是基于 HDFS 或者对象存储实现的,这些底层存储天然就支持二进制文件的读写,只需要当成一个文件系统去用就好了;

这些数据湖方案强调的支持二进制文件,是相对于传统的关系型数据库,或者 MPP 数据库,Greenplum 或者 Clickhouse 这些数据库对与二进制文件的存储和管理就不如 HDFS 方便,是这个意思。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进