关于数据湖的存储数据都说支持各类型数据,如结构化、非结构化、二进制等等
但是很多案例或者demo都是做实时数据或者离线数据处理,感觉和以前用kafka,hive用法差不多
没有看到具体怎么将视频或者图片或者pdf文件等等这类数据写入数据湖
有没有大佬有相关示例或者介绍下这类数据入湖的思路
hudi、iceberg都可以,有具体示例最好了
不是很清楚这类数据是怎么实现入湖的,比如有大量pdf文档或者视频文件怎么处理写入数据湖,又怎么读取使用等等
关于数据湖的存储数据都说支持各类型数据,如结构化、非结构化、二进制等等
但是很多案例或者demo都是做实时数据或者离线数据处理,感觉和以前用kafka,hive用法差不多
没有看到具体怎么将视频或者图片或者pdf文件等等这类数据写入数据湖
有没有大佬有相关示例或者介绍下这类数据入湖的思路
hudi、iceberg都可以,有具体示例最好了
不是很清楚这类数据是怎么实现入湖的,比如有大量pdf文档或者视频文件怎么处理写入数据湖,又怎么读取使用等等
目前 hudi、iceberg 等数据湖方案,都是基于 HDFS 或者对象存储实现的,这些底层存储天然就支持二进制文件的读写,只需要当成一个文件系统去用就好了;
这些数据湖方案强调的支持二进制文件,是相对于传统的关系型数据库,或者 MPP 数据库,Greenplum 或者 Clickhouse 这些数据库对与二进制文件的存储和管理就不如 HDFS 方便,是这个意思。