如何将 csv 文件转换为镶木地板

Question

新手上路，请多包涵

我是 BigData 的新手。我需要将 csv/txt 文件转换为 Parquet 格式。我搜索了很多但找不到任何直接的方法。有什么办法可以实现吗？

原文由 author243 发布，翻译遵循 CC BY-SA 4.0 许可协议

java parquet

阅读 478

1 个回答

得票最新

社区维基

1

发布于
2022-11-23

我已经发布了关于如何使用 Apache Drill 执行此操作的答案。但是，如果您熟悉 Python，您现在可以使用 Pandas 和 PyArrow 来做到这一点！

安装依赖

使用 pip ：

 pip install pandas pyarrow

或使用 conda ：

 conda install pandas pyarrow -c conda-forge

将 CSV 分块转换为 Parquet

 # csv_to_parquet.py

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

csv_file = '/path/to/my.tsv'
parquet_file = '/path/to/my.parquet'
chunksize = 100_000

csv_stream = pd.read_csv(csv_file, sep='\t', chunksize=chunksize, low_memory=False)

for i, chunk in enumerate(csv_stream):
    print("Chunk", i)
    if i == 0:
        # Guess the schema of the CSV file from the first chunk
        parquet_schema = pa.Table.from_pandas(df=chunk).schema
        # Open a Parquet file for writing
        parquet_writer = pq.ParquetWriter(parquet_file, parquet_schema, compression='snappy')
    # Write CSV chunk to the parquet file
    table = pa.Table.from_pandas(chunk, schema=parquet_schema)
    parquet_writer.write_table(table)

parquet_writer.close()

我没有针对 Apache Drill 版本对这段代码进行基准测试，但根据我的经验，它非常快，每秒转换数万行（当然这取决于 CSV 文件！）。

编辑：

我们现在可以使用 pyarrow.csv.read_csv 将 CSV 文件直接读入 PyArrow 表。这可能比使用 Pandas CSV 阅读器更快，尽管它可能不太灵活。

原文由 ostrokach 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何将 csv 文件转换为镶木地板

安装依赖

将 CSV 分块转换为 Parquet

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Stack Overflow 翻译

如何将 csv 文件转换为镶木地板

安装依赖

将 CSV 分块转换为 Parquet

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

Stack Overflow 翻译

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?