如何将 csv 文件转换为镶木地板

新手上路,请多包涵

我是 BigData 的新手。我需要将 csv/txt 文件转换为 Parquet 格式。我搜索了很多但找不到任何直接的方法。有什么办法可以实现吗?

原文由 author243 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 475
1 个回答

我已经发布了关于如何使用 Apache Drill 执行此操作 的答案。但是,如果您熟悉 Python,您现在可以使用 PandasPyArrow 来做到这一点!

安装依赖

使用 pip

 pip install pandas pyarrow

或使用 conda

 conda install pandas pyarrow -c conda-forge

将 CSV 分块转换为 Parquet

 # csv_to_parquet.py

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

csv_file = '/path/to/my.tsv'
parquet_file = '/path/to/my.parquet'
chunksize = 100_000

csv_stream = pd.read_csv(csv_file, sep='\t', chunksize=chunksize, low_memory=False)

for i, chunk in enumerate(csv_stream):
    print("Chunk", i)
    if i == 0:
        # Guess the schema of the CSV file from the first chunk
        parquet_schema = pa.Table.from_pandas(df=chunk).schema
        # Open a Parquet file for writing
        parquet_writer = pq.ParquetWriter(parquet_file, parquet_schema, compression='snappy')
    # Write CSV chunk to the parquet file
    table = pa.Table.from_pandas(chunk, schema=parquet_schema)
    parquet_writer.write_table(table)

parquet_writer.close()

我没有针对 Apache Drill 版本对这段代码进行基准测试,但根据我的经验,它非常快,每秒转换数万行(当然这取决于 CSV 文件!)。


编辑:

我们现在可以使用 pyarrow.csv.read_csv 将 CSV 文件直接读入 PyArrow 表。这可能比使用 Pandas CSV 阅读器更快,尽管它可能不太灵活。

原文由 ostrokach 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题