我是 BigData 的新手。我需要将 csv/txt 文件转换为 Parquet 格式。我搜索了很多但找不到任何直接的方法。有什么办法可以实现吗?
原文由 author243 发布,翻译遵循 CC BY-SA 4.0 许可协议
我是 BigData 的新手。我需要将 csv/txt 文件转换为 Parquet 格式。我搜索了很多但找不到任何直接的方法。有什么办法可以实现吗?
原文由 author243 发布,翻译遵循 CC BY-SA 4.0 许可协议
4 回答1.6k 阅读✓ 已解决
4 回答1.3k 阅读✓ 已解决
1 回答2.6k 阅读✓ 已解决
3 回答2k 阅读
2 回答785 阅读✓ 已解决
2 回答1.7k 阅读
2 回答1.3k 阅读
我已经发布了关于如何使用 Apache Drill 执行此操作 的答案。但是,如果您熟悉 Python,您现在可以使用 Pandas 和 PyArrow 来做到这一点!
安装依赖
使用
pip
:或使用
conda
:将 CSV 分块转换为 Parquet
我没有针对 Apache Drill 版本对这段代码进行基准测试,但根据我的经验,它非常快,每秒转换数万行(当然这取决于 CSV 文件!)。
编辑:
我们现在可以使用
pyarrow.csv.read_csv
将 CSV 文件直接读入 PyArrow 表。这可能比使用 Pandas CSV 阅读器更快,尽管它可能不太灵活。