如何在不设置 Hadoop 或 Spark 等集群计算基础设施的情况下将中等大小的 Parquet 数据集读入内存中的 Pandas DataFrame?这只是我想在笔记本电脑上使用简单的 Python 脚本读取内存中的少量数据。数据不驻留在 HDFS 上。它要么在本地文件系统上,要么可能在 S3 中。我不想启动和配置其他服务,如 Hadoop、Hive 或 Spark。
我认为 Blaze/Odo 会让这成为可能:Odo 文档提到了 Parquet,但这些示例似乎都是通过外部 Hive 运行时进行的。
原文由 Daniel Mahler 发布,翻译遵循 CC BY-SA 4.0 许可协议
pandas 0.21 为 Parquet 引入了新功能:
要么
以上链接说明: