如何读取本地存储在 Python Pandas 中的 ORC 文件?

新手上路,请多包涵

我是否可以将 ORC 文件视为类似于 CSV 文件的列标题和包含数据的行标签?如果是这样,我能以某种方式将它读入一个简单的熊猫数据框吗?我对 Hadoop 或 Spark 等工具不是很熟悉,但是仅仅为了在 Python 中查看本地 ORC 文件的内容是否有必要了解它们?

文件名为 someFile.snappy.orc

我可以在网上看到 spark.read.orc('someFile.snappy.orc') 有效,但即使在 import pyspark 之后,它也会抛出错误。

原文由 Della 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.7k
1 个回答

我还没有找到任何好的选择,有一些死掉的项目试图包装 java 阅读器。但是,pyarrow 确实有一个 ORC 阅读器,不需要您使用 pyspark。它有点受限,但它确实有效。

 import pandas as pd
import pyarrow.orc as orc

with open(filename) as file:
    data = orc.ORCFile(file)
    df = data.read().to_pandas()

原文由 Rafal Janik 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题