如何读取本地存储在 Python Pandas 中的 ORC 文件？

Question

新手上路，请多包涵

我是否可以将 ORC 文件视为类似于 CSV 文件的列标题和包含数据的行标签？如果是这样，我能以某种方式将它读入一个简单的熊猫数据框吗？我对 Hadoop 或 Spark 等工具不是很熟悉，但是仅仅为了在 Python 中查看本地 ORC 文件的内容是否有必要了解它们？

文件名为 someFile.snappy.orc

我可以在网上看到 spark.read.orc('someFile.snappy.orc') 有效，但即使在 import pyspark 之后，它也会抛出错误。

原文由 Della 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.7k

1 个回答

得票最新

我还没有找到任何好的选择，有一些死掉的项目试图包装 java 阅读器。但是，pyarrow 确实有一个 ORC 阅读器，不需要您使用 pyspark。它有点受限，但它确实有效。

 import pandas as pd
import pyarrow.orc as orc

with open(filename) as file:
    data = orc.ORCFile(file)
    df = data.read().to_pandas()

原文由 Rafal Janik 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

推荐问题

子站问答

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题