我是否可以将 ORC 文件视为类似于 CSV 文件的列标题和包含数据的行标签?如果是这样,我能以某种方式将它读入一个简单的熊猫数据框吗?我对 Hadoop 或 Spark 等工具不是很熟悉,但是仅仅为了在 Python 中查看本地 ORC 文件的内容是否有必要了解它们?
文件名为 someFile.snappy.orc
我可以在网上看到 spark.read.orc('someFile.snappy.orc')
有效,但即使在 import pyspark
之后,它也会抛出错误。
原文由 Della 发布,翻译遵循 CC BY-SA 4.0 许可协议
我还没有找到任何好的选择,有一些死掉的项目试图包装 java 阅读器。但是,pyarrow 确实有一个 ORC 阅读器,不需要您使用 pyspark。它有点受限,但它确实有效。