新手上路，请多包涵

我正在使用 pydoop 从 hdfs 读取文件，当我使用时：

 import pydoop.hdfs as hd
with hd.open("/home/file.csv") as f:
    print f.read()

它向我显示了标准输出中的文件。

我有什么办法可以将此文件作为数据框读取吗？我试过使用 pandas 的 read_csv(“/home/file.csv”)，但它告诉我找不到该文件。确切的代码和错误是：

 >>> import pandas as pd
>>> pd.read_csv("/home/file.csv")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 498, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 275, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 590, in __init__
    self._make_engine(self.engine)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 731, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "/usr/lib64/python2.7/site-packages/pandas/io/parsers.py", line 1103, in __init__
    self._reader = _parser.TextReader(src, **kwds)
  File "pandas/parser.pyx", line 353, in pandas.parser.TextReader.__cinit__ (pandas/parser.c:3246)
  File "pandas/parser.pyx", line 591, in pandas.parser.TextReader._setup_parser_source (pandas/parser.c:6111)
IOError: File /home/file.csv does not exist

原文由 lordingtar 发布，翻译遵循 CC BY-SA 4.0 许可协议

python hadoop pandas hdfs

阅读 992

2 个回答

得票最新

社区维基

发布于
2023-01-10

✓ 已被采纳

我对 hdfs ，但我想知道以下内容是否可行：

 with hd.open("/home/file.csv") as f:
    df =  pd.read_csv(f)

我假设 read_csv 使用文件句柄，或者实际上是任何将为其提供行的可迭代对象。我知道 numpy csv 阅读器。

pd.read_csv("/home/file.csv") 如果常规 Python 文件 open 有效 - 即它将文件读取为常规本地文件。

 with open("/home/file.csv") as f:
    print f.read()

但显然 hd.open 正在使用其他一些位置或协议，因此文件不是本地的。如果我的建议不起作用，那么您（或我们）需要深入研究 hdfs 文档。

原文由 hpaulj 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-10

您可以使用以下代码从 hdfs 读取 csv

 import pandas as pd
import pyarrow as pa
hdfs_config = {
     "host" : "XXX.XXX.XXX.XXX",
     "port" : 8020,
     "user" : "user"
}
fs = pa.hdfs.connect(hdfs_config['host'], hdfs_config['port'],
user=hdfs_config['user'])
df=pd.read_csv(fs.open("/home/file.csv"))

原文由 anuragsingh 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

从 hdfs 读取 csv 文件作为数据帧

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译