我有一个镶木地板文件,我想先读取文件中的 n
行到熊猫数据框中。我尝试了什么:
df = pd.read_parquet(path= 'filepath', nrows = 10)
它没有用,给了我错误:
TypeError: read_table() got an unexpected keyword argument 'nrows'
我确实也尝试了 skiprows
参数,但这也给了我同样的错误。
或者,我可以读取完整的镶木地板文件并过滤前 n 行,但这将需要更多我想避免的计算。
有什么办法可以实现吗?
原文由 Sanchit Kumar 发布,翻译遵循 CC BY-SA 4.0 许可协议
接受的答案已过时。现在可以只将 parquet 文件的前几行读入 pandas,尽管它有点混乱并且依赖于后端。
要使用 PyArrow 作为后端阅读,请按照以下步骤操作:
更改行
batch_size = 10
以匹配您要读入的行数。