如何将大数据文件分块写入 CSV 文件?
我有一组大数据文件(1M 行 x 20 列)。但是,我只对数据文件的 5 列左右感兴趣。
我想通过仅使用感兴趣的列制作这些文件的副本来使事情变得更容易,因此我可以使用较小的文件进行后期处理。所以我打算将文件读入数据框,然后写入 csv 文件。
我一直在研究将大数据文件分块读取到数据框中。但是,我还没有找到任何关于如何将数据分块写入 csv 文件的信息。
这是我现在正在尝试的,但这不会附加 csv 文件:
with open(os.path.join(folder, filename), 'r') as src:
df = pd.read_csv(src, sep='\t',skiprows=(0,1,2),header=(0), chunksize=1000)
for chunk in df:
chunk.to_csv(os.path.join(folder, new_folder,
"new_file_" + filename),
columns = [['TIME','STUFF']])
原文由 Korean_Of_the_Mountain 发布,翻译遵循 CC BY-SA 4.0 许可协议
解决方案:
笔记:
mode='a'
告诉熊猫追加。