我有一个尺寸为 100*512
的 csv 文件,我想在 spark
中进一步处理它。该文件的问题是它不包含标头,即 column names
。我需要这些列名称以便在 machine learning
中进一步进行 ETL。我在另一个文件(文本文件)中有列名。我必须将这些列名称作为标题放在上面提到的 csv 文件中。例如
CSV 文件:-
ab 1 23 sf 23 hjh
HS 6 89 IU 98 ADF
gh 7 78 pi 54 ngj
jh 5 22 kj 78 jdk
列标题文件:-
一二三四五六
我想要这样的输出:-
一二三四五六
ab 1 23 sf 23 hjh
HS 6 89 IU 98 ADF
gh 7 78 pi 54 ngj
jh 5 22 kj 78 jdk
请建议一些将列标题添加到 CSV 文件的方法。(不替换 csv 文件的行。我通过将它转换为 pandas 数据帧来尝试它,但无法获得预期的输出。
原文由 Radhika Jaju 发布,翻译遵循 CC BY-SA 4.0 许可协议
首先阅读您的 csv 文件:
如果您的数据集中有两列(a 列和 b 列),请使用:
将这个新数据框写入 csv