得到一个csv文件,其中两个\0中有逗号,怎么预处理?

神圣之风
  • 547

补充:文件是用hive的beeline导出来的。
下一步要用pandas.read_csv读取,其中两个NUL之间会有“,”出现,与csv本身的分隔符混淆。怎样对这种情况预处理?

image.png

回复
阅读 471
1 个回答

null 出现在文本内容中本身就很奇怪,不过看样子这里是拿来作为分隔符用的。所以只需要简单的把它替换成 " 就可以了。

不过这样会带来一个新的问题,就是文本内容中本身就含 " 的情况,不知道是怎么处理的。按理说需要转义处理。

下面是一段用 WPS 导出来的 csv

第一个单元格,第 "2" 个单元格,"第三个, 单元格","第""4""个,单元格"

image.png

可以看到,在没有逗号的情况下,不需要加 ",有逗号就得加。如果加了外面包裹的 " 号,原来的引号就要写成两个

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏