将爬取到的数据添加到CSV中,但CSV中原来已有的数据就不用添加了,只需添加CSV中未有的,请问如何实现?
输出到CSV时有个参数设为'ab+'的参数,不知道这个参数有没有类似功能?
将爬取到的数据添加到CSV中,但CSV中原来已有的数据就不用添加了,只需添加CSV中未有的,请问如何实现?
输出到CSV时有个参数设为'ab+'的参数,不知道这个参数有没有类似功能?
mode=a的打开方式是在文件末尾追加内容,并没有过滤的功能。你要过滤只能自己写程序进行过滤。
比如每次写入爬来的信息时,现将信息md5作为信息索引,然后比对信息索引表,不在索引表内的保存到文件,并更新索引表。信息索引表可以是数据库或内存等存储介质。
追加的话设置
mode="a+"
,排重的话你可以在追加输出为csv之前把原数据过滤下就好了。