怎么删除300+有用数据以外的数据?

爬虫爬了5000+条书名,我以前没写代码前就手动筛选出300+条有用的书。现在写代码,爬虫程序爬书网页里面的东西。
怎么可以已经已经有的300+数据,把其余的4700+删除。
菜鸟学生一名,sql也只是会做网页的水平,触发器等高级的略懂,python最近自学的,也不会用爬虫框架,只是用urllib+re,数据库是sqlite
望解答,谢谢。第一问也不怎么懂规矩。

阅读 4k
1 个回答

其实好办。

5000+和300+全部读出来,遍历一遍5000+,验证每个是否在300+里,是就留下。

Python的list查询是自动hash高效查询的,并没有性能问题。(哪怕不高效,5000*300个单元操作也并不是问题)

这个问题的麻烦反倒是:你整理的书名可能做了删改、排版等操作,或许不是和原书名完全一致的。如果有这种情况存在,请小心处理,不要生硬比较。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题