python如何检索文本中是否包含某些关键词

如题,我现在通过爬取网页得到了一批网页的内容,已经存入数据库中,现在的需求是在另一个表中有300多个关键字,如果爬取的这些网页中包含这些关键字(一个或多个),就给这些网页添加标记,否则不处理,网页大约最少几万个,如果通过循环一个个遍历,感觉不合适,请高手们指教一种简捷的方法,初学python,还望多多指教,谢谢!

阅读 15.3k
4 个回答

用ac自动机做吧,复杂度很低

文本匹配最快的方法是正则,你可以把这些关键字拼成一个正则校验一下

只是本人的一些想法:

  1. 爬取的时候选择并发执行(async)
  2. 分析的时候如果资源有限制的话,multiprocess
  3. 分布式

关键字的话,应该不是模糊匹配吧,直接判断 str in website 就行了呀

推荐问题