scrapy采集上百个关键词改如何管理爬取流程

根据一个关键词,从百度搜索结果页采集40条最新的结果标题。这一步,已经实现了,并且也使用redis做好了去重工作。

但是,如果这个时候一个需求过来,说关键词有100个。那我应该如何厘清这个流程?

我能想到的流程:

1.启动scrapy,读取关键词,好了,100个关键词读到了,存进一个数组
2.循环数组,每次取一个关键词,爬取40条记录,循环100次;
3.使用定时任务调度,每1分钟执行一次大循环。。。。。

感觉这样效率很奔溃呀。。。。。。有没有更好的办法?

阅读 2.2k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进