根据一个关键词,从百度搜索结果页采集40条最新的结果标题。这一步,已经实现了,并且也使用redis做好了去重工作。
但是,如果这个时候一个需求过来,说关键词有100个。那我应该如何厘清这个流程?
我能想到的流程:
1.启动scrapy,读取关键词,好了,100个关键词读到了,存进一个数组
2.循环数组,每次取一个关键词,爬取40条记录,循环100次;
3.使用定时任务调度,每1分钟执行一次大循环。。。。。
感觉这样效率很奔溃呀。。。。。。有没有更好的办法?
根据一个关键词,从百度搜索结果页采集40条最新的结果标题。这一步,已经实现了,并且也使用redis做好了去重工作。
但是,如果这个时候一个需求过来,说关键词有100个。那我应该如何厘清这个流程?
我能想到的流程:
1.启动scrapy,读取关键词,好了,100个关键词读到了,存进一个数组
2.循环数组,每次取一个关键词,爬取40条记录,循环100次;
3.使用定时任务调度,每1分钟执行一次大循环。。。。。
感觉这样效率很奔溃呀。。。。。。有没有更好的办法?