- 比方说有1万个关键词['query1', 'query2' ... ... ]
- 我要用这些关键词爬虫抓网上的数据,有两个接口,一个是获取当前query所有的页数,一个是获取当前query当前页的数据。
- 首先请求第一个接口拿到当前query有多少页,然后再获取每一次的数据
- 每次请求必须等上一个请求完成,防止网站崩溃
我用node写的,请问有解决的办法吗?
我用node写的,请问有解决的办法吗?
我们有个服务比较类似。主要用到了队列,队列是基于redis实现的,大概原理如下:
这样整个流程的任务呗拆分出来,业务逻辑也简单化,方便维护,并且,任务ABC都是并行计算的,且相对隔离
使用事件来做
list事件,获取当前query的页数,解析链接什么的,然后循环触发detail事件
detail事件,获取详情
进程监听以上两个事件即可,初始化的时候就可以循环触发list事件,传入一个关键词
要是觉得跑太快,可以加settimeout去触发事件
10 回答11.1k 阅读
6 回答3k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
2 回答2.6k 阅读✓ 已解决
4 回答2.4k 阅读✓ 已解决
3 回答2.3k 阅读✓ 已解决
这里面涉及到的技术点如下:
能想到的大概就是这些,欢迎大家补充。