关于一个爬虫问题

新手上路,请多包涵

∷需求:通过关键字从以下信息源提取每天新增加的内容(包括新发布的主题帖、新回复评论),通过机器学习可以过滤出一些优质信息每天四个时间段推送给客户端。

∷信息源:论坛、百度知道、百度贴吧、百度新闻、官方网站、QQ群、微信、新浪微博、QQ空间

∷问题:
1、反复去那些信息源采集IP会被封
2、要采集主题帖和回复,怎么确保采集的是最新信息
3、每天四个时间点推送,相隔时间在三小时左右,怎么快速采集出最新的信息
4、关键字数量有几千个,等于在同一信息源要搜索几千次,很容易封IP,工作量大,效率也低

阅读 3.5k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进