爬取搜索引擎的结果,可行吗?

输入搜索关键字,然后对结果页面爬取,能获取结果列表吗?

比如:百度、谷歌等

阅读 6.3k
4 个回答

要准备很多IP或者代理,设法混淆request,避免被识别为bot而被block

可行

既然你诚心诚意地这么问了,我就这么答了。

可以啊,同样是get post请求嘛

可以,比如百度的搜索结果页url是有模式的

http://www.baidu.com/s?wd=爬虫&rsv_spt=1&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=8&rsv_sug4=402&rsv_sug1=5&rsv_sug2=0&inputT=3375

按照搜索词组成url,下载页面就行了。

不过同一个IP太频繁的抓取会被拉黑。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进