输入搜索关键字,然后对结果页面爬取,能获取结果列表吗?
比如:百度、谷歌等
可以,比如百度的搜索结果页url是有模式的
http://www.baidu.com/s?wd=爬虫&rsv_spt=1&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=8&rsv_sug4=402&rsv_sug1=5&rsv_sug2=0&inputT=3375
按照搜索词组成url,下载页面就行了。
不过同一个IP太频繁的抓取会被拉黑。
要准备很多IP或者代理,设法混淆request,避免被识别为bot而被block