爬虫本身没问题,今天突然报错,使用webmagic,jsoup和httpclient都出现同样的错误,设置了cookie,userAgent,host和间隔时间都没用,但浏览器可以正常访问该网页,猜测是反爬虫机制,网上搜了下没有合适的解决方案,求大神讲下原理及如何解决。
爬虫本身没问题,今天突然报错,使用webmagic,jsoup和httpclient都出现同样的错误,设置了cookie,userAgent,host和间隔时间都没用,但浏览器可以正常访问该网页,猜测是反爬虫机制,网上搜了下没有合适的解决方案,求大神讲下原理及如何解决。
4 回答1.2k 阅读✓ 已解决
4 回答1.2k 阅读✓ 已解决
1 回答2.5k 阅读✓ 已解决
2 回答715 阅读✓ 已解决
2 回答1.7k 阅读
2 回答1.7k 阅读
2 回答1.3k 阅读
用htmlunit、phantomjs、selenium试试,注意设置User-Agent