0

我自己写了个代理池为爬虫端提供可用代理,爬虫端使用urllib.request爬取网站时,部分网站会出现“无法访问此网站”的情况(代理是可用的,防火墙已关闭):
图片描述

部分网站却可以访问,使用selenium也会出现同样的情况,但用本机的ip地址爬取时,却可以正常访问网页,实在不知道什么原因

小铭 13
2017-09-17 提问

查看全部 3 个回答

1

不大清楚具体情况,但是就以前写爬虫时遇到的错误一般有这些

  • 自己的代理池提供的时候出问题了(传参)
  • IP挂了(被反爬)
  • 网站有反爬措施(最简单的是浏览器头验证,不过按题目看来这一点可能性不大)
  • 劣质代理(网速太慢根本打不开网页)

可以用浏览器+代理上待爬网站试试,如果能上可能是代理池的问题
也可以配合Debug查看传参

推广链接