最近通过python进行爬虫,使用的是selenium+webdriver+ip代理,但有时候代理不一定生效,所以想通过状态码进行判断,但是不知道怎么获取状态码。。。
最近通过python进行爬虫,使用的是selenium+webdriver+ip代理,但有时候代理不一定生效,所以想通过状态码进行判断,但是不知道怎么获取状态码。。。
4 回答4.4k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.8k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
2 回答1.9k 阅读✓ 已解决
selenium是无法获取status code的,具体原因请参考 selenium status code
有另外一种方式可以获取status code,这需要使用requests库:
如果一定要使用selenium,可以尝试从网页中查找元素来确认status code:
假如 在404状态时,返回
<h1 id="web_403">403 Access Denied</h1>
代码中可以这样检查:
如果你的目的只是为了做一些自动化测试或自动化的事情,现在不太建议使用selenium,可以尝试使用一下
puppeteer
,这是一个集成所有chromeapi的自动化测试工具,也可以做爬虫使用,具体github链接请见puppeteer