Scrapy里怎么判断一个url是否有效?

新手上路,请多包涵

我有一个列表存了很多url,有很多都是无效的,想知道如何判断一个链接是否有效,除了状态码的方式,因为很多网站并不会返回状态码,很多比如加载很长时间最后还是打不开,或者出现那种能进去但是里面显示一个访问不存在,这种算是有效链接里面的无效链接吧,该怎么判断呢,求大神们支招!

阅读 4.8k
2 个回答

给请求加上timeout吧,1-5秒你自己看着弄,超时就认为他无效就行了

设置 timeout,然后设置 retry 次数,全部失败认为 url 不可用。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题