urllib.urlretrieve 下载 pdf 死循环

使用 urllib.urlretrieve 下载一个网站的 pdf ,代码如下:
图片描述

试了好几次,每次到下载 4000 多个 pdf 的时候,就会卡死在 urlretrieve 里面出不来

请问:是不是 urlretrieve 把网络资源给消耗光了,接收不到数据了?

阅读 3.6k
1 个回答

我之前写爬虫遇到下面的坑,看能不能帮助你:

  1. 如果是多线程或者多进程,仔细调试防止死锁

  2. 设置timemout,看看是不是网络延迟。如果单位时间内保持的链接太多,服务器可能会强制断开链接,或者造成网络拥塞

  3. 不要这样保存文件,这样打开文件太多,请使用队列

  4. 使用traceback看看异常信息

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题