crawl 连接网页超时，HTTP 599

        self.crawl('xxxxx',
                   callback=self.list_page,
                   fetch_type = 'js',
                   connect_timeout = 50,
                   timeout = 200
                   )

原因

最可能的是网速问题（在公司爬取出现问题，在家里没出现 —— 100M 光纤）；
爬取的网页中图片等较多，加载速度偏慢；
pyspider 默认的连接时间为 20，抓取时间为 120。
配置参数，增大时间限制

crifan

952

发布于
2019-04-11

根据现象中的
“after 120001 milliseconds with 0 bytes receive”
和我遇到的
“after 120000 milliseconds with 1723300 out of 2343850 bytes received 120.00s”
是一个意思，同一种错误类型
-》意思是：超时了（超过设置的最大超时时间了），但是只下载了总共数据的其中一部分
->重点是后半句，意思是可以下载到数据的，只是直到超时都还没下载完全
-》这种情况的最大可能原因就是：网速太慢
-》所以

解决办法

根本办法：换个更快的网络

比如，我公司是1MB/s的网络，家里是10MB/s的网络，换到家里下载，就不会出现这个问题了。

临时的规避的缓解的办法：增大延迟`timeout` （ +增大其他容错参数`connect_timeout`, `retries`）

给单个self.crawl增大参数：

self.crawl(urlToDownload,
    callback=self.downloadFileCallback,
    connect_timeout=100,
    timeout=600,
    retries=15,
    save=fileInfo)

或者

增大全局参数：

class Handler(BaseHandler):
    crawl_config = {
        "connect_timeout": 100,
        "timeout": 600,
        "retries": 15,
    }

备注

参数含义解释详见官网：self.crawl - pyspider
其他更多内容，可参考我的教程：Python爬虫框架：PySpider

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？
4 回答2.4k 阅读

crawl 连接网页超时，HTTP 599

解决：

原因

解决办法

根本办法：换个更快的网络

临时的规避的缓解的办法：增大延迟timeout （ +增大其他容错参数connect_timeout, retries）

备注

你尚未登录，登录后可以

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

临时的规避的缓解的办法：增大延迟`timeout` （ +增大其他容错参数`connect_timeout`, `retries`）