2亿++的网址，怎样快速确认网页状态码?

发布于
2017-04-30

更新于
2017-04-30

用requests写了个多线程，感觉有点慢，还有其他方法么？

采集网页爬虫

python python爬虫

阅读 4.9k

5 个回答

发布于
2017-05-01

更新于
2017-05-01

✓ 已被采纳

使用 Tornado 的 curl 客户端支持，读到请求头就关闭连接。（我还没试过。如果它提供的 HTTP 客户端不支持中途关闭连接的话，可以像我这样使用 TCP 然后用 http-parser 来解析。）

好吧，其实你可以直接给 fetchtitle 加个取状态码的扩展就可以了……（记得装 pycurl 哦）

发布于
2017-05-01

python本来就慢，想速度快就直接写tcp请求然后读回复，读到状态后就关掉socket。

发布于
2017-05-02

更新于
2017-05-02

使用grequests,对requests进行了并发封装

https://github.com/kennethrei...

发布于
2017-05-01

这种情况可以考虑使用gevent,tornado,scrapy-redis,asyncio！

发布于
2017-05-01

用Head请求能快一点吧？

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题