2亿++的网址,怎样快速确认网页状态码?

用requests写了个多线程,感觉有点慢,还有其他方法么?

阅读 1.7k
评论 更新于 2017-04-30
    5 个回答
    依云
    • 24.9k

    使用 Tornado 的 curl 客户端支持,读到请求头就关闭连接。(我还没试过。如果它提供的 HTTP 客户端不支持中途关闭连接的话,可以像我这样使用 TCP 然后用 http-parser 来解析。)

    好吧,其实你可以直接给 fetchtitle 加个取状态码的扩展就可以了……(记得装 pycurl 哦)

    评论 赞赏 2017-05-01
      xlphs
      • 370

      python本来就慢,想速度快就直接写tcp请求然后读回复,读到状态后就关掉socket。

      评论 赞赏 2017-05-01
        评论 赞赏 2017-05-02
          松林
          • 1.2k

          这种情况可以考虑使用gevent,tornado,scrapy-redis,asyncio!

          评论 赞赏 2017-05-01
            Xeira
            • 4k

            Head请求能快一点吧?

            评论 赞赏 2017-05-01
              撰写回答

              登录后参与交流、获取后续更新提醒