scrapy假死是怎么回事?

http://news.ifeng.com/listpage/11502/20150924/1/rtlist.shtml
我爬的是上面凤凰网的链接,链接里的日期通过循环来变,但是运行一段时间后,scrapy就停止爬取了,但还在运行,而且python进程占用cpu过高,到百分之三四十。
下面是log信息截图:图片描述

10:35时候停止抓取了,12点38我把它关了。

下面是代码:

    def parse(self, response):
        div = response.xpath('//div[@class="newsList"]')
        #这个是获得新闻的链接
        for ul in div.xpath('ul'):
            for li in ul.xpath('li'):
                url = li.xpath('a/@href')[0].extract()
                yield scrapy.Request(url, callback=self.parse_detail)

        spans = response.xpath('//div[@class="m_page"]')

        #这个是获得翻页链接的
        for span in spans.xpath('span'):
            url = span.xpath('a/@href')[0].extract()
            yield scrapy.Request(url, callback=self.parse)
阅读 8.8k
3 个回答

scrapy没有设置默认的timeout,应该是服务器没有响应吧,请求超时,可以在settings.py中进行设置

新手上路,请多包涵

lz定位到真实原因了吗

新手上路,请多包涵

好像是timeout的原因.我的也老是down.

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题