Request(url,callback=self.parse_item)有些请求会丢失掉?

哈老四
  • 17

def parse():

  for url in urls:
       yield Request(url,callback=self.parse_item)

def parse_item():

  ##xpath
  for link in links:
        yield Request(link,callback=self.parse_item)

parse_item中会有结束判断,不会死循环
然而结果却发现得到的link少了,我理解为
在有大量的url的情况下,当网络不好下载失败,会丢失url,是不是这样?

回复
阅读 4.4k
2 个回答

scrapy会在返回码异常的时候ignore掉。如果项目不是很大的话,你可以在爬的时候--loglevel=INFO仔细看看输出有没有提示异常的链接。

clipboard.png

我找到了这个:error: error downloading <get url>
的确没有抓到这个url的内容,不过丢失数量有点大,几万个请求丢了1千多的请求

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
你知道吗?

宣传栏