Request(url,callback=self.parse_item)有些请求会丢失掉？

def parse():

  for url in urls:
       yield Request(url,callback=self.parse_item)

def parse_item():

  ##xpath
  for link in links:
        yield Request(link,callback=self.parse_item)

parse_item中会有结束判断，不会死循环
然而结果却发现得到的link少了，我理解为
在有大量的url的情况下，当网络不好下载失败，会丢失url，是不是这样？

阅读 5.9k

2 个回答

得票最新

scrapy会在返回码异常的时候ignore掉。如果项目不是很大的话，你可以在爬的时候--loglevel=INFO仔细看看输出有没有提示异常的链接。

我找到了这个:error: error downloading <get url>
的确没有抓到这个url的内容，不过丢失数量有点大，几万个请求丢了1千多的请求

撰写回答

推荐问题

相似问题

找不到问题？创建新问题