Request(url,callback=self.parse_item)有些请求会丢失掉?

哈老四
  • 17

def parse():

  for url in urls:
       yield Request(url,callback=self.parse_item)

def parse_item():

  ##xpath
  for link in links:
        yield Request(link,callback=self.parse_item)

parse_item中会有结束判断,不会死循环
然而结果却发现得到的link少了,我理解为
在有大量的url的情况下,当网络不好下载失败,会丢失url,是不是这样?

回复
阅读 4.3k
2 个回答

scrapy会在返回码异常的时候ignore掉。如果项目不是很大的话,你可以在爬的时候--loglevel=INFO仔细看看输出有没有提示异常的链接。

clipboard.png

我找到了这个:error: error downloading <get url>
的确没有抓到这个url的内容,不过丢失数量有点大,几万个请求丢了1千多的请求

你知道吗?

宣传栏