0

def parse():

  for url in urls:
       yield Request(url,callback=self.parse_item)

def parse_item():

  ##xpath
  for link in links:
        yield Request(link,callback=self.parse_item)

parse_item中会有结束判断,不会死循环
然而结果却发现得到的link少了,我理解为
在有大量的url的情况下,当网络不好下载失败,会丢失url,是不是这样?

2017-07-20 提问

查看全部 2 个回答

0

scrapy会在返回码异常的时候ignore掉。如果项目不是很大的话,你可以在爬的时候--loglevel=INFO仔细看看输出有没有提示异常的链接。

推广链接