def parse():
for url in urls:
yield Request(url,callback=self.parse_item)
def parse_item():
##xpath
for link in links:
yield Request(link,callback=self.parse_item)
parse_item中会有结束判断,不会死循环
然而结果却发现得到的link少了,我理解为
在有大量的url的情况下,当网络不好下载失败,会丢失url,是不是这样?
scrapy会在返回码异常的时候ignore掉。如果项目不是很大的话,你可以在爬的时候--loglevel=INFO仔细看看输出有没有提示异常的链接。