问题描述
class MyspiderSpider(scrapy.Spider):
name = 'myspider'
allowed_domains = ['dszuqiu.com']
url = "https://www.dszuqiu.com"
offset = 0
start_urls = [url +'/diary/'+ (datetime.datetime(2018, 7, 31) + datetime.timedelta(days=offset)).strftime("%Y%m%d"), ]
def parse(self,response):
item = DsItem()
sonUrls = response.xpath("""//*[@id="pager"]/ul//@href""").extract()
if self.offset < (datetime.datetime(2018, 7, 31) - datetime.datetime(2018, 7, 1)).days:
self.offset += 1
yield scrapy.Request(
self.url +'/diary/'+ (datetime.datetime(2018, 7, 1) + datetime.timedelta(days=self.offset)).strftime(
"%Y%m%d") , callback=self.parse)
yield scrapy.Request( url= sonUrls,callback = self.parse2)
def parse2(self, response):
print(response.url)
pass
问题出现的环境背景及自己尝试过哪些方法
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)
你期待的结果是什么?实际看到的错误信息又是什么?
题目描述
想爬取该网站下任意日期的完场数据。如果只是日期变量,已经解决。但深入发现网站某日期下是有页的,如何设置多页爬取?本人不是计算机专业,请大神指明道路。
题目来源及自己的思路
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)
你期待的结果是什么?实际看到的错误信息又是什么?
问题描述
问题出现的环境背景及自己尝试过哪些方法
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)