scrapy 派取任意日期下数据

新手上路,请多包涵

问题描述

class MyspiderSpider(scrapy.Spider):

name = 'myspider'
allowed_domains = ['dszuqiu.com']
url = "https://www.dszuqiu.com"
offset = 0
start_urls = [url +'/diary/'+ (datetime.datetime(2018, 7, 31) + datetime.timedelta(days=offset)).strftime("%Y%m%d"), ]



def parse(self,response):
    item = DsItem()
    sonUrls = response.xpath("""//*[@id="pager"]/ul//@href""").extract()
    if self.offset < (datetime.datetime(2018, 7, 31) - datetime.datetime(2018, 7, 1)).days:
        self.offset += 1
        yield scrapy.Request(
            self.url +'/diary/'+ (datetime.datetime(2018, 7, 1) + datetime.timedelta(days=self.offset)).strftime(
                "%Y%m%d") , callback=self.parse)
        yield scrapy.Request( url= sonUrls,callback = self.parse2)

def parse2(self, response):
    print(response.url)
    pass

问题出现的环境背景及自己尝试过哪些方法

相关代码

// 请把代码文本粘贴到下方(请勿用图片代替代码)

你期待的结果是什么?实际看到的错误信息又是什么?

题目描述

想爬取该网站下任意日期的完场数据。如果只是日期变量,已经解决。但深入发现网站某日期下是有页的,如何设置多页爬取?本人不是计算机专业,请大神指明道路。

题目来源及自己的思路

相关代码

// 请把代码文本粘贴到下方(请勿用图片代替代码)

你期待的结果是什么?实际看到的错误信息又是什么?

问题描述

问题出现的环境背景及自己尝试过哪些方法

相关代码

// 请把代码文本粘贴到下方(请勿用图片代替代码)

你期待的结果是什么?实际看到的错误信息又是什么?

阅读 1.1k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题