scrapy入门_2爬取豆瓣军事类图书（2）

前言

上回讲到，爬取了豆瓣军事类图书的第一页内容，本回主要实现爬取剩余页面的内容，实现思路均参照Scrapy文档

代码实现

def parse(self, response):
        #####省略#####
        #查看页面源码，找到”后一页“的链接
        next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()
        print("&&&&&&",next_page)
        if next_page is not None:
            yield response.follow(next_page,self.parse)

找到页面中”后一页“的链接的内容，只需解析出该内容，然后调用follow函数即可了

编译执行

按照上篇说的，执行命令scrapy crawl dbbook -o junshibook89-1.json将结果存入json文件
但是！爬虫值爬了start_urls,并未爬取剩余页面内容
只需将开头allowed_domains = ['https://book.douban.com/tag/军事']注释掉或者删掉即可
重新执行，查看生成的junshibook89-1.json文件

git地址：https://www.trustie.net/projects/3753/repository/dbbook

scrapy入门_2爬取豆瓣军事类图书（2）

前言

代码实现

编译执行

TAG_WW

引用和评论

ES7-async/await学习