scrapy的这个案例“下一页”用循环实现怎么写？

Question

scrapy的这个案例“下一页”用循环实现怎么写？

发布于
2015-10-06

更新于
2015-10-06

这个豆瓣爬虫的案例，“下一页”的实现是抓取的(倒数第6行)，如果改为for循环怎么写呢？

# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider
from scrapy.http import Request
from scrapy.selector import Selector
from doubanmovie.items import DoubanmovieItem

class Douban(CrawlSpider):
name = "douban"
redis_key = 'douban:start_urls'
start_urls = ['http://movie.douban.com/top250']

url = 'http://movie.douban.com/top250'

def parse(self,response):
    # print response.body
    item = DoubanmovieItem()
    selector = Selector(response)
    Movies = selector.xpath('//div[@class="info"]')
    for eachMoive in Movies:
        title = eachMoive.xpath('div[@class="hd"]/a/span/text()').extract()
        fullTitle = ''
        for each in title:
            fullTitle += each
        movieInfo = eachMoive.xpath('div[@class="bd"]/p/text()').extract()
        star = eachMoive.xpath('div[@class="bd"]/div[@class="star"]/span/em/text()').extract()[0]
        quote = eachMoive.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()
        #quote可能为空，因此需要先进行判断
        if quote:
            quote = quote[0]
        else:
            quote = ''
        item['title'] = fullTitle
        item['movieInfo'] = ';'.join(movieInfo)
        item['star'] = star
        item['quote'] = quote
        yield item
    nextLink = selector.xpath('//span[@class="next"]/link/@href').extract()
    #第10页是最后一页，没有下一页的链接
    if nextLink:
        nextLink = nextLink[0]
        print nextLink
        yield Request(self.url + nextLink,callback=self.parse)

scrapy

阅读 7.1k

1 个回答

得票最新

abrasumente

33241114

发布于
2015-10-06

✓ 已被采纳

def start_requests(self):
    return [scrapy.Request("http://movie.douban.com/top250?start={0}".format(x * 25)) for x in range(0, 10)]

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？
之前一直是好好的，代码也没变过，突然就报这个错误，并且在mac上是好的，我把win11上的代码移除重新从仓库里拉代码下拉也是一样的错误，是不是win上文件编码必须是gbk格式的。我用vscode编辑器右下角显示所有的文件都是UTF-8的，是不是都要把它转成gbk？
1 回答1.1k 阅读

相似问题

找不到问题？创建新问题

scrapy的这个案例“下一页”用循环实现怎么写？

你尚未登录，登录后可以

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？