scrapy爬虫循环页码这样对吗？

Question

scrapy爬虫循环页码这样对吗？

发布于
2015-10-02

scrapy爬虫，要爬取1-100页的内容，用循环把网址生成，代码如下：

def start_requests(self):
    pages=[]
    for i in range(1,100):
    newpage=scrapy.Request("http://www.yyyy.com/yyy/yyy-list.php?page=%s"%i)
    pages.append(newpage)
return pages

这样对吗？

scrapy

阅读 5k

1 个回答

得票最新

importcjj

223136

发布于
2015-10-04

✓ 已被采纳

import scrapy

url_prefix = "http://www.yyyy.com/yyy/yyy-list.php?page={}"

class YyyySpider(scrapy.spiders.Spider):

name = "Yyyy"
allowed_domains = ["yyyy.com"]
start_urls = [
     url_prefix.format(i) for i in range(1,101)
]

def parse(self, response):
    filename = response.url.split("/")[-2]
    with open(filename, 'wb') as f:
        f.write(response.body)

大概可以这样

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？
之前一直是好好的，代码也没变过，突然就报这个错误，并且在mac上是好的，我把win11上的代码移除重新从仓库里拉代码下拉也是一样的错误，是不是win上文件编码必须是gbk格式的。我用vscode编辑器右下角显示所有的文件都是UTF-8的，是不是都要把它转成gbk？
1 回答1.2k 阅读

相似问题

找不到问题？创建新问题

scrapy爬虫循环页码这样对吗？

你尚未登录，登录后可以

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？