使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？

Question

使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？

发布于
2016-07-03

比如：

class demoSpider(RedisSpider):
    name = "demospider"

    redis_key = 'demospider:start_urls'
    start_urls = ['http://www.example.com']

    def start_requests(self):
        pages=[]
        for i in range(1,10):
            url='http://www.example.com/?page=%s'%i
            page=scrapy.Request(url)
            pages.append(page)
        return pages

scrapy

阅读 13.1k

1 个回答

aristotll

✓ 已被采纳

不需要而且写了start_urls也没有用

http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests

The default implementation uses make_requests_from_url() to generate Requests for each url in start_urls

你重写start_requests也就不会从start_urls generate Requests了

看看源码

scrapy/spiders/__init__.py:68行

def start_requests(self):
    for url in self.start_urls:
        yield self.make_requests_from_url(url)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？
之前一直是好好的，代码也没变过，突然就报这个错误，并且在mac上是好的，我把win11上的代码移除重新从仓库里拉代码下拉也是一样的错误，是不是win上文件编码必须是gbk格式的。我用vscode编辑器右下角显示所有的文件都是UTF-8的，是不是都要把它转成gbk？
1 回答1.2k 阅读

相似问题

找不到问题？创建新问题

使用scrapy的时候，用了start_requests()循环生成要爬取的网址，还需要写start_urls吗？

你尚未登录，登录后可以

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？