scrapy爬取网页编码思路的问题

Question

scrapy爬取网页编码思路的问题

622034

发布于
2017-10-12

我在mongodb里存了4万个url，我想对每一个url进行爬取，那么在start_requests()方法里，应该用怎样的方法比较好呢？解析函数和其他的我已经写好了。
我自己一开始是想直接取出所有的url，组成一个list，用for循环去yield Request,但是我总感觉这个办法很蠢。。。初学者，大伙给点意见，谢谢啦～

scrapy

python 网页爬虫 python爬虫

阅读 2.7k

1 个回答

得票最新

xiaojieluoff

24428

发布于
2017-10-13

先从 mongodb 中提取所有 url 到 redis 队列中，然后再循环队列取出 url:

def start_requests(self):
    cache = redis.Redis()
    key = 'Crawl_url'
    while not cache.llen():
        url = cache.lpop(key)
        yield scrapy.Request(url)

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

scrapy爬取网页编码思路的问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？