crawlspider能不能只爬当前链接的数据？

Question

crawlspider能不能只爬当前链接的数据？

发布于
2019-03-19

比如，给一个起始链接：http://music.ent.163.com/

Rule：

rules = [
        Rule(LinkExtractor(allow=r'/news/\d+/\d+/\d+.html'), callback='parse_item', follow=True),
        Rule(LinkExtractor(allow=r'/special/[a-zA-Z]+/'), follow=True),
        Rule(LinkExtractor(allow=r'/special/[a-zA-Z]+/[a-zA-Z]+/'), follow=True),
    ]

settings：

custom_settings = {
            'DEPTH_LIMIT': 1,
        }

Rule第一个是详情页的链接规则，下面两个是获取栏目页的链接的。settings设置了最大深度是1。
按照我的理解：根据起始链接，获取到起始链接页面符合条件的详情页链接，然后获取符合条件的栏目页链接，再获取栏目页面的详情页链接（不需要再根据详情页链接往下爬了）...

原始需求：
只爬1级，深度限制一下。比如start_urls给首页，会爬首页全部的详情页（但是不会再顺着详情页往下爬了），还会爬首页上的列表页，再爬列表页上的详情页（不会再往下爬了）

python

阅读 1.2k

1 个回答

得票最新

guanhui07

792129

发布于
2019-03-19

先获取列表页然后根据数据判断爬详情页

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

crawlspider能不能只爬当前链接的数据？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

crawlspider能不能只爬当前链接的数据？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？