crawlspider中deny的设置无效？

看近行远

发布于
2018-12-29

更新于
2018-12-29

在Rule中设置了deny，但是并未生效：

代码如下：

'123123':(
        Rule(LinkExtractor(allow='\d+-\d+-\d+/.*?-.*?.shtml', deny=('http://search.******.com.cn/.*?')),
         callback='parse_item', follow=True),
        Rule(LinkExtractor(allow='a[href^="http"]',deny_domains=('http://auto.******.com.cn')), follow=True)
        )

运行的时候还是有debug是禁止的链接

阅读 2k

2 个回答

发布于
2018-12-29

更新于
2018-12-29

你排除的是123123.com.cn, 抓取的是sina.com.cn，没毛病吧

deny_domains里去掉协议头直接用域名试试

看近行远

发布于
2019-01-02

设置deny和deny_domains都没用

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题