crawlspider中deny的设置无效?

在Rule中设置了deny,但是并未生效:

代码如下:

'123123':(
        Rule(LinkExtractor(allow='\d+-\d+-\d+/.*?-.*?.shtml', deny=('http://search.******.com.cn/.*?')),
         callback='parse_item', follow=True),
        Rule(LinkExtractor(allow='a[href^="http"]',deny_domains=('http://auto.******.com.cn')), follow=True)
        )

运行的时候还是有debug是禁止的链接
clipboard.png

阅读 2k
2 个回答

你排除的是123123.com.cn, 抓取的是sina.com.cn,没毛病吧

deny_domains里去掉协议头直接用域名试试

设置deny和deny_domains都没用

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题