在Rule中设置了deny,但是并未生效:
代码如下:
'123123':(
Rule(LinkExtractor(allow='\d+-\d+-\d+/.*?-.*?.shtml', deny=('http://search.******.com.cn/.*?')),
callback='parse_item', follow=True),
Rule(LinkExtractor(allow='a[href^="http"]',deny_domains=('http://auto.******.com.cn')), follow=True)
)
运行的时候还是有debug是禁止的链接
你排除的是123123.com.cn, 抓取的是sina.com.cn,没毛病吧
deny_domains里去掉协议头直接用域名试试