原地址 http://blog.sina.com.cn/s/blog_4701280b0102elmo.html
start_urls =['http://blog.sina.com.cn']
rules = [Rule(LinkExtractor(allow=['/s/blog_4701280b0102e[\da-zA-Z]+']), 'parse_torrent')]
rules里的正则表达式(黑体倾斜的)对吗?
原地址 http://blog.sina.com.cn/s/blog_4701280b0102elmo.html
start_urls =['http://blog.sina.com.cn']
rules = [Rule(LinkExtractor(allow=['/s/blog_4701280b0102e[\da-zA-Z]+']), 'parse_torrent')]
rules里的正则表达式(黑体倾斜的)对吗?
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1k 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
后面的
.html
没有匹配,这样就匹配不到完整的URL了。应该加上后面的
.html
,正则规则如下:/s/blog_4701280b0102e[\da-zA-Z]+.html