scrapy不能爬取全部url链接，把没爬取到的url做单独爬取是可以获取页面的内容的。

Question

scrapy不能爬取全部url链接，把没爬取到的url做单独爬取是可以获取页面的内容的。

发布于
2018-02-05

新手上路，请多包涵

class YinPin(CrawlSpider):

name = "yingping"
allowed_domains = ['movie.mtime.com']

start_urls = ['http://movie.mtime.com']

rules = (
    Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/$')), callback='movie_info', follow=True),
    #Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/reviews/short/new.html')),callback='short_critic_content',follow=True),
    #Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/reviews/short/new-\d+\.html')),callback='short_critic_content',follow=True),
    #Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/comment.html')),follow=True),
    #Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/comment-\d+\.html')),follow=True),
    #Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/reviews/\d+\.html')),callback='long_critic_content',follow=True),
)


def movie_info(self, response):
    selector = Selector(response)
    movie_url = response.url  #
    number = re.compile(r'\d+')
    movie_num = int(number.search(str(movie_url)).group())
    movie_name = selector.xpath('//*[@id="db_head"]/div[2]/div/div[1]/h1/text()').extract_first()
    movie_release_time = selector.xpath('//*[@id="db_head"]/div[2]/div/div[1]/p[1]/a/text()').extract_first()
    movie_type = selector.xpath('//*[@id="db_head"]/div[2]/div/div[2]/a/text()').extract()
    if movie_type:
        movie_type_l = movie_type.pop()
    movie_type = ' '.join(movie_type)
    self.logger.info(response.url)
    item = YingpingItem(
        movie_num = movie_num,
        movie_name = movie_name,
        movie_release_time = movie_release_time,
        movie_type = movie_type,
    )
    yield item

python

阅读 2.2k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

scrapy不能爬取全部url链接，把没爬取到的url做单独爬取是可以获取页面的内容的。

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？