在scrapy中为什么抓不到h1的内容?

在spider中代码是这样的:

sel = Selector(response)
sites=sel.xpath('//div[@id="frag_1"]//h1/text()').extract()
print sites

抓取页面如下所示:
图片描述

抓取网页:http://www.sciencedirect.com/science/article/pii/S0927775706008156

日志为:
图片描述

其中,抓取期刊名称“Colloids and Surfaces A: Physicochemical and Engineering Aspects”,是ok的。

阅读 4.1k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进