在scrapy中为什么抓不到h1的内容？

发布于
2015-01-20

更新于
2015-01-20

在spider中代码是这样的：

sel = Selector(response)
sites=sel.xpath('//div[@id="frag_1"]//h1/text()').extract()
print sites

抓取页面如下所示：
图片描述

抓取网页：http://www.sciencedirect.com/science/article/pii/S0927775706008156

日志为：
图片描述

其中，抓取期刊名称“Colloids and Surfaces A: Physicochemical and Engineering Aspects”，是ok的。

scrapy python爬虫

阅读 4.2k

1 个回答

发布于
2015-01-20

因为这个h1是通过ajax请求动态加载的

爬虫不能直接爬取，填充的请求是：

http://www.sciencedirect.com/science/frag/S0927775706008156/9899dec61b0879aa5f954b8f9a594a1026dc4a44c39be2bfb11514cf3c674a7da011cbb661dcd93bb55a33b09281b4674824d1034e2212ddcc8cae201b02f70b59a18bc5a83ecc3c9566807dbeae7cdf8700bb8bcbad524a15358461a7fd35cb5fa09cbf177f5301f11f3df889c3d73963d149466f992436e04b500146f101a5cce87cafe0f82cc9b574e25dcb65131f83e429518a406c95/frag_1

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

win11上跑 scrapy爬虫脚本，一直报错 'gbk' codec can't decode byte 0xae in position 324:？
之前一直是好好的，代码也没变过，突然就报这个错误，并且在mac上是好的，我把win11上的代码移除重新从仓库里拉代码下拉也是一样的错误，是不是win上文件编码必须是gbk格式的。我用vscode编辑器右下角显示所有的文件都是UTF-8的，是不是都要把它转成gbk？
1 回答1.1k 阅读

相似问题

找不到问题？创建新问题