python scrapy xpath抓取内容为空

Hell0_World

6111

目的是是打算抓取未来40天的天气预报的最高最低温度，要抓取的目标内容如图：

图片描述

尝试的代码为：item['temp_H']=response.xpath("//div[@class='city_40']/div[@class='W_left']/table/tbody/tr/td/div[@class='w_xian']/p/span[@class='max']")

但是返回的结果始终为空

用scrapy shell 了原始网页

图片描述

发现就没有预期应该出现的33°和25°出现，新手可能有些东西没说清楚，但是真诚的求指导！

python

阅读 14.6k

5 个回答

得票最新

SharkU

1.3k1616

发布于
2017-09-06

1.
首先禁用javascript然后查看你要的信息是否还在。

可以看到，信息并不是在html页面里面的。

在NetWork tab里选择XHR来查看
reload好像并没有发现什么。
我一般是在会更新的节点上下断点，比如 subtree modified.然后reload就会进入调试，在 call stack里面向上查看调用栈，找到ajax。
比如我发现了在

里面有 success函数，进入后发现了一个请求，url为"http://d1.weather.com.cn/calendar_new/2017/101300501_201709.html",数据类型为script，那么此时便可以在network选项卡中查看js filter里面的这个请求。

我要吃白菜

591117

发布于
2017-09-06

更新于
2017-09-06

请提供抓取的url
chrome有个快捷方法获取xpath（在你需要抓取的地方，点击右键，可以直接Copy Xpath）
没有出现温度信息，可能由于此信息为动态加载，你可以查看page_source，看看这里面是否有这个信息，来大致判断是否为动态加载数据

咸鱼一只

221

发布于
2017-09-06

首先确认页面不是动态加载的

其次如果提取属性最后一个是/@属性如果提取文本最后是/text()
是不是缺了这个 chrome提取xpath经常是复杂且残缺的

longbowking

发布于
2017-09-29

新手上路，请多包涵

你可以尝试删除tbody,应该是可以的

Crossin先生

94516

发布于
2017-09-06

chrome的elements栏显示的是浏览器渲染后的页面代码，和你实际从url抓到的代码不是一个概念。如果你发现抓下来的文本里没有你要的温度，那多半是通过另外请求再加上的，从network里找。
写xpath我觉得没必要一层一层的把tag加上去，用好//符号即可。如果你发现你的规则不起作用，先去掉一部分调试，成功了再逐步加上。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python scrapy xpath抓取内容为空

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？