求：关于爬取每次刷新页面后元素结构和对应class名都不相同的解决方法？

Question

求：关于爬取每次刷新页面后元素结构和对应class名都不相同的解决方法？

dewei

4318

发布于
2023-05-31 北京

fenbox

6.8k237979

更新于
2023-06-01

新手上路，请多包涵

各位好，我使用 python 的 selenium 去爬取某网页的一些 a 标签，但有个问题，每次刷新后这个 a 标签所在的位置都会发生变化，比如第一次进入他的位置是：

[@id="layoutPage"]/div[1]/div[2]/div[11]/div[2]/div[3]/div[2]/div/div[1]/div[1]/a

第二次刷新进入他就成了

[@id="layoutPage"]/div[1]/div[2]/div[11]/div[2]/div[4]/div[2]/div/div[1]/div[1]/a

再下一次可能变成了

[@id="layoutPage"]/div[1]/div[2]/div[11]/div[2]/div[1]/div[2]/div/div[1]/div[1]/a

所以通过 xpath 获取路径的方式无法成功了。于是我想使用 a 标签上的 class 去获取，但每次的 class 名称也会不同。所以求助这样的 a 该怎么取呢？
这个 a 是每一页的跳转按钮。

爬虫

python selenium

阅读 2.6k

1 个回答

得票最新

linong

29.2k1368137

发布于
2023-05-31 北京

更新于
2023-05-31

class 名称都不同就有点诡异了吧，是有字体反扒什么的吗？给个页面看看

看上去就这一级别不一样。有可能是推荐算法啥的有关，也有可能和执行顺序有关。所以最好可以找找其他特征。

如果所有特征都没有，那么只能全采集，然后去过滤了

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

求：关于爬取每次刷新页面后元素结构和对应class名都不相同的解决方法？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

求：关于爬取每次刷新页面后元素结构和对应class名都不相同的解决方法？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？