我的selenium思路对吗？

发布于
2021-03-17

比如百度登入。
我先用火狐打开百度，利用“审查元素”，很容易就找到“账号”“密码”“登录按钮”对应的id
然后我再用
drive.find_elements_by_id(账号id).send(账号)
drive.find_elements_by_id(密码id).send(账号)
drive.find_elements_by_id(登录按钮id).click()
这样即可登入（图片验证码的事情这里先不聊）

所以我现在认为，任何基于selenium的编程，核心思路就如我上述的，找到ID/NAME/CLASS/XPATH，然后要么send，要么click 要么get attr等等。完全就是【手动/眼看】过程的脚本化。
这也就是selenium获取网页信息的办法的思路。应没错吧？

特别的：因为我纯粹靠百度学习，很容易有的知识面根本不知道，就想请问，selenium还有什么我需要了解的吗？

python html

阅读 1.5k

2 个回答

得票最新

linong

29.2k1366135

发布于
2021-03-18

✓ 已被采纳

嗯，你说的没错呀。

本来脚本就是把人的操作，一步一步写下来，然后让机器做。类似于还有一些按键精灵，可以自己做任务啥的。

但是，这只是一部分，比如说你想写一个抓取文章，那么有两种方案，

一种是针对域名，写特殊的规则。（你正在做的）
一种是针对结构，写普适的规则。（比如说百度的搜索引擎的蜘蛛）比如说 h1 就是标题，然后下面就是内容。
某些人为了让百度收录，所以他会针对性的做SEO优化。
但是对于你来说，没有人会配合你。所以你需要自己去观察一套规则。当然也有现成的一些库，他们会计算权重，删除无用内容。