Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码？

发布于
2017-02-23

我在做一个python爬虫，使用了selenium库和phantomjs浏览器。我在一个网页中触发了一个click事件打开了一个新的网页，然后我用browser.page_source得到的却是原来那个网页非新打开网页的源码，请问我该如何取得新打开页面的源码呢？

python phantomjs selenium 网页爬虫

阅读 9.3k

3 个回答

得票最新

alex

594

发布于
2017-04-27

✓ 已被采纳

Phantomjs对js事件支持的不太好，如果必须用click事件，你可以用chrome或者firefox，然后selenium有个隐藏浏览器界面的模块，这样就是完全模拟浏览器操作了，连user-agent都不需要伪装。还有，phantomjs爬虫，再header中会显示是phantomjs引擎的，对你的爬虫隐藏的不是太好，需要伪装

SharkU

1.3k1616

发布于
2017-02-23

如果链接打开了一个新标签页的话，你的driver还是下默认使用的还是当前窗口，

Alternatively, you can pass a “window handle” to the “switch_to_window()” method. Knowing this, it’s possible to iterate over every open window like so:

for handle in driver.window_handles:
    driver.switch_to_window(handle)

比如，如果你的浏览器有几个标签页，那么window_handles就保存了对应这几个标签页对应的实例对象，所以如果你当前只打开了一个网页，那么你新打开的页面就是 window_handles[1]
转换到那个页面后，再获取源码。

Xavier

282517

发布于
2017-02-25

如果是在当前窗口打开，有可能因为新页面还没有加载完成，到时拿不到新页面的url和数据，这里可以使用等待，并设置一些条件，确保新页面加载完成再进行操作，代码如下：

from selenium.webdriver.support.ui import WebDriverWait
# 等待新页面生成
WebDriverWait(self.browser, 5).until(
    expected_conditions.presence_of_element_located((By.ID, "username")
    )

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Python+Selenium+PhantomJs爬虫,如何取得新打开页面的源码？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？