使用pyqt5的QWebEngineView视图组件可以打开网址(或加载本地的html网页),加载网页后可以通过运行javascript代码获取网页源代码或者通过toHtml函数来获取网页源代码。下面就展示了如何通过toHtml函数获取源代码。
首先创建一个垂直布局,一个QWebEngineView组件和一个QPushButton组件,并将两个组件添加到垂直布局中,同时将layout垂直布局设置给self窗口。
其次,然后通过load方法加载百度地图,然后给button按钮添加一个点击的槽函数add_script。
最后,在槽函数里面实现打印源代码的功能,主要使用到的是 self.web_browser.page().toHtml函数,因为该函数需要一个函数作为其参数,同时会将网页源代码传递出去,于是给其中传递了一个匿名函数lambda,并打印了参数x 即是toHtml传递出去的源代码。这样就实现了获取网页源代码的功能,toHtml有点类似一个信号。
在实现过程中可以进行优化调整,如给self.web_browser.loadFinished信号绑定一个自己定义的槽函数,当网页加载完成后再实现获取网页源代码。槽函数里面可以任意处理,如通过实例变量接受,或者保存为本地网页,或者进一步的解析网页源代码,获取指定的元素或文本内容。
另外,QWebEngineView也有执行javascript的功能runJavaScript函数,可以将其当成selenium来进行自动化操作。
import sys
from PyQt5.Qt import *
class MainWindow(QWidget):
def __init__(self):
super(MainWindow, self).__init__()
self.setupUI()
def setupUI(self):
layout = QVBoxLayout()
self.web_browser = QWebEngineView()
# self.web_browser.load(QUrl('https://pan.baidu.com/s/17XlMuMzfQhwJ5R1Bn7yuiA#list/path=%2F'))
btn = QPushButton('加载脚本')
layout.addWidget(btn)
layout.addWidget(self.web_browser)
self.setLayout(layout)
self.web_browser.load(QUrl('https://map.baidu.com'))
btn.clicked.connect(self.add_script)
# self.web_browser.loadFinished.connect(self.add_script)
def add_script(self):
print('按钮已被点击')
# self.web_browser.page().toPlainText(lambda x: print(x))
self.web_browser.page().toHtml(lambda x: print(x))
# self.web_browser.page().runJavaScript('''function getname(){
# var elem = document.getElementById("user-center");
# elem.remove();
# var elem2 = document.getElementById("message-center");
# elem2.remove();
# var elem3 = document.querySelector('.BMap_cpyCtrl');
# elem3.remove();
# var elem4 = document.querySelector('.BMap_scaleCtrl');
# elem4.remove();
# var elem5 = document.querySelector('#newuilogo');
# elem5.remove();};
# getname();
# ''')
if __name__ == '__main__':
app = QApplication(sys.argv)
window = MainWindow()
window.show()
sys.exit(app.exec_())
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。