爬虫获取网页后,想要获取网页中<script></script>下的某个变量的内容。
比如我想获取页面下,script中的global这个变量下的内容
需要怎么获取呢?
爬虫获取网页后,想要获取网页中<script></script>下的某个变量的内容。
比如我想获取页面下,script中的global这个变量下的内容
需要怎么获取呢?
直接使用js2py执行script中代码,执行结束之后python可以访问script中声明的变量名
soup = BeautifulSoup(html, "lxml")
data = soup.find_all('script', type='text/javascript')
script_content = data[0].string
context = js2py.EvalJs()
context.execute(script_content)
print(window.__INITIAL_COMPONENTS_STATE__)
后来自己直接用正则去匹配,然后最后用json去解。