用于测试的链接是这样的
http://www.zhcw.com/ssq/kjgg/10006509.shtml
用于测试的链接是这样的
http://www.zhcw.com/ssq/kjgg/10006509.shtml
from pyquery import PyQuery as Q
import requests
import json
r = requests.get('http://www.zhcw.com/ssq/kjgg/10006509.shtml')
str = Q(r.content)('#currentScript').html()
info = json.loads(str)[0]
print info
4 回答4.4k 阅读✓ 已解决
1 回答3.1k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.1k 阅读✓ 已解决
1 回答4.4k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
通过查找,发现这些数据是加载完页面再由JS动态写入的:

接着来找

zj
,上面两行有:其中,con为
$.trim($('#currentScript').html().replace('<div>', '').replace('</div>', ''))
也就是,将
$('#currentScript').html()
的内容,去掉div
标签后,过滤首尾空白字符后,取[
到]
中的数据,当做JSON解析。这部分操作可以通过Python完成,所以,先用Python的BeautifulSoup找到
#currentScript
,再手动替换,然后当做JSON解析即可这样,就可以得到一个JSON字符串了,然后放到python的JSON解析器解析成JSON对象,这个你自己写吧。