请问,使用python如何解析该页面的源码呢?以便获取所需要的数据
注:html源码中的重要数据,好像是以json格式存储的吧?而且好像进行了某种格式的编码转换,本人小菜,希望各位帮忙指点下
请问,使用python如何解析该页面的源码呢?以便获取所需要的数据
注:html源码中的重要数据,好像是以json格式存储的吧?而且好像进行了某种格式的编码转换,本人小菜,希望各位帮忙指点下
4 回答4.5k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
4 回答3.9k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
2 回答502 阅读✓ 已解决
1 回答4k 阅读✓ 已解决
强烈的既视感啊,总觉得在sf上曾经有人说过要抓这个网站……
我的想法是最好能够有浏览引擎,把这个页面渲染出来,然后抓DOM树。
极重AJAX依赖的页面,我们关注的是Javascript执行出来的结果。如果去分析Javascript的源码本身,这个从可靠性上就差了一层。
如果真要简单分析,那么我可以肯定的说:中间大段的那些内容JSON可读。你可以把从网页里抽出来的这部分内容,放到http://jsoneditoronline.org/里边自己看看。