现在网站大多用Javascript动态生成一些内容,用浏览器打开可以看到渲染好的页面,用鼠标可以选择复制。而用浏览器保存时,却只能保存下带Javascript源码的内容,将解析后的内容保存下来。不知道能否保存解析后的,在浏览器显示的最终样式呢?
已经尝试用Firefox的保存,保存为单个网页,保存为文本都无法找到由Javascript控制生成的内容。
比如:我打开Bing词典,里面的的英英解释是由Javascript生成的,在浏览器中当然可以选择我想要的内容;而用Firefox保存之后,则找不到由Javascript生成的内容。
下面是由Firefox保存为文本文件的结果:
权威英汉双解
<javascript:void(0);>
英汉
<javascript:void(0);>
英英
<javascript:void(0);>
网络释义
有没有办法保存整个已经被浏览器解析之后的网页呢?
听说使用爬虫时可以用selenium,phantomjs之类的库进行解析,但是自己的需求没有这么麻烦,感觉一两个网页用不着。而手工复制的话又太笨了。有没有一个半自动化的方法呢?
比如说,用Python控制IE打开一个网页,然后保存下已经解析的内容,再对保存下的内容进行分析。
首先,我不知道我想的对不对
爬虫刚入门,我只知道提交给服务器内容,服务器返回给我对应的内容。
这段返回的内容有你想要的,通过正则应该可以得到
请求的内容Request URL:http://cn.bing.com/dict/?q=python&go=%E6%8F%90%E4%BA%A4&qs=bs&form=Z9LH5
应该说的有很多不对,我对这个问题不怎么了解。如果有错误希望指出来,因为很多时候不是不想学习,实在不知道学什么。学习的关键词都不知道。