爬虫实现下载网页源码,css,js

怎么用python实现爬虫实现下载网页源码,css,js文件,
就是把一些页面或者整个网站扒下来,自己断网都可以访问
用python实现

阅读 6.3k
2 个回答

首先,希望你要爬取的网站的反爬虫技术比较落后,那么建议你看看这篇文章——使用 beautifulsoup 4 抓取网页内容实例
其次,如果爬取的网站用的js技术比较多,那么建议你用 selenium2 + phantomjs。
.....
如果你想爬取淘宝之类的网站,我也不会,我曾经爬取过,用了第二种方法,就高兴了一分钟,然后就爬取不到了。如果你有结果,记得告诉我一声。

你如果要断网都可以访问,对于动态网站来说,那是不可能的。

推荐问题