爬虫实现下载网页源码,css,js

怎么用python实现爬虫实现下载网页源码,css,js文件,
就是把一些页面或者整个网站扒下来,自己断网都可以访问
用python实现

阅读 6.3k
2 个回答

首先,希望你要爬取的网站的反爬虫技术比较落后,那么建议你看看这篇文章——使用 beautifulsoup 4 抓取网页内容实例
其次,如果爬取的网站用的js技术比较多,那么建议你用 selenium2 + phantomjs。
.....
如果你想爬取淘宝之类的网站,我也不会,我曾经爬取过,用了第二种方法,就高兴了一分钟,然后就爬取不到了。如果你有结果,记得告诉我一声。

你如果要断网都可以访问,对于动态网站来说,那是不可能的。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题