如下图所示,如果,我想爬取csdn 【cocos2D】分类下的所有页面,这些页面中有图片、有附件。
问题1:我怎么通过爬虫将这些页面源码,以及页面中图片、附件都下载到本地,实现本地浏览?
问题2:我目前考虑到的问题有,下载了页面后,通过代码解析页面中的有图片、附件url,然后,下载图片、附件url到本地,然后,替换页面中图片、附件url为本地局部路径, 我觉得这个地方是个难点,应当怎么实现?这个思路是否有问题?
问题3:本人第一次写这样的爬虫程序,问题比较多,能否推荐一下,已经实现类似爬虫功能,的相关书籍、视频等资料?
问题4:这种爬取方式必须要模拟登陆之后才能爬取数据,如果,我不通过java编程方式,是否有其他什么工具能够实现这个需求? 请大神赐教,感激不尽……
https://jsoup.org/
使用jsoup,java库,下载html,提取内容,就像jquery操作dom一样方便,这个库足够你爬这些页面了,然后大概理理网站结构,把主要的部分下载就好了,css,html,href地址如果是绝对的要修改,图片。有的图片或背景图是在css中的,你可以后补上