最近在学习爬虫,一般要不就爬图片,要不就爬文本,最近想着爬取豆瓣图书页面的封面和标题简介,想着一起保存下来,但是找了下好像没有看到这种办法保存方式
所以想问是否存在某种方法可以同时爬虫保存图片和文本在一个页面中,格式可以是doc, html之类的
doc的看了下,有个库是docx
, 可以写入图片和文本到一个doc文件中,但是这需要先下载图片,然后添加图片进去的。如下
是否有某种办法,在爬虫存取数据中,遇到图片格式就下载图片保存,遇到文本就文本保存呢,最后打开可以看到文本和图片
谢谢!
最近在学习爬虫,一般要不就爬图片,要不就爬文本,最近想着爬取豆瓣图书页面的封面和标题简介,想着一起保存下来,但是找了下好像没有看到这种办法保存方式
所以想问是否存在某种方法可以同时爬虫保存图片和文本在一个页面中,格式可以是doc, html之类的
doc的看了下,有个库是docx
, 可以写入图片和文本到一个doc文件中,但是这需要先下载图片,然后添加图片进去的。如下
是否有某种办法,在爬虫存取数据中,遇到图片格式就下载图片保存,遇到文本就文本保存呢,最后打开可以看到文本和图片
谢谢!
不好处理,因为不管是图片还是文本,初始化过来的图片连接或者文本内容,它都是一个string字符串
假如,图片连接是‘http://www.baidu.com/image.png’,文本内容也是‘http://www.baidu.com/image.png’,这个时候,你怎么处理?所以,必须得先知道你的这个主体是图片还是文本,然后才能去做对应的下载图片还是保存文本内容。