遇到的问题
需要爬取网站上的文章,类似于百度文库,文章带格式,并且还有表格之类的。
我爬虫只能获得纯文本,
我的思路
读取css样式 来设置每个行的格式的话比较麻烦。
请教
请问有什么好的方法吗?
有没有一种通过html转化word的工具可用?
需要爬取网站上的文章,类似于百度文库,文章带格式,并且还有表格之类的。
我爬虫只能获得纯文本,
读取css样式 来设置每个行的格式的话比较麻烦。
请问有什么好的方法吗?
有没有一种通过html转化word的工具可用?
首先说一下,题主所说的百度文库带表格的内容其实并不是真的表格,本质依旧是<p>标签显示文本内容,表格只是一个背景图片而已
-- 正文--
你抓取的每一个数据都对应一个html标签,所以可以根据html标签在写入word时设置不同的格式
例如:
<p></p>:代表一个段落,写入word时可以设置默认缩进
<h1></h1>:代表1号加粗字体,写入word时设置加粗和字号
等等,你可以把不同的标签事先封装好,写入的时候就是按照你的格式来写入
下图是我自己曾经抓取内容,格式和图片都有,并且保留图片的位置
4 回答4.4k 阅读✓ 已解决
1 回答3.2k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.4k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
只能word? 用无头浏览器可以直接保存PDF