0

遇到的问题

需要爬取网站上的文章,类似于百度文库,文章带格式,并且还有表格之类的。
我爬虫只能获得纯文本,

clipboard.png

我的思路

读取css样式 来设置每个行的格式的话比较麻烦。

请教

请问有什么好的方法吗?
有没有一种通过html转化word的工具可用?

Mshu 198
2019-04-15 提问
2 个回答
1

只能word? 用无头浏览器可以直接保存PDF

1

首先说一下,题主所说的百度文库带表格的内容其实并不是真的表格,本质依旧是<p>标签显示文本内容,表格只是一个背景图片而已
-- 正文--
你抓取的每一个数据都对应一个html标签,所以可以根据html标签在写入word时设置不同的格式
例如:
<p></p>:代表一个段落,写入word时可以设置默认缩进
<h1></h1>:代表1号加粗字体,写入word时设置加粗和字号
等等,你可以把不同的标签事先封装好,写入的时候就是按照你的格式来写入
下图是我自己曾经抓取内容,格式和图片都有,并且保留图片的位置
抓取示例

撰写答案

推广链接