爬虫怎么获得带格式的文章,并保存到word

遇到的问题

需要爬取网站上的文章,类似于百度文库,文章带格式,并且还有表格之类的。
我爬虫只能获得纯文本,

clipboard.png

我的思路

读取css样式 来设置每个行的格式的话比较麻烦。

请教

请问有什么好的方法吗?
有没有一种通过html转化word的工具可用?

阅读 7.9k
2 个回答

只能word? 用无头浏览器可以直接保存PDF

首先说一下,题主所说的百度文库带表格的内容其实并不是真的表格,本质依旧是<p>标签显示文本内容,表格只是一个背景图片而已
-- 正文--
你抓取的每一个数据都对应一个html标签,所以可以根据html标签在写入word时设置不同的格式
例如:
<p></p>:代表一个段落,写入word时可以设置默认缩进
<h1></h1>:代表1号加粗字体,写入word时设置加粗和字号
等等,你可以把不同的标签事先封装好,写入的时候就是按照你的格式来写入
下图是我自己曾经抓取内容,格式和图片都有,并且保留图片的位置
抓取示例

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题