Mshu
  • 208

爬虫怎么获得带格式的文章,并保存到word

遇到的问题

需要爬取网站上的文章,类似于百度文库,文章带格式,并且还有表格之类的。
我爬虫只能获得纯文本,

clipboard.png

我的思路

读取css样式 来设置每个行的格式的话比较麻烦。

请教

请问有什么好的方法吗?
有没有一种通过html转化word的工具可用?

阅读 1.3k
评论 更新于 2019-04-15
    2 个回答

    只能word? 用无头浏览器可以直接保存PDF

    评论 赞赏 2019-04-15

      首先说一下,题主所说的百度文库带表格的内容其实并不是真的表格,本质依旧是<p>标签显示文本内容,表格只是一个背景图片而已
      -- 正文--
      你抓取的每一个数据都对应一个html标签,所以可以根据html标签在写入word时设置不同的格式
      例如:
      <p></p>:代表一个段落,写入word时可以设置默认缩进
      <h1></h1>:代表1号加粗字体,写入word时设置加粗和字号
      等等,你可以把不同的标签事先封装好,写入的时候就是按照你的格式来写入
      下图是我自己曾经抓取内容,格式和图片都有,并且保留图片的位置
      抓取示例

      评论 赞赏 2019-04-15
        撰写回答

        登录后参与交流、获取后续更新提醒