爬虫怎么获得带格式的文章，并保存到word

遇到的问题

需要爬取网站上的文章，类似于百度文库，文章带格式，并且还有表格之类的。
我爬虫只能获得纯文本，

我的思路

读取css样式来设置每个行的格式的话比较麻烦。

请教

请问有什么好的方法吗？
有没有一种通过html转化word的工具可用？

阅读 7.9k

首先说一下，题主所说的百度文库带表格的内容其实并不是真的表格，本质依旧是<p>标签显示文本内容，表格只是一个背景图片而已
-- 正文--
你抓取的每一个数据都对应一个html标签，所以可以根据html标签在写入word时设置不同的格式
例如：
<p></p>:代表一个段落，写入word时可以设置默认缩进
<h1></h1>:代表1号加粗字体，写入word时设置加粗和字号
等等，你可以把不同的标签事先封装好，写入的时候就是按照你的格式来写入
下图是我自己曾经抓取内容，格式和图片都有，并且保留图片的位置
抓取示例

爬虫怎么获得带格式的文章，并保存到word

遇到的问题

我的思路

请教

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？