如何从mht文件中提取图片?

新手上路,请多包涵

如何从mht文件中提取图片?图片src=“cid:3f352854-a9d9-4ce4-8a18-4db64479347d“,最好用python或者java

image.png

阅读 5.5k
2 个回答

图片在 MHTML 文件后面,以 Base64 格式编码存储。MHTML 格式也比较简单,用特定的分隔符分割(可以用正则匹配),合并行,然后 Base64 解个码就完事了。

这应该是页面加载之后再渲染 src 的。
所以建议用 Puppeteer + JS 抓取。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题