Java中将Word文档转为HTML的方法?

需求:
输入Word文档(主要是doc,如果支持docx更好),输出HTML格式的字符串。并且能保证字体、颜色、文字和段落格式、图片、表格等不变。

在网上搜到的资料中,大部分人推荐POI。POI我也试过了,但是感觉功能比较弱,很多格式在转换过程中丢掉了。一般只能用它来获取文档中所有的文字。当然可能是我使用方法不对?

不知道大家是否有这方面的经验,自己写的、开源的、收费的都可以。希望大家给推荐一个。

阅读 7.1k
1 个回答

Spire.Doc for Java能够满足你提到的需求,在Word转换Html后保证文本格式不会发生变化。有免费版和商业版,免费版对加载文档页数会有限制,商业版不会有任何功能限制。建议使用商业版。下方转换代码供参考:

import com.spire.doc.*;
public class toHtml {
    public static void main(String[] args) {
        
        //加载示例文档
 Document document = new Document();
        document.loadFromFile("C:UsersTest1DesktopSample.docx");
        //保存为HTML格式
 document.saveToFile("output/toHtml.html", FileFormat.Html);
    }
}
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进