POI解析doc全文,如何跳过页眉页脚?

新手上路,请多包涵

如题,我需要用poi解析word文档,主要就用wordExtractor的getText方法来抽取文字内容。但是不能包含页眉页脚的内容。

对于docx格式的,我找到了一种解决方案。即是docx的文档可以转成XWPFDocment对象,有getHeaderList()和getFooterList()方法,可以遍历这些页眉页脚对象,用空的instance覆盖掉,再用XWPFWordExtractor的getText()就可以达到解析正文、跳过页眉页脚的效果;

但是doc格式的我还没弄出来。 doc格式对应的是HWPFDocument对象吧,和docx的API差别挺大的。 有什么方法可以仿照上面的内容把页眉页脚用空的进行替换吗? 或者有别的解决方案也可以

阅读 2.4k
1 个回答

可以使用 POI 的 "XWPFHeaderFooterPolicy" 类:

XWPFDocument document = new XWPFDocument(new FileInputStream("document.doc"));

// 跳过页眉页脚
XWPFHeaderFooterPolicy headerFooterPolicy = document.getHeaderFooterPolicy();
if (headerFooterPolicy != null) {
    headerFooterPolicy.createHeader(XWPFHeaderFooterPolicy.DEFAULT);
    headerFooterPolicy.createFooter(XWPFHeaderFooterPolicy.DEFAULT);
}
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题