使用tika将pdf转为html

序

tika是个功能强大的项目，这里展示下如何使用tika来将pdf转为html。

maven

<!--start of tika-->
        <!-- https://mvnrepository.com/artifact/org.apache.tika/tika-core -->
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-core</artifactId>
            <version>1.16</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.tika/tika-parsers -->
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-parsers</artifactId>
            <version>1.16</version>
        </dependency>

        <!--end of tika -->

转换

public static String extractHtml(File file) throws IOException {
        byte[] bytes = Files.toByteArray(file);
        AutoDetectParser tikaParser = new AutoDetectParser();
        ByteArrayOutputStream out = new ByteArrayOutputStream();
        SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
        TransformerHandler handler;
        try {
            handler = factory.newTransformerHandler();
        } catch (TransformerConfigurationException ex) {
            throw new IOException(ex);
        }
        handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
        handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
        handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");
        handler.setResult(new StreamResult(out));
        ExpandedTitleContentHandler handler1 = new ExpandedTitleContentHandler(handler);
        try {
            tikaParser.parse(new ByteArrayInputStream(bytes), handler1, new Metadata());
        } catch (SAXException | TikaException ex) {
            throw new IOException(ex);
        }
        return new String(out.toByteArray(), "UTF-8");
    }

小结

效果对比的话，pdfDom的效果好一点。

使用tika将pdf转为html

序

maven

转换

小结

codecraft

引用和评论

聊聊Spring AI Alibaba的MermaidGenerator

.NET用C#提取PDF文档表格到文本、CSV和Excel文件

为什么我的 PDF 无法正确转换为 Word？常见格式问题和最佳解决方案

PDF 文本提取为何如此困难？– 原因和解决方案

将 PDF 转换为 Word — 固定布局 vs 重排布局？

用JavaScript在React实现PDF文本提取

别找了，所有免费的PDF转Word在线工具都在这了！