我现在有很多pdf文件,现在假设这些pdf文件都是文字类型的,非扫描版图片格式的。虽然可以使用软件将pdf转为txt文本文件,但是由于pdf文件数量太多,大概有好几百篇,所以我也没有尝试使用操作软件的手工方式。这两天,尝试过使用itext,引用itextpdf-5.5.10.jar,代码来自于http://stackoverflow.com/ques... 的ExtractPageContent类,直接使用,正确运行,没有报错。但是转换之后的文本内容明显减少,好像也只能识别出英文数据,达不到要求。使用python的pdfminer3k进行转换,乱码。使用ghostscript转换,乱码。后来用了别人的源码(基于poppler),效果还行,但是由于pdf是两列的格式,它进行转换时候,是按照行来转换的,转换之后的格式不好,如下图所示。
转换之后的效果如图
可以看到解析之后的文本明显错位了。
原来的pdf文件,百度网盘地址https://pan.baidu.com/s/1nvLQnLf
我现在还有一个问题是:pdf文件产生的方式有很多种,既可以使用latex编写产生,还可以使用word另存为,还可以使用编程语言如iReport等产生。而且这些格式如果不一样,那么会不会转换很麻烦?
楼主,我知道怎么提取中文文本不会乱码。但是你这种分一半的形式不知道怎么解决。
我其实也遇到了类似问题,就是我的pdf有一部分是表格形式的,一部分是图片的,我只想提取表格部分的,但是不知道如何确定范围去提取。这个楼主知道不?