需求来源:某人毕业论文需要文献综述,要看外文文献,并翻译为中文。本人在代劳的时候发觉这种工作应该交由脚本来解决比较轻松,所以emm.....
目前已实现:
1.小脚本将外文txt,转为分段落翻译后的英汉txt。
2.小脚本将外文pdf转为外文txt。(可惜可读性比较低)
在2的实现中,因为用三方库,转换出来的txt保留了pdf的换行。(就是那种明明是一整段的,只是囿于文本宽度,pdf里的样式是换行显示了)。在pdf2txt过程中,目前的代码是识别不出这种非正常的换行。导致转换出的txt,可读性大大降低。
e.g.
pdf:
bababbabababbabbababbabababbabbababbabababbabbababbabababbab(这里由于显示的就这么点宽度,就换行了) bababbabababbab
扫出来的txt:
bababbabababbabbababbabababbabbababbabababbabbababbabababbab
(n)bababbabababbab
直接导致段落数量爆炸。220页的pdf,转完有15760行,估计了下,脚本全跑完需要4个多小时才翻译完 - -!
各位有没有什么想法?请赐教,谢谢
论文段落一般是有空行的,用正则替换掉所有的单个换行符,保留连续的多个换行符,然后再翻译