我正在尝试使用 python 阅读 pdf,内容有许多换行符 (crlf)。我尝试使用以下代码删除它们:
from tika import parser
filename = 'myfile.pdf'
raw = parser.from_file(filename)
content = raw['content']
content = content.replace("\r\n", "")
print(content)
但输出保持不变。我也尝试使用双反斜杠,但没有解决问题。有人可以建议吗?
原文由 Leni 发布,翻译遵循 CC BY-SA 4.0 许可协议
我无权访问您的 pdf 文件,所以我在我的系统上处理了一个。我也不知道您是需要删除所有新行还是只需要加倍新行。下面的代码删除了双新行,这使输出更具可读性。
请让我知道这是否适合您当前的需求。