用 python 读取 .doc 文件

新手上路,请多包涵

我得到了工作申请测试,我的交易是阅读一些 .doc 文件。有谁知道图书馆可以做到这一点?我从一个原始的 python 代码开始:

 f = open('test.doc', 'r')
f.read()

但这不会返回友好的字符串,我需要将其转换为 utf-8

编辑:我只想从此文件中获取文本

原文由 Italo Lemos 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 589
1 个回答

可以使用 textract 库。它同时处理“doc”和“docx”

 import textract
text = textract.process("path/to/file.extension")

您甚至可以使用“antiword”(sudo apt-get install antiword),然后先将 doc 转换为 docx,然后通读 docx2txt

 antiword filename.doc > filename.docx

最终,后端的 textract 使用了 antiword。

原文由 Shivam Kotwalia 发布,翻译遵循 CC BY-SA 3.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题