用 python 读取 .doc 文件

Question

新手上路，请多包涵

我得到了工作申请测试，我的交易是阅读一些 .doc 文件。有谁知道图书馆可以做到这一点？我从一个原始的 python 代码开始：

 f = open('test.doc', 'r')
f.read()

但这不会返回友好的字符串，我需要将其转换为 utf-8

编辑：我只想从此文件中获取文本

原文由 Italo Lemos 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 589

1 个回答

得票最新

可以使用 textract 库。它同时处理“doc”和“docx”

 import textract
text = textract.process("path/to/file.extension")

您甚至可以使用“antiword”（sudo apt-get install antiword），然后先将 doc 转换为 docx，然后通读 docx2txt 。

 antiword filename.doc > filename.docx

最终，后端的 textract 使用了 antiword。

原文由 Shivam Kotwalia 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

推荐问题

子站问答

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题