我得到了工作申请测试,我的交易是阅读一些 .doc 文件。有谁知道图书馆可以做到这一点?我从一个原始的 python 代码开始:
f = open('test.doc', 'r')
f.read()
但这不会返回友好的字符串,我需要将其转换为 utf-8
编辑:我只想从此文件中获取文本
原文由 Italo Lemos 发布,翻译遵循 CC BY-SA 4.0 许可协议
我得到了工作申请测试,我的交易是阅读一些 .doc 文件。有谁知道图书馆可以做到这一点?我从一个原始的 python 代码开始:
f = open('test.doc', 'r')
f.read()
但这不会返回友好的字符串,我需要将其转换为 utf-8
编辑:我只想从此文件中获取文本
原文由 Italo Lemos 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答987 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
可以使用 textract 库。它同时处理“doc”和“docx”
您甚至可以使用“antiword”(sudo apt-get install antiword),然后先将 doc 转换为 docx,然后通读 docx2txt 。
最终,后端的 textract 使用了 antiword。