新手上路，请多包涵

我知道那里有类似的问题，但我找不到能回答我祈祷的东西。我需要的是一种从 MS-Word 文件访问某些数据并将其保存在 XML 文件中的方法。阅读 python-docx 并没有帮助，因为它似乎只允许一个人写入 word 文档，而不是阅读。准确地展示我的任务（或者我选择如何完成我的任务）：我想在文档中搜索关键字或短语（文档包含表格）并从关键字/短语所在的表格中提取文本数据成立。有人有什么想法吗？

原文由 Stefan Urziceanu 发布，翻译遵循 CC BY-SA 4.0 许可协议

python ms-word docx doc

阅读 1k

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

看来 pywin32 可以解决问题。您可以遍历文档中的所有表格以及表格中的所有单元格。获取数据有点棘手（必须省略每个条目的最后 2 个字符），但除此之外，这是一个十分钟的代码。如果有人需要更多详细信息，请在评论中说明。

原文由 Stefan Urziceanu 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-09

docx 是一个包含文档 XML 的 zip 文件。您可以打开 zip、阅读文档并使用 ElementTree 解析数据。

这种技术的优点是您 不需要安装任何额外的 python 库。

 import zipfile
import xml.etree.ElementTree

WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'
PARA = WORD_NAMESPACE + 'p'
TEXT = WORD_NAMESPACE + 't'
TABLE = WORD_NAMESPACE + 'tbl'
ROW = WORD_NAMESPACE + 'tr'
CELL = WORD_NAMESPACE + 'tc'

with zipfile.ZipFile('<path to docx file>') as docx:
    tree = xml.etree.ElementTree.XML(docx.read('word/document.xml'))

for table in tree.iter(TABLE):
    for row in table.iter(ROW):
        for cell in row.iter(CELL):
            print ''.join(node.text for node in cell.iter(TEXT))

请参阅我对如何使用 Python 读取 MS-Word 文件中的表格内容的 stackoverflow 回答？了解更多详情和参考。

在回答下面的评论时，图像没有那么清晰，无法提取。我创建了一个空的 docx 并在其中插入了一张图片。然后我打开 docx 文件作为 zip 存档（使用 7zip）并查看 document.xml。所有图像信息都作为属性存储在 XML 中，而不是像文本那样存储在 CDATA 中。因此，您需要找到您感兴趣的标签并提取您要查找的信息。

例如添加到上面的脚本：

 IMAGE = '{http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing}' + 'docPr'

for image in tree.iter(IMAGE):
    print image.attrib

输出：

 {'id': '1', 'name': 'Picture 1'}

我不是 openxml 格式的专家，但我希望这会有所帮助。

我确实注意到 zip 文件包含一个名为 media 的目录，其中包含一个名为 image1.jpeg 的文件，其中包含我的嵌入式图像的重命名副本。您可以查看 docx zip 文件以调查可用的内容。

原文由 Mike Robins 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 2 个回答

推荐问题

如何使用 Python 从 doc/docx 文件中提取数据

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译