使用python从多个powerpoint文件中提取文本

新手上路,请多包涵

我试图找到一种方法来查看文件夹并搜索该文件夹中所有 powerpoint 文档的内容以查找特定字符串,最好使用 Python。找到这些字符串后,我想报告该字符串之后的文本以及找到它的文档。我想编译这些信息并将其报告为 CSV 文件。

到目前为止,我只遇到了 olefil 包, https: //bitbucket.org/decalage/olefileio_pl/wiki/Home。这提供了特定文档中包含的所有文本,这不是我想要做的。请帮忙。

原文由 kacey 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 571
1 个回答

实际工作

如果要提取文本:

  • 从 pptx 导入演示文稿(pip 安装 python-pptx)
  • 对于目录中的每个文件(使用 glob 模块)
  • 查看每张幻灯片和每张幻灯片中的每个形状
  • 如果有带有文本属性的形状,打印 shape.text

 from pptx import Presentation
import glob

for eachfile in glob.glob("*.pptx"):
    prs = Presentation(eachfile)
    print(eachfile)
    print("----------------------")
    for slide in prs.slides:
        for shape in slide.shapes:
            if hasattr(shape, "text"):
                print(shape.text)

原文由 PythonProgrammi 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题