如何搜索多个pdf文件的内容?

新手上路,请多包涵

如何在目录/子目录中搜索 PDF 文件的内容?我正在寻找一些命令行工具。似乎 grep 无法搜索PDF文件。

原文由 Jestin Joy 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 820
2 个回答

您的发行版应提供一个名为 pdftotext 的实用程序:

 find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

“-”对于将 pdftotext 输出到标准输出而不是文件是必需的。 --with-filename--label= 选项会将文件名放在 grep 的输出中。可选的 --color 标志很好,它告诉 grep 在终端上使用颜色输出。

(在 Ubuntu 中, pdftotextxpdf-utilspoppler-utils 包提供。)

This method, using pdftotext and grep , has an advantage over pdfgrep if you want to use features of GNU grep that pdfgrep 不支持。 注意:pdfgrep-1.3.x 支持 -C 打印上下文行的选项。

原文由 sjr 发布,翻译遵循 CC BY-SA 3.0 许可协议

pdfgrep ,它的功能正是它的名字所暗示的。

 pdfgrep -R 'a pattern to search recursively from path' /some/path

我已经将它用于简单的搜索,并且效果很好。

(在 Debian、Ubuntu 和 Fedora 中有软件包。)

从 1.3.0 版 开始,pdfgrep 支持递归搜索。自 Ubuntu 12.10 (Quantal) 起,该版本在 Ubuntu 中可用。

原文由 Graeme 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题