我的计算机中有数千个 PDF 文件,名称从 a0001.pdf
到 a3621.pdf
,每个文件里面都有一个标题;例如 --- 中的“碳酸铝”, a0002.pdf
a0001.pdf
中的“硝酸铝”等,我想提取它们以重命名我的文件。
我使用这个程序重命名文件:
path=r"C:\Users\YANN\Desktop\..."
old='string 1'
new='string 2'
def rename(path,old,new):
for f in os.listdir(path):
os.rename(os.path.join(path, f), os.path.join(path, f.replace(old, new)))
rename(path,old,new)
我想知道是否有解决方案来提取嵌入在 PDF 文件中的标题以重命名文件?
原文由 ParaH2 发布,翻译遵循 CC BY-SA 4.0 许可协议
安装包
这不能用普通的 Python 解决。您将需要一个外部包,例如
pdfrw
,它允许您读取 PDF 元数据。使用标准 Python 包管理器pip
安装非常简单。在 Windows 上,首先确保您拥有最新版本的
pip
使用 shell 命令:在 Linux 上:
在两个平台上,安装
pdfrw
包使用编码
我结合了 zeebonk 和 user2125722 的答案来写一些非常紧凑和可读的东西,它接近你的原始代码: