Python3爬虫下载pdf（二）

最近在学习python的爬虫，并且玩的不亦说乎，因此写个博客，记录并分享一下。

需下载下载以下模块

bs4模块
requests模块

一、源码

from concurrent.futures import ThreadPoolExecutor
import requests,argparse,re,os
from bs4 import BeautifulSoup as Soup

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0'
    }
    
## 设置命令行参数
def setArgs():
    parser = argparse.ArgumentParser(description="功能：下载pdf")
    parser.add_argument("url",help="目标url")
    parser.add_argument("-t","--thread",help="最大的线程数。默认为3",default=3,type=int)
    parser.add_argument("-f","--filedir",help="文件保存的路径.默认为当前目录下的downloads文件夹.如果不存在，便自动新建",default="downloads")
    return parser.parse_args()
    
## 获取所有pdf的url
def getPdfUrl(root_url):
    response = requests.get(root_url, headers=headers)
    ## 如果requests没有从页面中获得字符编码，那么设置为utf-8
    if "charset" not in response.headers:
        response.encoding = "utf-8"
    bsObj = Soup(response.text, "html.parser")
    pdfs = bsObj.find_all("a", {"href": re.compile(r'.pdf$')})
    ## 获得一个字典，key为pdf完整url，value为pdf名称
    url_pdfName = {root_url[:root_url.rfind("/")+1]+pdf["href"]:pdf.string for pdf in pdfs}
    return url_pdfName

## 显示正在下载的pdf的名称
def showPdf(pdf_name):
    print(pdf_name+"...")

## 下载pdf
def savePdf(url,pdf_name):
    response = requests.get(url,headers=headers,stream=True)
    ## 如果指定的文件夹，那么便新建
    if not os.path.exists(FILE_DIR):
        os.makedirs(FILE_DIR)
    ## os.path.join(a,b..)如果a字符串没有以/结尾，那么自动加上\\。（windows下）
    with open(os.path.join(FILE_DIR,pdf_name),"wb") as pdf_file:
        for content in response.iter_content():
            pdf_file.write(content)

## 设置要下载一个pdf要做的事情，作为线程的基本
def downOne(url,pdf_name):
    showPdf(pdf_name)
    savePdf(url,pdf_name)
    print(pdf_name+" has been downloaded!!")
    
## 开始线程
def downPdf(root_url,max_thread):
    url_pdfName = getPdfUrl(root_url)
    with ThreadPoolExecutor(max_thread) as executor:
        executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

def main():
    ## 获得参数
    args = setArgs()
    ## 如果没有输入必须的参数，便结束，返回简略帮助
    try:
        global FILE_DIR
        FILE_DIR = args.filedir
        downPdf(args.url,args.thread)
    except:
        exit()

if __name__ == "__main__":
    main()

效果图

图片描述

例子：
图片描述

备注

with ThreadPoolExecutor(max_thread) as executor:
     executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

使用工作的线程实例化ThreadPoolExecutor 类；executor._exit_ 方法会调用executor.shutdown(wait=True) 方法，它会在所有线程都执行完毕前阻塞线程。
map方法的作用与内置map函数类似，不过downOne函数会在多个线程中并发调用；map方法返回一个生成器。

global FILE_DIR
FILE_DIR = args.filedir

设置了全局参数，用来接收文件路径的值
因为后面用executor.map() 传参的时候，参数必须是iterabe，不知道咋放了，所以就设了个全局变量

Python3爬虫下载pdf（二）

Python3爬虫下载pdf（二）

一、源码

效果图

备注

楼兰

引用和评论

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

Anaconda安装教程以及Anaconda和pip配置国内镜像

怎么来爬取代理服务器ip地址？（python）

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）