Python爬取HTTPS网页数据

Python爬取HTTPS网页数据失败

第一种方式


import requests
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0'
    }

    # r = requests.get(url, headers=headers)
    #
    # df = pd.read_html(r.text)
    # print(df)

第二种方式

 # encoding:UTF-8
    import urllib.request
    cookies = "xxxxxx"
    #
    req = urllib.request.Request(url=url, headers=headers, cookies=cookies)
    #
    res = urllib.request.urlopen(req)

    data = res.read()
    print(data)

第三种方式


    # resp = requests.get(url, headers=headers)
    # soup = BeautifulSoup(resp.text, 'html.parser')
    #
    # # 取得各篇 blog 的所有文字
    # divs = soup.find_all('div', 'sc-euitrJ')
    # for div in divs:
    #     print(div.text)

结果都是提示 urllib.error.HTTPError: HTTP Error 403: Forbidden

请问这种情况一般是什么原因引起的？

header全加了

 headers = {
        "Accept": "* / *",
        "Accept - Encoding": "gzip, deflate, br",
        "Accept - Language": "en - US, en;q = 0.5",
        "Cache - Control": "no - cache",
        "Connection": "keep - alive",
        "Content - Length": 424,
        "Content - Type": "application / json",
        # "Cookie": "_ga=GA1.2.467839XXXX; _gid=GA1.2.107XXXX",
        "Host": "xxxxxx",

        "Origin": "https: // xxxx",
        "Pragma": "no - cache",
        "Referer":
            "https: // XXXX",
        "TE": "Trailers",
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0'
    }
        r = requests.post(url, headers=headers,  verify=False)

python3.x 爬虫 403-forbidden

阅读 8.7k

3 个回答

得票最新