Python爬虫教程(三)

数据湖开发者社区

开发者社区.png

一、处理cookie,实战登录17K小说网

    部分网站需要登录才能获取所需数据,如此例我们要获取小说网站书架数据,需要进行登录得到属于此账号信息。
image.png
    1.会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。
    2.使用浏览器开发工具,找到登录所需网址。
image.png
    3.使用session获取所要内容。
    image.png
image.png
    4.获取cookie。
      image.png
image.png
    5.获取页面数据,使用session保持登录状态。
image.png
image.png
    6.第二种获取方式。
image.png
image.png
    我们可以看到直接使用requests无法进入登录状态的,但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。
image.png
image.png
image.png

二、requests处理防盗链,获取梨视频视频。

    选择梨视频中任意视频,使用浏览器开发工具可以看到其视频链接,但是我们无法在页面源代码中找到视频下载链接
image.png
    刷新页面,可以在开发者工具中得到Request URL请求网址及srcUrl的网址。
image.png
image.png
image.png
    输入浏览器中,会出现报错,我们将正确的视频网址与此网址进行对比,可看到其前后均相同,只有中间部分不同。
image.png
    找到不同位置的来源,将两个界面进行对比。
image.png
    下面进行视频的爬取。
    1.拿到contID
      image.png
    2.获取videoStatus返回json
image.png
image.png
    出现文章已经下线的提升,可内容是出现在浏览器中的,我们将处理防盗链的问题,防盗链主要为溯源,找到本次请求的上一级链接。
image.png
image.png
image.png
    筛选内容,获取json。
       image.png
    3.对获取网址进行内容修改替换。
     image.png
image.png
    4.下载视频。
      image.png

三、综合训练,爬取网易云音乐评论信息

    1.使用开发者工具找到所需内容位置。
image.png
    2.发现其数据为加密形式,按照其请求运行过程找到加密的位置。
    image.png
    image.png
    3.找到未加密的参数
image.png
image.png
    4.参考网易的逻辑找到其加密的逻辑,可发现需要params,encSecKey两个参数。
image.png
image.png
    5.对应上述逻辑,找到d,e,f,g分别对应内容。
image.png
image.png
image.png
    6.下面进行评论的爬取。
image.png
image.png
image.png
        image.png
    7.运行获得结果,得到网易云音乐歌曲评论信息。
image.png

阅读 214

旨在汇集大数据、人工智能行业领域精英,开放数据资源,营造数据创新环境,孵化数字产业创业团队,激活...

1 声望
0 粉丝
0 条评论

旨在汇集大数据、人工智能行业领域精英,开放数据资源,营造数据创新环境,孵化数字产业创业团队,激活...

1 声望
0 粉丝
文章目录
宣传栏