开发者社区.png

一、综合训练-爬取91看剧视频

    1.找到想要爬取的视频位置
image.png

    打开哲仁王后第一集视频,打开页面源代码,可看到视频m3u8链接。
image.png

    使用开发者工具可以看到其m3u8文件内容
image.png

    2.获取视频页面源代码。
    image.png
image.png

    3.使用re解析从页面源代码中提取m3u8链接。
image.png
image.png

    4.下载m3u8文件
     image.png
image.png

    5.解析m3u8文件。
  image.png
                image.png

二、selenium概念介绍

    Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
    我们要使用Selenium进行一些网页中的操作,还需要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors...。选择与当前使用的Chrome版本相同版本,若没有相同的版本号,则选择最接近的上一版本。将下载的驱动解压后保存在python解释器所在的文件夹中。
    测试驱动是否可用,使用selenium启动浏览器。
       image.png
image.png

三、Selenium的操作及爬取拉钩信息。

    1.打开拉勾网。
          image.png
image.png

    2.找到某个元素点击,这里以全国为例,复制其xpath地址。
image.png
image.png

    3.找到输入框,输入python,回车进行搜索,需要导入Keys。
      image.png
image.png

    4.查找所要数据的位置,进行提取。
    (1)找到所有存放数据的<li>。
image.png

    (2)找到每条想要元素位置获得其xpath。
image.png
image.png
image.png

    (3)进行数据提取。
image.png
image.png

    5.窗口间切换,获取新窗口中内容。
image.png
image.png

    关闭子页面,回到主页面视角。
          image.png

    6.处理下拉菜单,实战爬取艺恩数据的年度票房信息。
image.png
       image.png

    7.使用超级鹰处理超级鹰登录验证码
image.png

    (1)完成注册登录,在用户中心查看软件ID,新注册账号需自己生成一个软件ID
image.png

    (2)下载示例代码,在开发文档中选择对应语言,我这里选python。
image.png
        image.png

    (3)将代码及示例图片复制到所建项目中进行测试。
                      image.png
image.png
image.png

    (4)使用超级鹰处理超级鹰登录验证码。
image.png
image.png
image.png


数据湖开发者社区
4 声望1 粉丝

旨在汇集大数据、人工智能行业领域精英,开放数据资源,营造数据创新环境,孵化数字产业创业团队,激活数据湖生态,促进数字产业项目落地与推广