一、处理cookie,实战登录17K小说网
部分网站需要登录才能获取所需数据,如此例我们要获取小说网站书架数据,需要进行登录得到属于此账号信息。
1.会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。
2.使用浏览器开发工具,找到登录所需网址。
3.使用session获取所要内容。
4.获取cookie。
5.获取页面数据,使用session保持登录状态。
6.第二种获取方式。
我们可以看到直接使用requests无法进入登录状态的,但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。
二、requests处理防盗链,获取梨视频视频。
选择梨视频中任意视频,使用浏览器开发工具可以看到其视频链接,但是我们无法在页面源代码中找到视频下载链接
刷新页面,可以在开发者工具中得到Request URL请求网址及srcUrl的网址。
输入浏览器中,会出现报错,我们将正确的视频网址与此网址进行对比,可看到其前后均相同,只有中间部分不同。
找到不同位置的来源,将两个界面进行对比。
下面进行视频的爬取。
1.拿到contID
2.获取videoStatus返回json
出现文章已经下线的提升,可内容是出现在浏览器中的,我们将处理防盗链的问题,防盗链主要为溯源,找到本次请求的上一级链接。
筛选内容,获取json。
3.对获取网址进行内容修改替换。
4.下载视频。
三、综合训练,爬取网易云音乐评论信息
1.使用开发者工具找到所需内容位置。
2.发现其数据为加密形式,按照其请求运行过程找到加密的位置。
3.找到未加密的参数
4.参考网易的逻辑找到其加密的逻辑,可发现需要params,encSecKey两个参数。
5.对应上述逻辑,找到d,e,f,g分别对应内容。
6.下面进行评论的爬取。
7.运行获得结果,得到网易云音乐歌曲评论信息。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。