七夕过后，你分析过自己单身原因的原因吗？

昨天的朋友圈都在丧心病狂的秀恩爱，秀520红包！于是就有人出来普法教育。。。
在这里插入图片描述
可是很多老铁连发红包的机会都没有。。。

为什么这么多如此优秀的同学都还是单身呢？

一、需求背景

今天逛微博的时候发现一个有趣的话题#90后单身原因TOP3#

七夕之际，一份针对全国90后青年婚恋观进行抽样调查公布了结果。结果显示，一线城市单身占比持续领先。90后单身原因TOP3：圈子小、工作忙、对爱情幻想过于完美。

单身的三大原因：圈子小、工作忙、对爱情幻想过于完美！

猪哥觉得这三个原因都并不合理，难道单身的原因难道不是因为穷吗？

二、功能描述

好奇这个调查是怎么来的？真实性有待考证，刚好这几天我们也学习了如何爬取微博话题，今天就来验证一下为何如此优秀却依然单身！

三、技术方案

模拟登录微博
爬取话题
保存文件
数据清洗
数据分析

四、模拟登录

模拟登录之前讲爬取#周杰伦超话#的时候已经讲过了，这里就不再重复，直接贴出代码！
在这里插入图片描述

五、爬取话题

1.找到话题加载数据url

在这里插入图片描述
https://m.weibo.cn/api/contai...

2.代码模拟请求数据

我们依然使用requests库来爬取数据，这次猪哥在请求的时候增加了一个参数：timeout，这样做是为了防止请求某个一直没有应答导致堵死其他请求！
在这里插入图片描述

3.提取微博内容

要想提取微博内容就需要了解请求返回的数据格式
在这里插入图片描述
了解数据格式之后我们就可以写代码提取我们想要的微博内容啦！

上图我们已经拿到微博内容，但是还有很多网页标签，我们来用正则将网页标签去掉，和开头的话题开头！

4.保存文件

微博内容提取出来之后，我们将他们保存起来！
在这里插入图片描述

六、批量爬取

批量爬取就涉及分页，上次我们将周杰伦超话时，它的分页机制是：

微博超话分页机制：根据时间分页，每一条微博都有一个since_id，时间越大的since_id越大所以在请求时将since_id传入，则会加载对应话题下比此since_id小的微博，然后又重新获取最小since_id将最小since_id传入，依次请求，这样便实现分页

那这个话题的分页机制也是这样的吗？我们来对比一下第一次请求于第二次请求的url
在这里插入图片描述
我们发现普通话题的分页机制竟然是page的形式，看来微博对不同级别的话题有不同的分页机制！

page形式的分页机制，之前我们讲了很多个案例，直接for循环传入i，而这个i就当作page就可以啦！
在这里插入图片描述

七、数据分析

数据分析我们采用pyecharts库，这是一个非常好用的可视化分析库！
在这里插入图片描述
先读取数据，然后使用jieba库进行分词和数据清洗，最后使用pyecharts库做展示！

之前调查结果显示单身的三大原因是：圈子小、工作忙、对爱情幻想过于完美。在我们数据分析得出的结果好像确实如此！

之前说大家单身的原因是因为穷，看来只有猪哥穷！

源码地址：https://github.com/pig6/weibo...

七夕过后，你分析过自己单身原因的原因吗？

一、需求背景

二、功能描述

三、技术方案

四、模拟登录

五、爬取话题

1.找到话题加载数据url

2.代码模拟请求数据

3.提取微博内容

4.保存文件

六、批量爬取

七、数据分析

猪哥66

引用和评论

Java异常简单介绍

Anaconda安装教程以及Anaconda和pip配置国内镜像

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

怎么判断自己下载的 trae 是国际版还是国内版？