1

项目地址:
https://github.com/daweilang/...

开始抓取微博数据的时候,只是想获得一条热门微博下的所有评论,因为里面有不少图片广告,所以想试试能不能分析出热门微博评论里的异常用户。

使用PHP的Laravel框架后,通过队列、命令等各种功能,最后构架了一套完整的微博用户数据抓取平台,经过一段时间的运行积累了大量数据,那么使用这些数据能做什么呢?

微博数据分析很早就有人在做了,网上采集分析工具貌似有很多,搜索一下想找一些微博数据分析的具体方案。世事变幻,发现很多几年前的微博数据分析平台都不能用了,可能微博数据分析和微博一样在商业上还是没有什么更好的盈利模式。。。

根据之前网上微博数据分析的方案,微博传播力是数据分析的一个方向,热门微博转发传播可以用于广告营销分析,这个数据基础是采集微博内容和传播路径,和我的数据获取方式并不相同。

没有找到用户数据分析的解决方案,也没有数据挖掘相关知识的基础,所以还是以一个程序员的角度说说微博用户数据使用的设想吧。

使用Laravel框架搭建的平台是以微博用户为基础的数据抓取模式,可以获得某条微博下的所有评论、转发和赞。进一步深入,获得一个微博用户的所有微博后,即可以获得该用户所发微博,包括其评论、转发和赞的所有数据。

微博用户的完整数据中能够得到什么?

一、通过微博赞积累微博用户

微博不能重复点赞,所以一条有百万个赞的微博就能获得百万用户基础信息,这是积累微博用户池效率比较高的方式,不过随着累积量增加,重复数据变多,效率会降低。同样评论和转发也可以积累用户信息,不过重复性使得获取数据效率不高。

二、通过数据建立关于用户的数学模型

早就把数学模型还给大学老师了,当年这东西也没好好学。不过还是明白一点,一个用户,其粉丝量、微博数和转发、评论、赞应该有一定的数学模型关系。

具体来说,百万级的微博用户,其微博的平均转发、评论、赞,应该在一定的范围内。以大量微博用户数据为基础可建立数据模型。这种模型可以用来评估一个微博用户的健康性。

三、通过数据获得用户的活跃粉丝

一个微博用户的完整数据,通过交叉对比可以获得粉丝的活跃度。

当前微博除了用户自己,其他人是不能查看该用户所有粉丝数据的。但是通过“共同关注”关系,可以判断出是否是用户粉丝。
理论上说如果有全部几十亿微博用户数据,逐个对比,是可以获取某用户所有粉丝的,但这只是理论方案。
通过用户微博下的转发、评论、赞可缩小对比范围,虽然不能得到用户的所有粉丝,但能分析出和微博用户有过互动的所有粉丝,这些粉丝的占比可以评估出微博用户粉丝的质量。


以上就是通过微博用户数据抓取平台获得的数据后在使用方面的一些设想。

作为一个程序员,还是不适合写这种理论性的东西,自己都看不懂,还是好好写程序去吧。。。


大尾狼
60 声望3 粉丝