什么是数据分析
大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们所购买的书基本都是某一类工具如何使用去进行数据分析,但是看完过后还是不太懂什么是数据分析,应用到实际工作场景中照样很迷茫不知道该如何下手,这是什么原因呢?有的小伙伴会说:我想分析的根本没有数!拿到的这个数也就只能做做折线图,同比环比两组数对比一下!业务当中发生了什么数据好像不能看出来!不知道一个函数得出的结果代表什么!还有可能我根本不会用一些工作等等。先讲下宏观上的几个涉及数据分析的部分。
那为什么很多伙伴都想学数据分析呢?我想原因可能很简单:就是数据分析相关的岗位工资高啊!现在进入大数据时代不会点数据分析你具备核心竞争力吗?
本文就以个人愚见来探讨一下如何去做数据分析。文章大致分四个层次分别为:需求层、数据层、分析层、输出层。也是数据分析按重要顺序排的大体步骤。
这里写图片描述
需求层
需求层为什么是最重要的呢?因为需求是数据分析的开始,也是你要分析的目标方向。如果你都不知道你要分析什么,还怎么谈如何分析?数据分析需求的来源往往有3种场景:1.监控到现有的指标出现了异常情况需要通过数据分析去找原因;2.公司要对现有的运营模式或者某个产品进行评估确定是否需要进行调整或者优化;3.公司下达了战略目标或短期目标需要通过分析看如何达成。要确定需求就必须与需求方进行沟通,清楚的确认需求的内容或者自己要分析前必须要清楚你想要的结果是什么方向。举个简单的例子:年底将近,双十一大促销在即,数据分析师们又到了一年最辛苦,最悲催的时间段。然而,有多少无意义的加班,是因为业务部门不会提需求所导致的。需求提的不合理,业务部门看了不解决问题,就会反反复复的再提需求。导致数据分析师们辛苦加班还不落好,背上一个:“分析没深度啊!”的坏名声。其实这不能怪需求方不会提需求,而是你作为数据分析人员要用你的经验,你的专业技能,你的沟通技巧去引导,去确定,去达成一致。
所有要做到清晰的确定需求,需要自身具备:1、对业务、产品、需求背景有比较深的了解。了解的足够对你才能去引导去判断这个需求;2、光了解需求方是还不够的,你需要从获得的需求快速的去结合你所掌握的技能组工具有个初步的分析思路;3、综合判断后你再决定是否需要分析,应该怎么分析,与需求方沟通确定清楚两方理解是否一致。如果无法做到就会出现很多无法避免的问题。
理论上数据分析师所从事的工作是给出业务方相应的数据结果,而不是解决方案。虽然也有分析两个字,但是如何设计解决方案是业务部门的事。运营部门就该做活动方案,产品经理就该出产品方案,销售部门就该想东西怎么卖。这才是业务部门的本职工作。吵吵着:“你说我不行,你行你上啊”是玩忽职守的扯皮表现。如果连具体的业务方案都让分析师来想了,分析师也干脆把业务部门的工资领了算了。但是当下专业的数据分析师是需要比业务方更了解业务,你不了解业务下的结论领导或者需求方感信任吗?所以,一个业务技术双精通的数据分析师,是可以替业务方搞定上边所有问题的,不依赖业务方的判断,因为他自己就是个业务高手,有丰富的实战经验与业务能力。但这种人是可遇不可求的。大部分数据分析师还是70%时间处理数据的技术男。
在需求层我总结一下我们所需要了具备的能力:1、对业务、产品、需求背景有足够的了解,如果不了解说明你在这块应该先去充充电;2、然后当你无法想到分析方法的时候说明你对现有的数据不够了解。你同样该去了解了解数据的来源,数据的流转,数据的定义。
数据层
目标需求确定过后,现在的你就需要开始准备相关的数据了。数据层大致分为:数据获取、数据清洗、数据整理。有的伙伴会问,数据应该从哪来呢?数据来源取决于你分析需求,有直接从企业数据库通过SQL进行取数、有通过各统计网站进行数据下载,有通过爬虫技术在互联网进行数据抓取,也有通过企业已经加工好的数据报表,这里主要去讲在大数据时代如何去准备数据。因为利用数据库才能实现大数据下的真正核心分析,你才能配上数据分析师这次名称。
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。大数据挖掘商业价值的方法主要分为四种1.客户群体细分,然后为每个群体量定制特别的服务;2.模拟现实环境,发掘新的需求同时提高投资的回报率;3.加强部门联系,提高整条管理链条和产业链条的效率;4.降低服务成本,发现隐藏线索进行产品和服务的创新。
为什么大数据能实现这些场景?因为大数据的类型大致可分为三类:1.传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等;2.机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等;3.社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台等。通过数据库你能取到已加工好的报表EXCEL所无法做到的多样性及细节化,你才能通过这些详细的数据找出数据背后存在的问题。
现在的数据库主要分为关系类型数据,分布式数据库。关系类型数据代表产品为mysql(免费开源的),分布式数据库代表hadoop。两种都是实用sql语言进行数据提取,在数据分析中你将提取出来与分析相关的数据这步就是数据获取。这里你需要具备基础的sql语言能力,要从海量的数据中找到你想要的部分。这个环节你也能对数据进行初步的清理,这里取决于数据库中的数据存储是否完整规范。这里有一篇说数据库数据质量的文章推荐给大家数据质量管理。当你数据清理好也整理好后就可以开始进行数据分析了。
分析层
分析的工具有很多,平民版的分析工具有excel、非专业的专业分析工具有spss、专业资深的分析工作有sas/R/python。我的个人建议是在整个分析过程需要掌握的工具中为sql、excel、python。为什么是这三个,我先来说一下各个工具的特点。sql上文讲当它是数据获取的一个主要语言,而excel可以进行一下快速的数据展示(手动拖动点选快),Python功能强大几乎可以做你想做的任何事情不止局限于数据分析,学习优势绝对大于其他分析工具python能做的事情。
好了,那我们就利用Python来进行数据分析,分析的思路都是由”浅到深“。数据分析一般的步骤为:描述分析——锁定方向——建模分析——模型测试——迭代优化——模型加载——洞察结论。
描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计;
数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。
指标统计:用来作报告,分析实际情况的数据指标,可粗略分为四大类:变化、分布、对比、预测;变化:指标随时间的变动,表现为增幅(同比、环比等);分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因;预测:根据现有情况,估计下个分析时段的指标值;
洞察结论这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。
举个例子:
这里写图片描述
例子来源Data Science with R&Python
年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。
年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。
看到两者的区别了吗?2013年春节在2月,2012年则在1月,因此需要各去除一周的销售额,再进行比较。如果不考虑这一因素,那么后续得出的所有结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。
输出层
都到这一步了,相信各位对数据报告也不再陌生了。这一步中,需要保证的是数据报告内容的完整性。一个完整的数据报告,应至少包含以下六块内容:报告背景、报告目的、数据来源、数量等基本情况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测;
其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。
16种常用的数据分析方法汇总
经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。
一、描述统计
描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。
2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
二、假设检验
1、参数检验
参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。
1)U验 使用条件:当样本含量n较大时,样本值符合正态分布
2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布
A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;
B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;
C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
2、非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
A 虽然是连续数据,但总体分布形态未知或者非正态;
B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
三、信度分析
检査测量的可信度,例如调查问卷的真实性。
分类:
1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度
2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
四、列联表分析
用于分析离散变量或定型变量之间是否存在相关。
对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。
列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。
五、相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
1、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
2、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
六、方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
分类
1、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
2、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
3、多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
4、协方差分祈:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,
七、回归分析
分类:
1、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
2、多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。
1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法
2)横型诊断方法:
A 残差检验: 观测值与估计值的差值要艰从正态分布
B 强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
C 共线性诊断:
诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等
3、Logistic回归分析
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:
Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等
八、聚类分析
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
1、性质分类:
Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等
R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用相似系数作为统计量衡量相似度,相关系数、列联系数等
2、方法分类:
1)系统聚类法: 适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
2)逐步聚类法 :适用于大样本的样本聚类
3)其他聚类法 :两步聚类、K均值聚类等
九、判别分析
1、判别分析:根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体
2、与聚类分析区别
1)聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本
2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
3)聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
3、进行分类 :
1)Fisher判别分析法 :
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别;
以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于
适用于多类判别。
2)BAYES判别分析法 :
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;
十、主成分分析
将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。
十一、因子分析
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法
与主成分分析比较:
相同:都能够起到済理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
用途:
1)减少分析变量个数
2)通过对变量间相关关系探测,将原始变量进行分类
十二、时间序列分析
动态数据处理的统计方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题;时间序列通常由4种要素组成:趋势、季节变动、循环波动和不规则波动。
主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型
十三、生存分析
用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法
1、包含内容:
1)描述生存过程,即研究生存时间的分布规律
2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较
3)分析危险因素,即研究危险因素对生存过程的影响
4)建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。
2、方法:
1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据作出任何统计推断结论
2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,并且检验危险因素对生存时间的影响。
A 乘积极限法(PL法)
B 寿命表法(LT法)
3)半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法
4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律
十四、典型相关分析
相关分析一般分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。
典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。
十五、R0C分析
R0C曲线是根据一系列不同的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线
用途:
1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力
用途 ;
2、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;
3、两种或两种以上不同诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。
十六、其他分析方法
多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。