相关性
概念
相关性是描述两个变量之间相互关系强弱和方向的度量。它不仅能够研究两个变量之间的相互影响的强弱,还能表征影响的方向(正负),是数据分析中较为常见的研究变量关系的方法。
要了解相关性,最重要的一点是,它仅显示两个变量之间的相关性如何。但是,相关并不意味着因果关系。一个变量a的变化可能会引起另一变量b的变化,但这并不意味着另一个变量b的变化是由变量a导致的。
相关性系数
用于衡量两个连续变量之间相关性的度量称为相关系数r。相关系数r的值始终在-1和1之间,通过大小衡量变量之间线性关系的强弱,通过正负表征线性关系的方向。
r的绝对值越大,相关性越强:当所有数据点都位于一条线上时,r=-1或1表示理想的线性关系。实际的数据分析中,很少观察到这种理想的正相关或负相关。r=0表示变量之间没有线性关系,两组完全随机的数据可能会得到这样的结果。
为了更好地理解,请查看以下相关图:
相关系数r=1表示完美的正相关,随着一个变量的增加,另一个变量成比例地增加。
相关系数r=-1表示完美的负相关,当一个变量增加时,另一个变量按比例减少。
相关系数r=0意味着两个变量之间没有关系,数据点散布在整个图形上。
皮尔逊相关系数
皮尔逊相关系数(Pearson Correlation)用于在一个变量的变化与另一个变量的比例变化相关联时评估数据之间的线性关系。注意,这里着重强调是用来评估是否具有“线性”关系,简单来说,皮尔逊相关系数可以回答以下问题:相关性可以通过直线展示么?
皮尔逊系数特点:
1、皮尔逊相关系数仅可以表征两个变量之间的线性关系,这意味着,如果两个变量是以另一种曲线形式强烈相关,皮尔逊相关系数可能仍等于或接近于零。
2、皮尔逊相关性并不能区分因变量和自变量。例如,平均每月温度与售出的加热器数量之间的相关性时,我们得到的系数为-0.97,这表明负相关性很高;如果交换两个变量的位置仍会获得相同的结果。因此,有人可能会得出结论,较高的加热器销售量会导致温度下降,这显然是没有意义的。
3、此外,皮尔逊相关对异常值非常敏感。如果数据中存在着明显的离群点和异常值,皮尔逊相关系数可能会计算不出变量之间的相关性。
import numpy as np
def pearson_coefficient(x, y):
# 计算x和y的均值
mean_x = np.mean(x)
mean_y = np.mean(y)
# 计算x和y的标准差
std_x = np.std(x)
std_y = np.std(y)
# 计算协方差
cov = np.cov(x, y)[0, 1]
# 计算皮尔逊系数
pearson_coeff = cov / (std_x * std_y)
return pearson_coeff
# 示例数据
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
# 计算皮尔逊系数
coeff = pearson_coefficient(x, y)
print("皮尔逊系数:", coeff)
from scipy.stats import pearsonr
# 示例数据
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
coeff, p_value = pearsonr(x, y)
print("皮尔逊系数:", coeff)
斯皮尔曼系数
spearman系数
Spearman秩相关系数计算
衡量两个变量的依赖性的非参数指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。
R(x) 和 R(y) 分别是x和y的位次!
图片和分别表示平均位次
更简单易行的计算公式如下所示:
其中:
表示第i个数据对的位次值之差
n 总的观测样本数
与皮尔逊系数的区别
皮尔逊系数和斯皮尔曼系数区别
皮尔逊系数和斯皮尔曼系数区别
Pearson 适用于两个变量之间的线性关系,而Spearman适用于单调关系。
Pearson 处理变量的数据原始值,而 Spearman 处理数据排序值(需要先做变换,transform)
举例:
1、受教育水平更高的人更关心环境吗?
2、患者的症状数与他们服药的意愿有关系吗?
3、球队的联赛成绩(名次)与他们所在城市的经济发展水平有关系吗?
肯德尔相关系数
肯德尔系数
是基于数据对象的秩(rank)来进行两个(随机变量)之间的相关关系(强弱和方向)的评估。所分析的目标对象应该是一种有序的类别变量,比如名次、年龄段、肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)等。
不同的是,斯皮尔曼相关是基于秩差(比如说,小明在班级中的历史成绩排名为10,英语成绩排名为4,那么在这个班级的学生的历史成绩和英语成绩的斯皮尔曼相关分析中,小明的成绩的贡献就是(10-4=6) )来进行相关关系的评估;而肯德尔相关则是基于样本数据对之间的关系来进行相关系数的强弱的分析,数据对可以分为一致对(Concordant)和分歧对(Discordant)。
比如说变量X的两个样本值记为,与之相对应的变量Y的两个样本值分别记为
一致对(Concordant)是指两个变量的这一对样本值取值的相对关系一致,可以理解为与有相同的符号,即
分歧对是指这一对样本值取值的相对关系不一致,即
当数据样本比较小,而且存在并列排位(tied ranks,比如说小明的历史成绩和英语成绩排名都是第8名)时,肯德尔相关系数是比斯皮尔曼相关系数更合适的一个相关性衡量指标。
【适用情况】
变量数据是有序的( ordinal) 或者是连续的(continuous). 有序尺度(Ordinal scales )的数据通常用于用数值的方式来衡量非数值的概念,比如说,满意度,幸福度等等,还有像成绩排名啊、比赛名次啊之类的。而连续尺度的数据就勿需解释了,常见的温度啊、体重啊、收入啊等等都(或严格、或近似)算是连续尺度的数据。
两个变量的数据之间应该遵循单调关系( monotonic relationship)。 简而言之就是,其中一个变量的值增大,另一个也增大,这个称为正相关;或者一个变量的值增大,另一个就变小,这个称为负相关。当然,这个单调关系是一个统计意义上的,或者说一种趋势上的,而非严格的单调。如下如所示。左图和中图都呈现一种近似单调的关系,而右图则不是,因为右图的左半部分和右半部分的趋势是相反的。
举例:
1、学生的考试成绩分级 (A, B, C…) 和他平均每天学习所投入的时间分级 (<2 hours, 2–4 hours, 5–7 hours…)时间的相关性
2、顾客满意度 (比如说:非常满意,比较满意,一般。。。) 以及递送时间 (< 30 Minutes, 30 minutes — 1 Hour, 1–2 Hours etc)
归因
归因模型
归因分析模型
广告归因的方法是怎样的,如何监测广告效果?
深度解析亚马逊广告归因(含案例解析)
末次归因模型(最后点击模型)
这种归因模型将功劳100%分配给转化前的最后一个渠道,即不管用户发生了啥行为,只关注最后一次。这是最简单、直接,也是应用最为广泛的归因模型。
【优点】首先它是最容易测量的归因模型,在分析方面不容易发生错误。另外由于大部分追踪的cookie存活期只有30-90天,对于顾客的行为路径、周期比较长的场景,在做归因分析的时候可能就会发生数据的丢失,而对于末次互动模型,这个数据跟踪周期就不是那么特别重要了。
【缺点】这种模型的弊端也是比较明显,比如客户是从收藏夹进入商品详情页然后形成了成交的,按照末次归因模型就会把100%的功劳都归功于收藏夹(直接流量)。但是真实的用户行为路径更接近于产生兴趣、信任、购买意向、信息对比等各种环节,这些都是其他渠道的功劳,在这个模型中则无法统计进来,而末次渠道的功劳评估会被大幅高估。
【适用场景】短期的投放,转化路径少、周期短的业务快速提升效果,按照末次归因模型,能比较好了解到底是哪个渠道对于最终的转化有比较好的促进作用。
首次归因模型(首次点击模型)
这种归因模型将功劳100%分配给第一个触达渠道,即不管用户发生了啥行为,只关注第一次。如果,末次互动是认为,不管你之前有多少次互动,没有最后一次就没有成交。那么首次互动就是认为,没有我第一次的互动,你们剩下的渠道连互动都不会产生。换句话说,首次互动模型更加强调的是驱动用户认知的、位于转化漏斗最顶端的渠道。
【优点】是一种容易实施的单触点模型,初次点击的归因会让你明确潜在消费者是怎样找到你的,且和最后点击一样,不需要大量的数据。
【缺点】受限于数据跟踪周期,对于用户路径长、周期长的用户行为可能无法采集真正的首次行为,且初次点击归因并不能够解释所有后续所发生的用户行为,对于后续的用户行为没有关注。
【适用场景】一般是需要进行拉新的时候,公司处于市场开拓的时候,这个时候我们关心把更多的用户先圈过来,那么用首次互动模型可以看出来哪些渠道对于业务拉新最有效。所以首次归因模型对于没什么品牌知名度、且重点在市场拓展,渠道优化的公司,比较适用。
线性归因模型
线性归因是多触点归因模型中的一种,也是最简单的一种,他将功劳平均分配给用户路径中的每一个触点。
【优点】它是一个多触点归因模型,可以将功劳划分给业务路径中每个不同阶段的营销渠道,不用考虑不同渠道的价值权重,大家一视同仁,计算也不复杂。另外,它的计算方法比较简单,计算过程中的价值系数调整也比较方便。
【缺点】很明显,线性平均划分的方法不适用于某些渠道价值特别突出的业务,对于价值比价高的渠道,可能会“被平均”,因为这种渠道是靠质量而不是数量赢得结果的。比如,一个客户在线下某处看到了你的广告,然后回家再用百度搜索,连续三天都通过百度进入了官网,并在第四天成交。那么按照线性归因模型,百度会分配到75%的权重,而线下某处的广告得到了25%的权重,这很显然并没有给到线下广告足够的权重。
【适用场景】根据线性归因模型的特点,它更适用于企业期望在整个销售周期内保持与客户的联系,并维持品牌认知度的公司。在这种情况下,各个渠道在客户的考虑过程中,都起到相同的促进作用。
时间衰减归因模型
对于路径上的渠道,距离转化的时间越短的渠道,可以获得越多的功劳权重。时间衰减归因模型基于一种假设,他认为触点越接近转化,对转化的影响力就越大。这种模型基于一个指数衰减的概念,一般默认周期是7天。也就是说,以转化当天相比,转化前7天的渠道,能分配50%权重,前14天的渠道分25%的权重,以此类推...
【优点】这个模型考虑了时间的作用,因为一般情况下也是时间越久对于用户的转化作用是越弱。相比线性归因模型的平均分权重的方式,时间衰减模型让不同渠道得到了不同的权重分配,当然前提是基于"触点离转化越近,对转化影响力就越大"的前提是准确的情况下,这种模型是相对较合理的。
【缺点】如果有的渠道天然处于转化链路的起点,那么对于这些渠道是不公正的,因为它们总是距离转化最远的那个,永远不会得到一个公平的权重。
【适用场景】和末次归因比较类似,适用于客户决策周期短、销售周期短、引导用户完成转化的场景的情况。比如,做短期的促销,就打了两天的广告,那么这两天的广告理应获得较高的权重。
位置归因模型
基于位置的归因模型,也叫U型归因模型,它综合了首次归因、末次归因、线性归因,将第一次和最后一次触点各贡献40%,中间的所有触点平均剩下的20%贡献。
U型归因模型也是一种多触点归因模型,实质上是一种重视最初带来线索和最终促成成交渠道的模型,一般它会给首次和末次互动渠道各分配40%的权重,给中间的渠道分配20%的权重,也可以根据实际情况来调整这里的比例。
U型归因模型非常适合那些十分重视线索来源和促成销售渠道的公司。该模型的缺点则是它不会考虑线索转化之后的触点的营销效果,而这也使得它成为销售线索报告或者只有销售线索阶段目标的营销组织的理想归因模型。
自定义模型
你可以根据自己对于业务的理解,创建你自己的模型,让其具有更具体的业务性和目的性,并可将其来和其他默认模型做对比。
【优点】在这种模式下,你可以使用线性归因、首次归因、末次归因、时间衰减归因,以及位置归因模型作为基准线,通过不断地测试,调整各个渠道的权重,最好的效果是,它可以个性化地评估当前的业务,并可以随着时间的推移进行优化。
【缺点】在没有先做一些测试之前不要直接使用自定义模型,不要仅靠经验判断哪些渠道的贡献可能更大,实际数据上的表现可能会有所差异,需要基于数据的测试来进行判断。
马尔科夫归因模型
马尔科夫归因(Markov Chain Attribution)是基于马尔科夫链的概率模型来分配转化价值给不同的广告渠道。马尔科夫链是一种随机过程,其中状态转移的概率只依赖于前一个状态,而与更早的状态无关。
【特点】
- 顺序性分配:马尔科夫归因能够考虑广告接触的顺序,即广告接触路径的顺序对转化的贡献进行分配。它能够捕捉到广告接触的时间顺序和先后顺序的影响,更准确地评估广告对转化的影响。
- 多渠道分析:该模型能够分析多个广告渠道在转化路径中的作用。它不仅考虑到了每个渠道的影响,还考虑到了广告接触路径中的渠道切换和转变。这使得马尔科夫归因能够提供对多渠道营销策略的全面评估。
- 路径解析能力:马尔科夫归因提供了对广告接触路径的路径解析能力,可以识别关键的状态转移和转化决策点。这有助于企业理解用户在转化过程中的行为轨迹,为优化营销策略提供指导。
【使用场景】 - 复杂的营销环境:当营销活动涉及多个渠道、多个触点,并且需要了解每个渠道的贡献时,马尔科夫归因可以帮助企业评估广告在整个转化路径中的作用。
- 多渠道整合营销:在多渠道整合营销中,马尔科夫归因能够提供对不同渠道的综合评估。它可以揭示不同渠道之间的转化路径和相互影响,为优化渠道配比和整合营销策略提供指导。
归因模型场景选择
归因算法
之前看到的传统归因,大多基于规则;
数据驱动归因(Data-Driven Attribution,简称DDA,也叫算法归因)是一种基于机器学习的归因模型,与基于规则的归因模型不同,数据驱动归因使用所有可用的路径数据,包括路径长度,曝光顺序和广告素材,来了解特定营销接触点的存在如何影响用户转化的可能性以更好地将功劳分配给任何接触点。
夏普里值(Shapley Value)
夏普里值(Shapley Value)指所得与自己的贡献匹配的一种分配方式,由诺贝尔奖获得者夏普里(Lloyd Shapley)提出,它对合作博弈在理论上的重要突破及其以后的发展带来了重大影响。
这里最终计算的值是特征i的重要程度。前面一部分分式表示的是权重, 后面一部分括号内表示的是新增特征i前后的变化值。
夏普里值详细文档
适用于用户行为路径上具有连续投放行为的广告分析,比如:视频app应用启动广告->信息流->视频开屏->视频内插入
夏普里值 和 马尔可夫归因 方法对比
【相同点】
- 两者并非将每条转化路径归因后求和,而是理清关系后求整体中的每个渠道的影响力
- 不管是沙普利还是马尔科夫,积极地参与转化会是提高本身影响力的最佳方法
- 无论是沙普利值和马尔科夫链哪种方法得到的归因结果都只能代表过去,要应用于未来的预算分配和媒体采购的话,我们还需要进行测试比较变化
【不同点】
- 相比沙普利值,马尔科夫链的接触点先后顺序更被突出,而且这种顺序表现在紧邻的两个接触点移动的概率。这里说的紧邻的含义是马尔可夫链就是这样一个任性的过程,它将来的状态分布只取决于现在,跟过去无关
- 从计算成本的角度上讲,沙普利值的计算只要参加的渠道总数不是很多计算还不会太复杂。因此谷歌采用沙普利值也容易理解,而且每天只更新一次。马尔科夫链的计算要复杂很多,现在通常的做法是用超过一百万条随机路径来模拟每一个参加渠道的影响,而不是像我们例子中精确计算,计算成本要大许多。
生存分析方法(Survival Analysis)
todo
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。