SF
俊红的数据分析之路
俊红的数据分析之路
注册登录
关注博客
注册登录
主页
关于
RSS
统计科学之讲讲Bootstrap是在干啥?
张俊红
2021-01-27
阅读 1 分钟
4.3k
在前面的文章[聊聊置信度与置信区间]中讲过为什么会有置信区间以及置信区间应该如何求取。在那篇文章中讲了当数据服从正态分布时,95%的置信区间就是均值加减1.96倍的标准差。
统计科学之讲讲OC曲线是什么?
张俊红
2021-01-27
阅读 2 分钟
3.9k
今天我们来聊聊什么是OC曲线,OC曲线是用来反映:一个批次的产品被接收的概率与该批次产品不合格率之间的关系。如下图这样的曲线:横轴是该批次的整体不良率(不合格率),纵轴是在该不合格率的情况有可能被消费者接受的概率。是不是看上面这句话,不太懂什么意思,没关系,我们继续往下看,说不准就懂了。OC曲线主要是用...
统计科学之讲讲什么是Q检验
张俊红
2021-01-27
阅读 1 分钟
5.4k
比如现在做了若干次实验,然后得到了若干个观测值:10.14、10.12、10.25、10.16、10.20这几个值,通过观测值看到10.25与其他值之间相差比较大,现在考虑要不要将这个值当做异常值去掉呢?有没有什么判断依据,这个时候就可以用Q检验。
统计科学之方差齐性检验
张俊红
2021-01-27
阅读 2 分钟
6k
先讲讲什么是方差齐性,方差齐性是指不同组间的总体方差是一样的。那为什么方差分析的前提是要组间的总体方差保持一致呢?先想想方差分析是做什么呢?方差分析是用来比较多组之间均值是否存在显著差异。那如果方差不一致,也就意味着值的波动程度是不一样的,如果此时均值之间存在显著差异,不能够说明一定是不同组间处...
统计科学之一种常见的关于率指标的错误分析思路
张俊红
2021-01-27
阅读 1 分钟
1.3k
今天给大家分享一种在数据分析过程中关于率指标分析可能会犯的一种错误。这个问题其实很多新人都会犯,有的老人也会犯,而且很多时候错了以后并不自知。刚好读者群有人在问类似的问题,所以就来写篇文章分享下。
统计科学之捋一捋PDF、PMF、CDF是什么
张俊红
2021-01-27
阅读 1 分钟
11.8k
还记得前段时间看过一篇文章,就是调查大家疫情期间都干了什么,有一条是疫情期间终于弄清楚了PDF和CDF的区别。PDF、PMF、CDF这几个概念确实很容易混淆。今天就来捋一捋这几个概念。
统计科学之讲讲异方差的检验
张俊红
2021-01-27
阅读 1 分钟
4.2k
我们前面讲了异方差,也讲了怎么用图示法来判断是否有异方差,这一篇来讲讲怎么用统计的方法来判断有没有异方差。关于检验异方差的统计方法有很多,我们这一节只讲比较普遍且比较常用的white test(怀特检验)。假设现在我们做了如下的回归方程:如果要用怀特检验检验上述方程有没有异方差,主要分以下几个步骤:1.step1:...
统计科学之讲讲什么是自由度
张俊红
2021-01-27
阅读 1 分钟
6.5k
自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数。
统计科学之加权最小二乘法
张俊红
2021-01-27
阅读 1 分钟
5.8k
我们在前面讲过OLS有几个基本假定,其中一个就是ui是随机干扰项,即随机波动的,不受其他因素的影响,即在x取不同值时var(ui)都是一个固定的常数。但有的时候ui不是随机干扰项,而是与x的取值有关的,比如在研究年龄和工资收入的之间的关系时,随着年龄越大,ui的波动是会越大的,即var(ui)不是常数了,这就是出现了异方...
统计科学之时间序列预测(下)
张俊红
2021-01-27
阅读 2 分钟
1.1k
要对一个指标进行预测,首先得知道影响这个指标的因素都有哪些。假如,现在领导让你预估下个月的销量情况,这个时候你会从哪些角度进行考虑呢?也就是什么因素会影响下个月的销量呢?
统计科学之时间序列预测(中)
张俊红
2021-01-27
阅读 2 分钟
2k
先讲第一个AR模型,AR的全称是Auto Regression,表示自回归,大家应该都知道普通的回归方程,都是用x去回归y,这里的x和y一般不是同一个东西。而我们这里的自回归顾名思义就是用自己回归自己,也就是x和y都是时间序列自己。具体的模型如下:
统计科学之时间序列预测(上)
张俊红
2021-01-27
阅读 2 分钟
2.5k
预测是时间序列相关知识中比较重要的一个应用场景。我们在前面说过[时间序列数据(上)],时间序列可以分为平稳时间序列与非平稳时间序列两种。今天这一篇就主要介绍下《平稳时间序列》预测相关的方法。
统计科学之时间序列数据(上)
张俊红
2021-01-27
阅读 1 分钟
2.1k
时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。比如,不同时间段某产品的用户数量,以及某个在网站的用户行为,这些数据形成了以一定时间间隔的数据。
统计科学之最近疯传的SIR传染病模型是什么?
张俊红
2021-01-27
阅读 2 分钟
2.2k
SIR模型是传染病模型中最经典的一个,类似的还有SI和SIS两种。SIR是三个单词首字母的缩写,其中S是Susceptible的缩写,表示易感者;I是Infective的缩写,表示感染者;R是Removal的缩写,表示移除者。这个模型本身是在研究这三者的关系。在病毒最开始的时候,所有人都是易感者,也就是所有人都有可能中病毒;当一部分人在...
统计科学系列之数据分析中的两种偏差
张俊红
2021-01-27
阅读 2 分钟
1.9k
我们来看一个关于选择性偏差的例子,现在有一个研究机构想要研究一个主题就是『医院是否可以让人变的更健康』。这个机构随机挑选了10万名群众,测量这10万名群众的健康水平,然后根据最近一年是否有去过医院将10万名群众分为两组,最后得到的统计结果是最近一年没去过医院的群体的健康水平要比去过医院的群体健康水平要...
统计科学之你能分清比例和比率吗?
张俊红
2021-01-27
阅读 1 分钟
5.1k
比例用来反映一个整体中各部分之间的组成情况,一般用 a :b 的形式表现,比如东南西北四个区的贷款数量之间的比例为:35:30:20:15,这四部分组成了全国这一个整体。
统计科学之均值与期望到底是不是一回事?
张俊红
2021-01-27
阅读 2 分钟
2.8k
均值和期望是我们平常接触比较多的两个概念,均值大家都知道,就是若干个值先求和,然后再除值的个数;那期望又是什么。一般人们为了便于理解,就会说,你把期望也理解成是均值就可以了。那到底可不可以这样呢,我们这一篇来具体看看。
统计科学之聊聊你知道和不知道的相关性系数
张俊红
2021-01-27
阅读 3 分钟
2.5k
这一篇我们来聊聊大家平常比较常用的相关系数。相关系数是用来度量两个变量之间相关性大小的一个量化指标。比如你要判断啤酒和尿布之间是否有相关性,就可以计算这两个变量的相关系数,通过相关系数来判断两者的相关性大小。相关系数主要有三种:Pearson相关系数、Spearman秩相关系数和Kendall τ相关系数。皮尔逊(Pearso...
统计科学之分析遇到非正态数据该怎么办?
张俊红
2021-01-27
阅读 3 分钟
4.6k
我们在前面讲过数据的正态性检验,介绍了检验数据是否正态的两种方法。这一节我们来看一下,如果数据不满足正态时该怎么办,答案就是将非正态数据通过Box-Cox变换进一步转换成符合正态分布的数据。这一篇就给大家分享下Box-Cox变换的具体内容。
统计科学之你到底偏哪边的?
张俊红
2021-01-27
阅读 2 分钟
5.3k
这张图中的横轴是随机变量 x 的具体值,正态分布的中心点是随机变量 x 的均值 μ,以均值为中心,然后向两边扩散,既然是均值,那肯定就有比均值大的值,也有比均值小的点,我们用标准差 σ 表示数据集的离散程度,也就是距离均值 μ 的远近。
统计科学之正态性检验
张俊红
2021-01-27
阅读 3 分钟
3.6k
在前面的文章中讲过,很多模型的假设条件都是数据是服从正态分布的。这篇文章主要讲讲如何判断数据是否符合正态分布。主要分为两种方法:描述统计方法和统计检验方法。
统计学之讲讲切比雪夫定理
张俊红
2021-01-27
阅读 4 分钟
6.4k
前面讲了大数定理,讲了中心极限定理,有读者留言让讲讲切比雪夫定理,安排。这一篇就来讲讲切比雪夫定理。在讲切比雪夫定理之前,我们先看下切比雪夫不等式:其中P表示概率,X是随机变量,μ是期望,k是常数,σ是标准差,整个公式表示距离期望μ越远的值出现的概率是越小的。再拿正态分布这张图来感受下,大部分值都是分...
统计科学之讲讲大数定理
张俊红
2021-01-27
阅读 1 分钟
2.1k
前面我们讲过中心极限定理。这一节来讲讲大数定理,大数定理和中心极限定理是比较接近的两个概念,这两个定理经常一起出现。我们来具体看下大数定理的内容:
统计科学之卡方检验讲解
张俊红
2021-01-27
阅读 2 分钟
3k
我们前面讲过方差分析,方差分析的应用场景是什么样子的呢?不记得同学可以翻回去看看。当我们要比较两组或者多组均值有没有显著性差异的时候,我们可以用方差分析。请注意,这里面我们提到是两组或者多组之间的均值比较时,我们用方差分析,想一下什么类型的数据可以求均值呢?是不是只有数值类型的数据才可以求均值。...
统计科学之讲讲逐步回归
张俊红
2021-01-27
阅读 2 分钟
3k
我们知道多元回归中的元是指自变量,多元就是多个自变量,即多个x。这多个x中有一个问题需要我们考虑,那就是是不是这多个x都对y有作用。答案就是有的时候都管用,有的时候部分管用。那对于那些没用的部分我们最好是不让它加入到回归模型里面。我们把这个筛选起作用的变量或者剔除不起作用变量的过程叫做变量选择。
统计科学之多元回归分析
张俊红
2021-01-27
阅读 2 分钟
2.1k
前面我们讲了一元线性回归,没看过的可以先去看看:[一元线性回归分析]。这一篇我们来讲讲多元线性回归。一元线性回归就是自变量只有一个x,而多元线性回归就是自变量中有多个x。
统计学之一元线性回归分析
张俊红
2021-01-27
阅读 2 分钟
2.4k
回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
统计科学之讲讲什么是异方差
张俊红
2021-01-27
阅读 2 分钟
3.5k
今天我们来讲一下异方差,在异方差以前,我们先讲一下与异方差类似另一个概念:同方差,那同方差又是什么呢?同方差 = 相同 + 方差,顾名思义就是方差相同。那方差又是什么呢?方差是用来反映数据的波动情况的,方差相同,说明数据的波动情况是相同的。讲完了同方差,那什么是异方差,大家应该也就明白了,异方差就是方...
统计科学之多重比较法-LSD
张俊红
2021-01-27
阅读 2 分钟
6k
前面我们讲了方差分析,方差分析主要是用于多组均值比较的,方差分析的结果是多组均值之间是否有显著性差异,但是这个显著性差异是整体的显著性差异,可是我们并不知道具体是哪些组之间有显著性差异。所以就有了我们今天的多重比较,目的就是为了获取具体哪些组之间有显著差异。
统计科学之多因素方差分析
张俊红
2021-01-27
阅读 3 分钟
2.8k
需要注意的是一个因素可能会有不同的水平值,即不同的取值。比如要判断某一款药对某种病症有没有效果,服用不同的剂量效果应该是不一样的,虽然因素都是服药这一个因素,但是不同的药剂量代表不同的水平。
1
(current)
2
下一页
1
(current)
下一页