2

1 描述性统计和预测性统计

描述性统计(Descriptive Statistics)

描述性统计是用来描述数据现状的统计量,描述性统计包括以下值:

  1. 均值(Mean)

  2. 中值(Median)

  3. 范围(range,包括最大值和最小值)

  4. 方差(SD)

  5. 标准差(Var)

预测性统计(Predictive Statistics)

预测性统计是使用历史数据加上数据挖掘、机器学习等方法预测数据的统计方式。

2 突出值(Outlier)和异常值(Anomaly)

这两个词在中文译文中还未正确的区分其不同,Outlier是指偏离数据中心的那些点,而异常值则是可以确认是非正常原因导致的偏离数据中心的那些点。

3 基本概率论

这里不做进一步的延伸,大致解释为一个概率的完整定义包括三个部分的测度空间,$$(\Omega,F,P)$$。Ω代表事件的全集,F代表Ω的某些子集的集合,P则代表一个测度,使得可以将F里的所有子集映射到0~1的区间中。显然,$$P(\Omega) = 1$$, $$P(\emptyset) = 0$$;F必须是是Ω的σ-域。

4 贝叶斯定理

比较好的解说参见飘飘白云的博客,简单陈述如下:

$$P(A|B) = P(B|A) * P(A) / P(B) $$

其实是描述B→A这个事件的过程,其中A事件是后于B事件发生的。而查看历史数据,只能得到A发生时B发生的概率,此时通过贝叶斯定理就可以得到后验概率。

5 随机变量

实际是对应于测度空间$$(\Omega,F,P)$$而言,一个随机变量X实际是指将某个$\Omega$的子集映射到具体取值的函数。

例如:考虑一个筛子,其可能投掷取值为1、2、3、4、5、6,其“事件”集合为:

$$\Omega = {\omega_1 , \omega_2, ... \omega_6}$$

则设随机变量为X,则$$X(\omega_n) = n$$,其中$$n = 1, 2, ..., 6$$。

此外这个例子还可以得到$$F(x) = P(X \le x) $$为x的CDF; $$p(x) = P(X = x)$$为PDF

6 常见分布

正态分布/高斯分布

比较熟悉,在此不做扩展。

泊松分布

泊松分布是及其重要的离散分布。其分布为:

$$P(X = K) = \frac {K ^ \lambda}{K!} e^{\lambda}$$

$\lambda$在其中表示单位时间内发生某事件的概率,而K则表示单位时间内某事件发生次数,则泊松分布实际是描述单位时间内发生某事件次数的概率。

7 偏度(Skewness)

偏度是用来描述分布的不对称程度。

$$Skewness = E[(\frac{X - \mu}{\sigma})^3] = \frac{E[(X - \mu)^3]}{(E[(X - \mu)^2])^{3/2}}$$

8 ANOVA

ANOVA(Analysis of Variance)也称方差检验,是检验多组数据之间是否存在均值差异,这些都是建立在F检验上的。

F分布

F分布是描述两个符合标准正态分布的随机变量之间$$X^2$$之间比例的分布。因此,F检验最常用的应用就是检验两样本之间的方差是否齐性。

ANOVA检验的条件

ANOVA检验必须符合以下三个条件:

  • 组间方差齐性

  • 形态一致(曲线类似)

  • 独立性

ANOVA的原理

ANOVA的原理其实就是比较总体均差和组内均差之间是否一致:如果一致,显然,几组随机变量之间并不存在显著性差异;不一致则表示几组随机变量之间存在显著性差异。

由此概念,我们依旧可以使用F检验,即判断总体均差和组内均差是否符合F-分布。

9 中心极限定理

大数定理

(强)随着随机变量数目趋近于无穷,则其均值趋近于分布均值,其标准差也会趋近于分布标准差。
(弱)趋近于期望。

中心极限定理

中心极限定理说明,大量相互独立的随机变量,其均值的分布以正态分布为极限。

10 蒙特卡罗方法

蒙特卡洛方法其实就是基于随机数计算相关所需的取值,其原理就是运用大数定理。常见的运用有,求积分、圆周率等。

11 假设检验

假设检验实际是基于问题首先提出原假设和备择假设,以此可以得到I类错误(即拒绝了原本正确的例子)和II类错误(通过了原本错误的例子)。以此,可以得到α即可承受的为犯I类错误的概率的上限,而p-value(significance)则是犯I类错误的概率。

12 估计

点估计

在此主要介绍的是两类参数估计方法:矩估计法和最大似然估计法。

矩估计法

矩估计法是运用

$$A_n = \frac{1}{n} \sum X^n$$

来解决参数估计问题,原理是一般分布参数与$$A_n$$之间的关系来求解的。

最大似然估计法

最大似然估计法运用的原理是:概率最大的时事件最容易发生。

因此求解${X_n}$的参数时,其实就是计算$${X_n}$$同时发生时概率的最大值,即求

$$L(X_1, X_2, ..., X_n; \theta) = P(X = X_1)P(X = X_2)...P(X = X_n)$$

的最大值,其中$$L(X_1, X_2, ..., X_n; \theta)$$也叫似然函数

此时只需计算$$L' = 0$$即可。

密度估计

以下介绍常用的核密度估计(KDE),常见的形势如下:

$$\hat{x} = \frac{1}{hn} \sum^n_{i = 1}{K(\frac{(x - x_i)}{h})}$$

其中$K(.)$称为核密度函数,h为带宽,h越大越平滑。

13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数(Pearson Correlation Coefficient)

协方差(cov)和相关系数(corr)都是用来衡量两变量线性关系,唯一不同的是,协方差是含量纲的,相关系数是标准化后的值(在-1~1之间)。而皮尔森相关系数是最常见的相关系数,常用r表示。

14 因果性和相关性

相关性不代表因果性。这个是统计学中最重要的一条理论,因此,简单的相关系数并不能衡量自变量引起因变量的变化的推理。

A与B相关可能包含以下几种情况:

  • A导致B(直接因果)

  • B导致A(反向因果)

  • C导致A,且C导致B(共同因果)

  • A导致C,C导致B(间接因果)

  • A导致B,同时B也导致A(互为因果,循环因果)

  • 没有任何关系,仅仅是巧合。


三次方根
1.2k 声望101 粉丝