1 描述性统计和预测性统计
描述性统计(Descriptive Statistics)
描述性统计是用来描述数据现状的统计量,描述性统计包括以下值:
均值(Mean)
中值(Median)
范围(range,包括最大值和最小值)
方差(SD)
标准差(Var)
预测性统计(Predictive Statistics)
预测性统计是使用历史数据加上数据挖掘、机器学习等方法预测数据的统计方式。
2 突出值(Outlier)和异常值(Anomaly)
这两个词在中文译文中还未正确的区分其不同,Outlier是指偏离数据中心的那些点,而异常值则是可以确认是非正常原因导致的偏离数据中心的那些点。
3 基本概率论
这里不做进一步的延伸,大致解释为一个概率的完整定义包括三个部分的测度空间,$$(\Omega,F,P)$$。Ω代表事件的全集,F代表Ω的某些子集的集合,P则代表一个测度,使得可以将F里的所有子集映射到0~1的区间中。显然,$$P(\Omega) = 1$$, $$P(\emptyset) = 0$$;F必须是是Ω的σ-域。
4 贝叶斯定理
比较好的解说参见飘飘白云的博客,简单陈述如下:
$$P(A|B) = P(B|A) * P(A) / P(B) $$
其实是描述B→A这个事件的过程,其中A事件是后于B事件发生的。而查看历史数据,只能得到A发生时B发生的概率,此时通过贝叶斯定理就可以得到后验概率。
5 随机变量
实际是对应于测度空间$$(\Omega,F,P)$$而言,一个随机变量X实际是指将某个$\Omega$的子集映射到具体取值的函数。
例如:考虑一个筛子,其可能投掷取值为1、2、3、4、5、6,其“事件”集合为:
$$\Omega = {\omega_1 , \omega_2, ... \omega_6}$$
则设随机变量为X,则$$X(\omega_n) = n$$,其中$$n = 1, 2, ..., 6$$。
此外这个例子还可以得到$$F(x) = P(X \le x) $$为x的CDF; $$p(x) = P(X = x)$$为PDF。
6 常见分布
正态分布/高斯分布
比较熟悉,在此不做扩展。
泊松分布
泊松分布是及其重要的离散分布。其分布为:
$$P(X = K) = \frac {K ^ \lambda}{K!} e^{\lambda}$$
$\lambda$在其中表示单位时间内发生某事件的概率,而K则表示单位时间内某事件发生次数,则泊松分布实际是描述单位时间内发生某事件次数的概率。
7 偏度(Skewness)
偏度是用来描述分布的不对称程度。
$$Skewness = E[(\frac{X - \mu}{\sigma})^3] = \frac{E[(X - \mu)^3]}{(E[(X - \mu)^2])^{3/2}}$$
8 ANOVA
ANOVA(Analysis of Variance)也称方差检验,是检验多组数据之间是否存在均值差异,这些都是建立在F检验上的。
F分布
F分布是描述两个符合标准正态分布的随机变量之间$$X^2$$之间比例的分布。因此,F检验最常用的应用就是检验两样本之间的方差是否齐性。
ANOVA检验的条件
ANOVA检验必须符合以下三个条件:
组间方差齐性
形态一致(曲线类似)
独立性
ANOVA的原理
ANOVA的原理其实就是比较总体均差和组内均差之间是否一致:如果一致,显然,几组随机变量之间并不存在显著性差异;不一致则表示几组随机变量之间存在显著性差异。
由此概念,我们依旧可以使用F检验,即判断总体均差和组内均差是否符合F-分布。
9 中心极限定理
大数定理
(强)随着随机变量数目趋近于无穷,则其均值趋近于分布均值,其标准差也会趋近于分布标准差。
(弱)趋近于期望。
中心极限定理
中心极限定理说明,大量相互独立的随机变量,其均值的分布以正态分布为极限。
10 蒙特卡罗方法
蒙特卡洛方法其实就是基于随机数计算相关所需的取值,其原理就是运用大数定理。常见的运用有,求积分、圆周率等。
11 假设检验
假设检验实际是基于问题首先提出原假设和备择假设,以此可以得到I类错误(即拒绝了原本正确的例子)和II类错误(通过了原本错误的例子)。以此,可以得到α即可承受的为犯I类错误的概率的上限,而p-value(significance)则是犯I类错误的概率。
12 估计
点估计
在此主要介绍的是两类参数估计方法:矩估计法和最大似然估计法。
矩估计法
矩估计法是运用
$$A_n = \frac{1}{n} \sum X^n$$
来解决参数估计问题,原理是一般分布参数与$$A_n$$之间的关系来求解的。
最大似然估计法
最大似然估计法运用的原理是:概率最大的时事件最容易发生。
因此求解${X_n}$的参数时,其实就是计算$${X_n}$$同时发生时概率的最大值,即求
$$L(X_1, X_2, ..., X_n; \theta) = P(X = X_1)P(X = X_2)...P(X = X_n)$$
的最大值,其中$$L(X_1, X_2, ..., X_n; \theta)$$也叫似然函数。
此时只需计算$$L' = 0$$即可。
密度估计
以下介绍常用的核密度估计(KDE),常见的形势如下:
$$\hat{x} = \frac{1}{hn} \sum^n_{i = 1}{K(\frac{(x - x_i)}{h})}$$
其中$K(.)$称为核密度函数,h为带宽,h越大越平滑。
13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数(Pearson Correlation Coefficient)
协方差(cov)和相关系数(corr)都是用来衡量两变量线性关系,唯一不同的是,协方差是含量纲的,相关系数是标准化后的值(在-1~1之间)。而皮尔森相关系数是最常见的相关系数,常用r表示。
14 因果性和相关性
相关性不代表因果性。这个是统计学中最重要的一条理论,因此,简单的相关系数并不能衡量自变量引起因变量的变化的推理。
A与B相关可能包含以下几种情况:
A导致B(直接因果)
B导致A(反向因果)
C导致A,且C导致B(共同因果)
A导致C,C导致B(间接因果)
A导致B,同时B也导致A(互为因果,循环因果)
没有任何关系,仅仅是巧合。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。