一起来复习Data Science：统计学中那些让人容易遗忘的知识点

1 描述性统计和预测性统计

描述性统计（Descriptive Statistics）

描述性统计是用来描述数据现状的统计量，描述性统计包括以下值:

均值（Mean）
中值（Median）
范围（range，包括最大值和最小值）
方差（SD）
标准差（Var）

预测性统计（Predictive Statistics）

预测性统计是使用历史数据加上数据挖掘、机器学习等方法预测数据的统计方式。

2 突出值（Outlier）和异常值（Anomaly）

这两个词在中文译文中还未正确的区分其不同，Outlier是指偏离数据中心的那些点，而异常值则是可以确认是非正常原因导致的偏离数据中心的那些点。

3 基本概率论

这里不做进一步的延伸，大致解释为一个概率的完整定义包括三个部分的测度空间，$$(\Omega,F,P)$$。Ω代表事件的全集，F代表Ω的某些子集的集合，P则代表一个测度，使得可以将F里的所有子集映射到0~1的区间中。显然，$$P(\Omega) = 1$$, $$P(\emptyset) = 0$$；F必须是是Ω的σ-域。

4 贝叶斯定理

比较好的解说参见飘飘白云的博客，简单陈述如下：

$$P(A|B) = P(B|A) * P(A) / P(B) $$

其实是描述B→A这个事件的过程，其中A事件是后于B事件发生的。而查看历史数据，只能得到A发生时B发生的概率，此时通过贝叶斯定理就可以得到后验概率。

5 随机变量

实际是对应于测度空间$$(\Omega,F,P)$$而言，一个随机变量X实际是指将某个$\Omega$的子集映射到具体取值的函数。

例如：考虑一个筛子，其可能投掷取值为1、2、3、4、5、6，其“事件”集合为：

$$\Omega = {\omega_1 , \omega_2, ... \omega_6}$$

则设随机变量为X，则$$X(\omega_n) = n$$，其中$$n = 1, 2, ..., 6$$。

此外这个例子还可以得到$$F(x) = P(X \le x) $$为x的CDF; $$p(x) = P(X = x)$$为PDF。

6 常见分布

正态分布/高斯分布

比较熟悉，在此不做扩展。

泊松分布

泊松分布是及其重要的离散分布。其分布为：

$$P(X = K) = \frac {K ^ \lambda}{K!} e^{\lambda}$$

$\lambda$在其中表示单位时间内发生某事件的概率，而K则表示单位时间内某事件发生次数，则泊松分布实际是描述单位时间内发生某事件次数的概率。

7 偏度（Skewness）

偏度是用来描述分布的不对称程度。

$$Skewness = E[(\frac{X - \mu}{\sigma})^3] = \frac{E[(X - \mu)^3]}{(E[(X - \mu)^2])^{3/2}}$$

8 ANOVA

ANOVA(Analysis of Variance)也称方差检验，是检验多组数据之间是否存在均值差异，这些都是建立在F检验上的。

F分布

F分布是描述两个符合标准正态分布的随机变量之间$$X^2$$之间比例的分布。因此，F检验最常用的应用就是检验两样本之间的方差是否齐性。

ANOVA检验的条件

ANOVA检验必须符合以下三个条件：

组间方差齐性
形态一致（曲线类似）
独立性

ANOVA的原理

ANOVA的原理其实就是比较总体均差和组内均差之间是否一致：如果一致，显然，几组随机变量之间并不存在显著性差异；不一致则表示几组随机变量之间存在显著性差异。

由此概念，我们依旧可以使用F检验，即判断总体均差和组内均差是否符合F-分布。

9 中心极限定理

大数定理

（强）随着随机变量数目趋近于无穷，则其均值趋近于分布均值，其标准差也会趋近于分布标准差。
（弱）趋近于期望。

中心极限定理

中心极限定理说明，大量相互独立的随机变量，其均值的分布以正态分布为极限。

10 蒙特卡罗方法

蒙特卡洛方法其实就是基于随机数计算相关所需的取值，其原理就是运用大数定理。常见的运用有，求积分、圆周率等。

11 假设检验

假设检验实际是基于问题首先提出原假设和备择假设，以此可以得到I类错误（即拒绝了原本正确的例子）和II类错误（通过了原本错误的例子）。以此，可以得到α即可承受的为犯I类错误的概率的上限，而p-value(significance)则是犯I类错误的概率。

12 估计

点估计

在此主要介绍的是两类参数估计方法：矩估计法和最大似然估计法。

矩估计法

矩估计法是运用

$$A_n = \frac{1}{n} \sum X^n$$

来解决参数估计问题，原理是一般分布参数与$$A_n$$之间的关系来求解的。

最大似然估计法

最大似然估计法运用的原理是：概率最大的时事件最容易发生。

因此求解${X_n}$的参数时，其实就是计算$${X_n}$$同时发生时概率的最大值，即求

$$L(X_1, X_2, ..., X_n; \theta) = P(X = X_1)P(X = X_2)...P(X = X_n)$$

的最大值，其中$$L(X_1, X_2, ..., X_n; \theta)$$也叫似然函数。

此时只需计算$$L' = 0$$即可。

密度估计

以下介绍常用的核密度估计（KDE），常见的形势如下：

$$\hat{x} = \frac{1}{hn} \sum^n_{i = 1}{K(\frac{(x - x_i)}{h})}$$

其中$K(.)$称为核密度函数，h为带宽，h越大越平滑。

13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数（Pearson Correlation Coefficient）

协方差（cov）和相关系数（corr）都是用来衡量两变量线性关系，唯一不同的是，协方差是含量纲的，相关系数是标准化后的值（在-1~1之间）。而皮尔森相关系数是最常见的相关系数，常用r表示。

14 因果性和相关性

相关性不代表因果性。这个是统计学中最重要的一条理论，因此，简单的相关系数并不能衡量自变量引起因变量的变化的推理。

A与B相关可能包含以下几种情况：

A导致B（直接因果）
B导致A（反向因果）
C导致A，且C导致B（共同因果）
A导致C，C导致B（间接因果）
A导致B，同时B也导致A（互为因果，循环因果）
没有任何关系，仅仅是巧合。

一起来复习Data Science：统计学中那些让人容易遗忘的知识点

1 描述性统计和预测性统计

描述性统计（Descriptive Statistics）

预测性统计（Predictive Statistics）

2 突出值（Outlier）和异常值（Anomaly）

3 基本概率论

4 贝叶斯定理

5 随机变量

6 常见分布

正态分布/高斯分布

泊松分布

7 偏度（Skewness）

8 ANOVA

F分布

ANOVA检验的条件

ANOVA的原理

9 中心极限定理

大数定理

中心极限定理

10 蒙特卡罗方法

11 假设检验

12 估计

点估计

矩估计法

最大似然估计法

密度估计

13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数（Pearson Correlation Coefficient）

14 因果性和相关性

三次方根

引用和评论

Python函数式编程系列012：惰性列表之生成器与迭代器

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent

浅谈大模型背景下的数据治理

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

ClkLog埋点系统基于ClickHouse的百万日活测试报告

高端制造业财务数字化怎么做？思迈特提出了新思路

一起来复习Data Science：统计学中那些让人容易遗忘的知识点

1 描述性统计和预测性统计

描述性统计（Descriptive Statistics）

预测性统计（Predictive Statistics）

2 突出值（Outlier）和异常值（Anomaly）

3 基本概率论

4 贝叶斯定理

5 随机变量

6 常见分布

正态分布/高斯分布

泊松分布

7 偏度（Skewness）

8 ANOVA

F分布

ANOVA检验的条件

ANOVA的原理

9 中心极限定理

大数定理

中心极限定理

10 蒙特卡罗方法

11 假设检验

12 估计

点估计

矩估计法

最大似然估计法

密度估计

13 协方差(Covariance)、相关系数(Correlation Coefficient)与皮尔森相关系数（Pearson Correlation Coefficient）

14 因果性和相关性

三次方根

引用和评论

Python函数式编程系列012：惰性列表之生成器与迭代器

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent

浅谈大模型背景下的数据治理

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

ClkLog埋点系统基于ClickHouse的百万日活测试报告

高端制造业财务数字化怎么做？思迈特提出了新思路

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈