统计学基础之参数估计

点估计的概念与无偏性

点估计：设$x_1,x_2,x_3...x_n$是来自总体的一个样本，则用于估计未知参数的估计量$\hat \theta=\hat \theta(x_1,x_2...x_n)$称为统计量$\theta$的点估计。

例如，样本平均值是总体均值的点估计，样本方差是总体方差的点估计。

无偏性：$$E(\hat\theta)=\theta$$
渐近无偏估计：$$\lim_{n\rightarrow\infty}E(\hat \theta)=\theta$$
有效性：设$\hat \theta_1，\hat \theta_2$都是$\theta$的无偏估计，若对于任意样本，$$D(\hat \theta_1)\leq D(\hat \theta_2)$$且至少存在一组样本使不等号严格成立，则称$\hat \theta_1$比$\hat \theta_2$有效。

矩估计及相合性

矩估计：用样本矩（如均值方差等）估计未知变量的方法。
相合性：$\theta$为未知参数，$\hat \theta$是$\theta$的一个估计量，$n$是样本容量，弱对于任意的$\epsilon>0$，有$$\lim_{n\rightarrow\infty} P(|\hat\theta-\theta|\geq\epsilon)=0$$则称$\hat\theta$是$\theta$的一个相合估计。
定理：设$\hat\theta$是$\theta$的一个估计量，若$$\lim_{n\rightarrow\infty}E\hat\theta=\theta，\lim_{n\rightarrow\infty}D\hat\theta=0$$则$\hat\theta$是$\theta$的一个相合估计。
定理：若$\hat\theta_1，\hat\theta_2，\hat\theta_3...\hat\theta_k$是$\theta_1，\theta_2，\theta_3...\theta_k$的相合估计，$\eta=\eta(\theta_1,\theta_2...\theta_k)$是连续函数，则$\hat\eta=\hat\eta(\hat\theta_1，\hat\theta_2，\hat\theta_3...\hat\theta_k)$是$\eta$的相合估计

相合性被认为是估计量的一个基本要求。

最大似然估计与EM算法

最大似然估计（MLE，maximum likelihood estimation）

最大似然估计：设总体的概率密度函数为$f(x;\theta)$，$\theta$为未知参数，样本的联合概率密度函数$$L(\theta)=\prod f(x_i;\theta)$$称为样本的似然函数，对于统计量$\hat\theta$满足$$L(\hat\theta)=max L(\theta)$$称$\hat\theta$是$\theta$的最大似然估计。

最大似然估计基于这样一个想法：在一次抽样中获得该组数据的概率应当是最大的，因此，取使得联合概率最大的$\hat\theta$为$\theta$的估计值。

EM算法（Expectation-maximization algorithm）

EM算法流程

输入：观察数据 $x=(x_1,x_2,…x_n)$，联合分布$ p(x,z|\theta)$，条件分布 $p(z|x,\theta)$，极大迭代次数 J。

1) 随机初始化模型参数$\theta$的初值$\theta_0$

2) $for\space j \space in \space range(1,J+1)$：

a) E步：计算联合分布的条件概率期望：
$$Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)}，\theta)$$
b) M步：极大化 $L(\theta)$,得到 $\theta$:
$$\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}， z^{(i)}|\theta)}$$
c) 重复E、M步骤直到$\theta$收敛

输出：模型参数$\theta$

EM算法针对含有隐含分布的数据，可以看作最大似然估计的一种计算方法，详细见其它文章。

最小方差无偏估计

均方误差（MSE，mean square error）

相合性是大样本下评价估计好坏的一个重要标准，小样本下使用均方误差。

$$MSE(\hat \theta)=E(\hat\theta-\theta)^2$$

注意到$$\begin{split}MSE(\hat\theta)&=E(\hat\theta-E\hat\theta+E\hat\theta-\theta)^2\\&=E(\hat\theta-E\hat\theta)^2+(E\hat\theta-\theta)^2+2E(\hat\theta-E\hat\theta)(E\hat\theta-\theta)\\&=D(\hat\theta)+(E\hat\theta-\theta)^2\end{split}$$

因此，MSE由点估计的方差和偏差平方两部分组成。

最小方差无偏估计

对于参数估计问题，设$\hat\theta$是$\theta$的一个无偏估计，对于任意的一个$\theta$的无偏估计$\widetilde{\theta}$，若有$$D(\hat\theta)\leq D(\widetilde{\theta})$$则称$\hat\theta$是$\theta$的一致最小方差无偏估计，记为UMVUE(Uniformly Minimum-Variance Unbiased Estimator)

有限总体的抽样分布

对于无限总体，或有放回的抽样，由中心极限定理可知，当样本容量$n$较大时，有随机变量$X\sim N(\mu,\frac {\sigma^2}{n})$，当总体有限，并且抽样为无放回抽样时，各样本不满足独立同分布的要求，因此，不服从上述分布，均值、方差与上述计算方法不同。

比率p的抽样分布

考虑以下有限总体的场景，总体容量为$N$，其中事件$A$的个体数为$M$，样本容量为$n$，其中事件$A$的个体数为$m$，总体中事件A发生的概率为$p=\frac MN$，样本中，事件$A$的比率为$\widehat p=\frac mn$，则$\widehat p$是$p$的点估计。

有放回抽样

当抽样为有放回抽样时，显然有$$A\sim B(n,p)$$

$$EA=np$$$$DA =np(1-p)$$

证明见https://segmentfault.com/a/11... 常用离散分布

显然有

$$E\widehat p=E(\frac mn)=\frac {Em}n=p$$$$D\widehat p=\frac{Dm}{n^2}=\frac{p(1-p)}{n}$$

无放回抽样

当无放回抽样时，$X$不再服从$n$重伯努利分布，服从超几何分布$$A\sim h(n,N,M)$$$$EA=n\frac MN$$$$DA=\frac{nM(N-M)(N-n)}{N^2(N-1)}$$以上证明见https://segmentfault.com/a/11... 常用离散分布

$$E\widehat p=\frac {Em}n=\frac MN=p$$

$$D\widehat p=\frac {Dm}{n^2}=\frac{M(N-M)(N-n)}{nN^2(N-1)}=\frac {p(1-p)}n\frac{N-n}{N-1}$$

其中，$\sqrt{\frac{N-n}{N-1}}$被称为有限总体修正系数。

均值$\bar x$的抽样分布

考虑如下场景，对于有限总体$X$，其分布为离散型，可描述为以下分布列：

取值	概率	频数
$x_1$	$p_1$	$f_1$
$x_2$	$p_2$	$f_2$
$x_3$	$p_3$	$f_3$
$x_4$	$p_4$	$f_4$
...	...	...
$x_k$	$p_k$	$f_k$

同样，总体容量为$N$，样本容量为$n$，总体均值为$\mu$，总体方差为$\sigma^2$。

有放回抽样

显然每个样本$X_i$独立同分布于$X$，当样本数$n$较大时，有$$\bar x \sim N(\mu,\frac {\sigma^2}n)$$

无论样本数大小，都有$$E\bar x =\mu$$$$D\bar x = \frac {\sigma^2}n$$

无放回抽样

$$E\bar x=E\frac {\sum_{i=1}^{n} X_i}{n}=EX_i=\mu$$

$$D\bar x = \frac {N-n}{N-1}\frac {\sigma^2}n$$

区间估计

置信区间：设$\theta$是总体的一个参数，对于给定的$\alpha(0<\alpha<1)$，设有两个统计量$\hat\theta_{L}$和$\hat\theta_{U}$，对任意的$\theta$，有$$P(\hat\theta_{L}\leq\theta\leq\hat\theta_{U})\geq1-\alpha$$则称$[\hat\theta_{L}，\hat\theta_{U}]$为置信度为$1-\alpha$的置信区间

置信区间的一个解释：在次抽样中，每次抽样所得的$\hat\theta$有$1-\alpha$的概率落在置信区间中。

枢轴量法
- 构造样本和待预测变量的函数$G(x_1,x_2,..x_n,\theta)$
- 适当选择两常数，使得$$P(c\geq G \geq d)=1-\alpha$$
- 若$c\geq G \geq d$能变形为$\hat\theta_{L}\leq\theta\leq\hat\theta_{U}$，则置信区间可得。

单正态总体的置信区间

$\sigma$已知时$\mu$的置信区间

由于$$\bar x\sim N(\mu,\frac {\sigma^2}{n})$$

因此，构造枢轴量$$G=\frac{\bar x-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$

由标准正态分布表查得，置信度为$1-\alpha$的双侧置信区间为$[-z_{1-\frac \alpha 2}，z_{1-\frac \alpha 2}]$，则$\mu$的置信区间为$$-z_{1-\frac \alpha 2}\leq\frac{\bar x-\mu}{\sigma/\sqrt{n}}\leq z_{1-\frac \alpha 2}$$

$$\bar x - z_{1-\frac \alpha 2} \frac\sigma{\sqrt{n}}\leq \mu\leq \bar x + z_{1-\frac \alpha 2}\frac\sigma{\sqrt{n}}$$

$\sigma$未知时$\mu$的置信区间

由于$$\frac{\bar x-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$$$$\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)$$

故，构造枢轴量$$t=\frac{\bar x-\mu}{s/\sqrt{n}}\sim t(n-1)$$

则置信区间为$$\bar x - t_{1-\frac \alpha 2}(n-1) \frac s{\sqrt{n}}\leq \mu\leq \bar x + t_{1-\frac \alpha 2}(n-1)\frac s{\sqrt{n}}$$

$\sigma^2$的置信区间

以以下统计量为枢轴量$$\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)$$

由于$\chi^2$是恒为非负的偏态分布，因此，枢轴量区间为$$[\chi^2_{\frac \alpha 2},\chi^2_{1-\frac \alpha 2}]$$

故$\sigma^2$的置信区间为$$[\frac{(n-1)s^2}{\chi^2_{1-\alpha /2}}，\frac{(n-1)s^2}{\chi^2_{\alpha /2}}]$$

大样本置信区间

以上是正态分布下的枢轴量法，当分布不是正态分布时，寻找枢轴量及其分布会比较困难，因此，当数据量较大时，可用渐近分布构建近似置信区间。以上述抽样比率$p$为例，$X\sim B(1,p)$，由中心极限定理，有以下近似分布$$\bar x\sim N(p,\frac {p(1-p)}n)$$

构造枢轴量$$G=\frac {\bar x-p}{\sqrt{p(1-p)/n}}\sim N(0,1)$$

令$\lambda = z^2_{1-\frac \alpha 2}$，则

$$(\frac {\bar x-p}{\sqrt{p(1-p)/n}})^2\leq \lambda$$

$$(1-\frac \lambda n)p^2-(2p+\frac \lambda n)p+\bar x^2\leq 0$$

上式两根为$$\frac 1{1+\lambda/n}(\bar x +\frac \lambda{2n}\pm\sqrt{\frac{\bar x(1-\bar x)}{n}\lambda+\frac {\lambda^2}{4n^2}})$$

当n较大时，可得近似区间$$[\bar x-z_{1-\frac \alpha 2}\sqrt{\frac {\bar x(1-\bar x)}{n}}，\bar x+z_{1-\frac \alpha 2}\sqrt{\frac {\bar x(1-\bar x)}{n}}]$$

两正态总体下的置信区间

$x_1,x_2,...x_m$是$N(\mu_1,\sigma^2_1)$的样本，$y_1,y_2,...y_n$是$N(\mu_2,\sigma^2_2)$的样本,$s_x$，$s_y$分别是两样本的方差。

$\mu_1-\mu_2$的置信区间

$\sigma_1^2,\sigma^2_1$已知时

此时有$$\bar x-\bar y\sim N(\mu_1-\mu_2,\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n})$$

枢轴量$$G=\frac {\bar x-\bar y-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}}\sim N(0,1)$$

则$\mu_1-\mu_2$的置信区间为$$\bar x-\bar y\pm z_{1-\frac \alpha 2}\sqrt{\frac{\sigma^2_1}{m}+\frac{\sigma^2_2}{n}}$$

$\sigma_1^2=\sigma^2_2=\sigma^2$未知时

$$\bar x-\bar y\sim N(\mu_1-\mu_2,(\frac1{m}+\frac1{n}){\sigma^2})$$

$$\frac{(m-1)s_x^2+(n-1)s_y^2}{\sigma^2}\sim \chi^2(m+n-2)$$

构造枢轴量$$t=\sqrt{\frac{mn(m+n-2)}{m+n}}\frac{\bar x-\bar y-(\mu_1-\mu_2)}{\sqrt{(m-1)s^2_x+(n-1)s^2_y}}\sim t(m+n-2)$$

令$$s_w^2=\frac{(m-1)s_x^2+(n-1)s_y^2}{m+n-2}$$

则置信区间为$$\bar x-\bar y \pm \sqrt{\frac {m+n}{mn}}s_wt_{1-\frac \alpha 2}(m+n-2)$$

$\sigma_2^2=c\sigma^2_1$且c已知时

方法同上，置信区间为$$\bar x-\bar y \pm \sqrt{\frac {cm+n}{mn}}s_wt_{1-\frac \alpha 2}(m+n-2)$$

m,n都很大时的近似置信区间

由中心极限定理，可得以下近似分布$$\frac{\bar x-\bar y-(\mu_1-\mu_2)}{\sqrt{\frac{s_x^2}m+\frac{s_y^2}n}}\sim N(0，1)$$

近似置信区间$$\bar x-\bar y\pm z_{1-\frac \alpha 2}\sqrt{\frac{s_x^2}m+\frac{s_y^2}n}$$

$\sigma_1^2/\sigma_2^2$的置信区间

由$$\frac {(m-1)s_x^2}{\sigma_1^2}\sim\chi^2(m-1)$$$$\frac {(n-1)s_y^2}{\sigma_2^2}\sim\chi^2(n-1)$$

构造枢轴量$$F=\frac{s_x^2/\sigma^2_1}{s_y^2/\sigma^2_2}\sim F(m-1,n-1)$$

$\sigma_1^2/\sigma_2^2$的置信区间为$$[\frac{s_x^2}{s_y^2}\frac1 {F_{1-\frac\alpha2}(m-1,n-1)}，\frac{s_x^2}{s_y^2}\frac1 {F_{\frac\alpha2}(m-1,n-1)}]$$

统计学基础之参数估计

点估计的概念与无偏性

矩估计及相合性

最大似然估计与EM算法

最大似然估计（MLE，maximum likelihood estimation）

EM算法（Expectation-maximization algorithm）

最小方差无偏估计

均方误差（MSE，mean square error）

最小方差无偏估计

有限总体的抽样分布

比率p的抽样分布

有放回抽样

无放回抽样

均值$\bar x$的抽样分布

有放回抽样

无放回抽样

区间估计

单正态总体的置信区间

$\sigma$已知时$\mu$的置信区间

$\sigma$未知时$\mu$的置信区间

$\sigma^2$的置信区间

大样本置信区间

两正态总体下的置信区间

$\mu_1-\mu_2$的置信区间

$\sigma_1^2,\sigma^2_1$已知时

$\sigma_1^2=\sigma^2_2=\sigma^2$未知时

$\sigma_2^2=c\sigma^2_1$且c已知时

m,n都很大时的近似置信区间

$\sigma_1^2/\sigma_2^2$的置信区间

HH丶丶

引用和评论

机器学习基础之模型集成

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

ClkLog埋点系统基于ClickHouse的百万日活测试报告

高端制造业财务数字化怎么做？思迈特提出了新思路

ClkLog埋点用户分析系统支持手机端查询统计数据

统计学基础之参数估计

点估计的概念与无偏性

矩估计及相合性

最大似然估计与EM算法

最大似然估计（MLE，maximum likelihood estimation）

EM算法（Expectation-maximization algorithm）

最小方差无偏估计

均方误差（MSE，mean square error）

最小方差无偏估计

有限总体的抽样分布

比率p的抽样分布

有放回抽样

无放回抽样

均值$\bar x$的抽样分布

有放回抽样

无放回抽样

区间估计

单正态总体的置信区间

$\sigma$已知时$\mu$的置信区间

$\sigma$未知时$\mu$的置信区间

$\sigma^2$的置信区间

大样本置信区间

两正态总体下的置信区间

$\mu_1-\mu_2$的置信区间

$\sigma_1^2,\sigma^2_1$已知时

$\sigma_1^2=\sigma^2_2=\sigma^2$未知时

$\sigma_2^2=c\sigma^2_1$且c已知时

m,n都很大时的近似置信区间

$\sigma_1^2/\sigma_2^2$的置信区间

HH丶丶

引用和评论

机器学习基础之模型集成

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent

某全球领先网络解决方案提供商 基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

ClkLog埋点系统基于ClickHouse的百万日活测试报告

高端制造业财务数字化怎么做？思迈特提出了新思路

ClkLog埋点用户分析系统支持手机端查询统计数据

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈