全文链接:https://tecdat.cn/?p=40152
*原文出处:拓端数据部落公众号*
在统计学领域中,层次建模是一种极为强大且实用的工具。它能够巧妙地处理复杂的数据结构,通过分层的方式对数据进行建模。在贝叶斯统计的框架内,层次建模优势尽显,其可以有效地融合先验信息,进而实现更精准的推断。这种方法在多个学科如生物医学、社会科学等领域有着广泛的应用前景,为解决实际问题提供了有力的支持。
层次建模的初步应用
以下是一个针对特定球员本垒打数据进行逻辑模型拟合的示例。
上述代码的功能是依据输入的球员名字,从数据集中筛选出相关数据,并运用逻辑回归模型来拟合本垒打概率与球员年龄之间的关系。随后,通过循环操作对多个球员的数据进行处理整合,并使用xyplot
函数绘制出每个球员的拟合曲线。
xyplot(Fitted ~ Age | Player,
data=new_data,
type="l", lwd=3, col="black")
通过运行这些代码并查看生成的图形(图1),我们能够直观地观察到不同球员的本垒打概率随年龄的变化趋势。
图1:不同球员本垒打概率随年龄变化的拟合曲线
个体估计与联合估计
在分析心脏移植数据时,我们可通过以下代码绘制散点图,以观察数据特征。
绘制了心脏移植数据中预期值的对数与观测值和预期值比值的散点图,并标注了观测值(图2)。通过该图,我们能初步了解数据的分布状况,为后续深入分析奠定基础。
图2:心脏移植数据散点图
死亡率是否相等的检验
为判断等死亡率模型是否合适,我们采用后验预测检验方法。首先计算数据中的总观测值和总预期值。接着,通过生成伽马分布的随机数模拟参数lambda
,并据此生成泊松分布的随机数来模拟观测值。
随后,绘制模拟观测值的直方图,并标注实际观测值(图3),以此直观判断等死亡率模型的合理性。最后,绘制概率与预期值对数的关系图(图4),以便进一步分析。
with(hearttransplants,
plot(log(e), pout, ylab="Prob(extreme)"))
图3:模拟观测值直方图及实际观测值标注
图4:概率与预期值对数关系图
可交换性先验信念的建模
为对泊松率的可交换性信念进行建模,我们定义了一个两阶段先验函数。
通过设置不同的alpha
值,并使用mycontour
函数绘制等高线图(图5),可直观展示先验分布的形态。
图5:不同alpha
值下的先验分布等高线图
后验模拟
在贝叶斯分析里,后验分布的模拟是关键步骤。我们将后验分布表示为[μ,αμ,α]
和{λj}|μ,α{λj}|μ,α
的形式,并着重关注[μ,αμ,α]
的后验分布。
通过mycontour
函数绘制等高线图(图6),呈现后验分布的轮廓。
此外,运用gibbs
抽样方法模拟后验分布。
通过绘制抽样点的分布以及参数的密度图(图7、图8),深入了解后验分布的特征。
最后,依据后验模拟结果,计算速率的后验分布,并绘制相关图形(图9)展示观测值与后验分布的关系。
with(hearttransplants,
lines(log(e\[i\]) * c(1, 1), probint))
}
图6:[μ,αμ,α]
后验分布等高线图
图7:gibbs
抽样点分布
图8:参数log.alpha
的密度图
图9:观测值与速率后验分布关系图
后验推断
后验推断是基于后验分布对模型参数进行估计和推断的过程。我们再次绘制后验分布的等高线图(图10)。
通过计算收缩率,并绘制收缩率与预期值对数的关系图(图11),分析不同观测值的收缩情况。
在比较不同医院时,计算每个医院的平均速率,找出平均速率最小的医院。
通过模拟速率并进行比较(图12),进一步了解不同医院之间的差异。
图10:后验分布等高线图
图11:收缩率与预期值对数关系图
贝叶斯敏感性分析
贝叶斯敏感性分析主要探究先验选择对推断结果的影响。我们通过改变先验中的参数z0
,观察后验分布的变化。
log.alpha <- fitgibbs$par\[, 1\]
log.alpha.new <- sir.old.new(log.alpha,
prior, prior.new)
借助lattice
软件包绘制密度图(图13),直观比较原始先验和新先验下的后验分布。
图13:原始先验和新先验下后验分布的密度图
从图中可以清晰地看到,不同先验设定下后验分布的差异,这有助于我们了解先验选择对推断结果的影响程度,进而在实际应用中更加谨慎地选择合适的先验分布。
后验预测模型检验
后验预测模型检验是衡量模型预测能力的重要环节。我们通过模拟预测分布,并与实际观测值对比来进行检验。首先生成参数lambda
的后验样本,并据此生成预测的观测值。
然后绘制预测观测值的直方图,并标注实际观测值(图14),以此直观展示预测分布与实际值的契合情况。
图14:预测观测值直方图及实际观测值标注
为更全面评估模型的预测性能,我们计算每个观测值的预测分布至少与实际观测值一样大的概率。
最后,绘制概率对比图(图15),将等均值情况下的极端概率与可交换情况下的极端概率进行对比,从而深入分析模型的性能。
图15:等均值与可交换情况下极端概率对比图
从图中我们可以直观地看出两种情况下概率的差异,进而对模型的预测能力和合理性有更深入的认识,判断模型是否能够较好地捕捉数据的特征和规律。
结论
本文围绕贝叶斯框架下的层次建模展开了深入的研究与实践。通过对本垒打数据和心脏移植数据的分析,展示了层次建模在数据拟合、后验模拟、推断、敏感性分析以及后验预测模型检验等方面的具体应用过程。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。