R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码

全文链接：https://tecdat.cn/?p=35899

原文出处：拓端数据部落公众号

贝叶斯回归是一种统计方法，它使用贝叶斯定理来估计回归模型的参数。与传统的频率派回归方法不同，贝叶斯回归提供了参数的后验分布，而不仅仅是点估计。这意味着我们可以得到参数的不确定性度量，而不仅仅是单一的估计值。

R语言用于拟合贝叶斯广义线性模型。我们可以方便地帮助客户拟合贝叶斯线性回归、逻辑回归、多项式回归等各种模型。

Stan

你可以运行大多数回归。

由于广义线性模型（GLMs）涵盖了线性回归、probit、logit、Poisson、二项式、指数等模型，

glm

Family（可能还需要一个link参数）定义了你想要的回归类型：

线性回归：family = gaussian
Logit：family = binomial(link = "logit")
Probit：family = binomial(link = "probit")
Poisson：family = poisson

先验分布：

无信息先验可以通过使用prior = NULL来设置
弱信息先验可以通过使用prior =与以下之一来指定：
- normal, student\_t, cauchy, laplace以及更多，可以在这里找到

使用rstanarm的泰坦尼克号生存示例



    # 重构Class列  

    Titanic$class <- str_extract(Titanic$PClass, "[0-9]")  


    # 显示模型摘要  

    summary(TitanicLinear)

在实践中，对于二元目标变量，通常会选择逻辑回归（例如，使用family = binomial(link = "logit")）。模型的摘要会提供有关模型拟合的详细信息，包括每个预测变量的系数和它们的置信区间。

可信区间

打印置信区间。

图形化可信区间

绘制后验分布

在R中，你还可以轻松地绘制参数的后验分布。后验分布反映了在给定数据后，你对模型参数的信念。你可以使用各种可视化技术来展示这些分布，如直方图、密度图或箱线图。



ggplot(Titanic_poste
ss)) + 
  geom_histogram()

先验和后验的比较

模型检验

模型检验基础

执行贝叶斯回归后，有多种回归诊断方法可以帮助推断模型是否收敛、表现如何，甚至比较不同模型。

图形化后验预测分析

要检查后验分布的预测准确性，它会将后验分布模拟的y值与实际的y值进行比较并绘制图形。

正则化与预测准确性

在贝叶斯和频率派估计中，一个关键问题是如何平衡预测准确性与简约性。换句话说，研究人员应该关注如何在不过度拟合数据的同时创建具有说服力的模型。

WAIC 示例

留一交叉验证

除了WAIC之外，另一种比较样本外预测能力的方法是应用留一交叉验证（LOO）。

LOO通过迭代地将数据划分为训练集和预测集来评估后验模拟的预测能力。

LOO 示例

模型比较

复制代码
    Titanic_probit <- 
        

        data = Titanic, family = binomial(link=probit))  

    Loo_probit <- loo(Titanic_probit)  

      



        data = Titanic, family = binomial(link=logit))  

    Loo_logit <- loo(Titanic_logit)  

      

    # ELPD_diff>0 表示第二个模型更受支持

在上面的代码中，我们拟合两个贝叶斯广义线性模型，分别使用了probit和logit链接函数。