全文链接:https://tecdat.cn/?p=35899
原文出处:拓端数据部落公众号
贝叶斯回归是一种统计方法,它使用贝叶斯定理来估计回归模型的参数。与传统的频率派回归方法不同,贝叶斯回归提供了参数的后验分布,而不仅仅是点估计。这意味着我们可以得到参数的不确定性度量,而不仅仅是单一的估计值。
R语言用于拟合贝叶斯广义线性模型。我们可以方便地帮助客户拟合贝叶斯线性回归、逻辑回归、多项式回归等各种模型。
Stan
你可以运行大多数回归。
- 由于广义线性模型(GLMs)涵盖了线性回归、probit、logit、Poisson、二项式、指数等模型,
glm
Family(可能还需要一个link参数)定义了你想要的回归类型:
- 线性回归:
family = gaussian
- Logit:
family = binomial(link = "logit")
- Probit:
family = binomial(link = "probit")
- Poisson:
family = poisson
先验分布:
- 无信息先验可以通过使用
prior = NULL
来设置 弱信息先验可以通过使用
prior =
与以下之一来指定:- normal, student\_t, cauchy, laplace以及更多,可以在这里找到
使用rstanarm的泰坦尼克号生存示例
<img src="https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/5cd6a9f1c560449b846754bce4ecffab~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=562&h=251&s=26447&e=png&b=ffffff">
# 重构Class列
Titanic$class <- str_extract(Titanic$PClass, "[0-9]")
# 显示模型摘要
summary(TitanicLinear)
在实践中,对于二元目标变量,通常会选择逻辑回归(例如,使用family = binomial(link = "logit")
)。模型的摘要会提供有关模型拟合的详细信息,包括每个预测变量的系数和它们的置信区间。
可信区间
打印置信区间。
<img src="https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/21300d07235d49f78385617afc2c4806~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=458&h=219&s=26258&e=png&b=ffffff">
图形化可信区间
<img src="https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d1b69bd7819845699dee28494874cfe0~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1344&h=960&s=57123&e=png&b=ffffff">
绘制后验分布
在R中,你还可以轻松地绘制参数的后验分布。后验分布反映了在给定数据后,你对模型参数的信念。你可以使用各种可视化技术来展示这些分布,如直方图、密度图或箱线图。
ggplot(Titanic_poste
ss)) +
geom_histogram()
先验和后验的比较
<img src="https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/4dbfebcf90864b50b421780fc59b951a~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1344&h=960&s=96697&e=png&b=ffffff">
模型检验
模型检验基础
执行贝叶斯回归后,有多种回归诊断方法可以帮助推断模型是否收敛、表现如何,甚至比较不同模型。
图形化后验预测分析
要检查后验分布的预测准确性,它会将后验分布模拟的y值与实际的y值进行比较并绘制图形。
<img src="https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/4849116625d94f0bb5e42942578cf51d~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=1344&h=960&s=93865&e=png&b=ffffff">
正则化与预测准确性
在贝叶斯和频率派估计中,一个关键问题是如何平衡预测准确性与简约性。换句话说,研究人员应该关注如何在不过度拟合数据的同时创建具有说服力的模型。
WAIC 示例
<img src="https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/9c165a522f86414cb77db73a2d4ae7eb~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=525&h=186&s=14827&e=png&b=ffffff">
留一交叉验证
除了WAIC之外,另一种比较样本外预测能力的方法是应用留一交叉验证(LOO)。
- LOO通过迭代地将数据划分为训练集和预测集来评估后验模拟的预测能力。
LOO 示例
<img src="https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/96cb944fdb3844baafed9947fb31e947~tplv-k3u1fbpfcp-jj-mark:0:0:0:0:q75.image#?w=559&h=337&s=27642&e=png&b=ffffff">
模型比较
复制代码
Titanic_probit <-
data = Titanic, family = binomial(link=probit))
Loo_probit <- loo(Titanic_probit)
data = Titanic, family = binomial(link=logit))
Loo_logit <- loo(Titanic_logit)
# ELPD_diff>0 表示第二个模型更受支持
在上面的代码中,我们拟合两个贝叶斯广义线性模型,分别使用了probit和logit链接函数。
最受欢迎的见解
4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归
6.R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。