拓端tecdat|R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

原文链接：http://tecdat.cn/?p=6690

原文出处：拓端数据部落公众号

在最近的一篇文章中，我描述了一个Metropolis-in-Gibbs采样器，用于估计贝叶斯逻辑回归模型的参数。

这篇文章就此问题进行了研究，以展示Rcpp如何帮助克服这一瓶颈。 TLDR：只需用C ++编写log-posterior而不是矢量化R函数，我们就可以大大减少运行时间。

我模拟了模型的数据：

对于这个分析，我编写了两个Metropolis-Hastings（MH）采样器：sample\_mh（）和sample\_mh\_cpp（）。前者使用对数后验编码作为向量化R函数。后者使用C ++（log\_post.cpp）中的log-posterior编码，并使用Rcpp编译成R函数。Armadillo库对C ++中的矩阵和向量类很有用。

因此，在每次迭代中，提出了系数向量。下面用红线表示链，表示生成数据的参数值。

burnin <- 1000
iter <- 100000
p <- ncol(X)
cpp(X, Y, iter = iter, jump = .03)
par(mfrow=c(2,2))
plot(mh_cpp\[\[1\]\]\[burnin:iter,'intercept'\])
abline(h= -1, col='red')

似乎趋同。平均接受概率在采样运行中收敛到约20％。

那么Rcpp实现与R实现相比如何呢？Rcpp的运行时间明显较低。当log-posterior被编码为矢量化R函数时，采样器相对于Rcpp实现运行速度大约慢7倍（样本大小为100）。下图显示了样本大小为100到5000的相对运行时间，增量为500。

for(i in 1:length(s){

 benchmark(mh(X, Y, iter = iter)

  time\[i\] <- time/rcpp

plot(ss, time)

直观地说，C ++带来了一些效率增益。但很明显，Rcpp是解决代码瓶颈的好方法。

拓端tecdat|R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数

原文链接：http://tecdat.cn/?p=6690

原文出处：拓端数据部落公众号

非常感谢您阅读本文，有任何问题请在下面留言！

拓端tecdat

引用和评论

R语言LCMM多维度潜在类别模型流行病学研究：LCA、MM方法分析纵向数据

喜大普奔，适用于 VS Code 的 GitHub Copilot 全新免费版本正式推出，GitHub 全球开发者突破1.5亿

从云计算一哥到全球生成式 AI 前行者：回顾 re:Invent 2024 三项重要发布

AI 驱动的个性化推荐系统设计

统计文本文件中单词频率的 Swift 与 Bash 实现详解

【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶

使用 AI 在医疗影像分析中的应用探索