R语言安装新版本后旧版本安装包的迁徙问题

2018-06-20
阅读 1 分钟
13.8k
在安装完新的R版本后,我们在原版本的R包那么多,重新下载一遍等死人,有些还要手工编译,这边介绍一下使用installr包来进行R包迁移的方法

R语言apply系列介绍

2018-06-20
阅读 3 分钟
5.4k
apply函数有3个参数:a. 第一个为输入的数据,要求为矩阵或者数据框的形式b. 第二个参数指的是按行还是按列来进行计算,为1时是按行进行计算,为2时是按列进行计算c. 第三个参数指的是使用什么函数

purrr 0.2.0

2018-01-27
阅读 5 分钟
3.1k
我仍然在研究purrr应该做什么,以及它如何与基础R、dplyr, tidyr的现有功能进行比较。一个主要的观点影响了当前的版本那就是:为编程设计的函数应该是类型稳定的。类型稳定性是一个来自Julia的概念,并引起了我的注意。尽管R和Julia中的函数可以返回不同类型的输出,但总的来说,您应该努力让函数总是返回相同类型数据结...

purrr鲜为人知的技巧

2018-01-27
阅读 5 分钟
10.7k
你可能想知道为什么这可能比for循环更受欢迎?因为它更简洁,你不需要初始化任何类型的结构来保存结果。如果用google “create empty list in R”,你会发现它很普遍。然而,有了map函数族,将不需要初始化结构。map_dbl函数会返回一个实数原子列表(atomic list),map函数会返回一个列表,去试一下吧。

利用data.table进行数据分析

2017-10-30
阅读 9 分钟
8.1k
个人认为R中最应该学习的一个R包就是data.table了,本人16年参加一些数据挖掘比赛,数据量较大,开始学习data.table来进行快速数据清洗,这边的快速有2方面:

R中最优化函数optim

2017-10-28
阅读 3 分钟
63.9k
最优化函数optim 目标函数: $$f(x_1,x_2)=(1-x_1)^2+100(x_2-x_1^2)^2$$ 该函数全局最小值在($x_1=1,x_2=1$)时取到。 下面这种写法是因为有多个自变量函数,传入一个参数x,每个自变量用向量x的分量来表示,从而定义出目标函数。 {代码...} x1梯度:$-400*x_1*(x_2-x_1^2)-2*(1-x_1)$ x2梯度:$200*(x_2-x_1^2)$ 梯度:...

R语言机器学习框架h2o基础学习教程

2017-10-15
阅读 10 分钟
14.4k
h2o高性能机器学习框架教程 本文为2016年H2O Open Chicago上的内容。 译者注: 在使用H2O前你需要: 安装java环境(需下载64位JDK,不然在R中不能控制通过h2o.init()函数来控制 内存) install.packages("h2o") h2o类似于python中的sklearn,提供各种机器学习算法接口,我们需要此类框架的理由: 提供统一的接口,代码更加...

R语言使用稀疏矩阵onehot编码问题

2017-10-11
阅读 2 分钟
9k
将需要onehot的那些列合并,形成一个矩阵或者数据框X1,然后使用OneHotEncoder.fit与transform来onehot,可用sparse参数来指定是否需要稀疏矩阵格式 {代码...}

【译】使用H2O进行集成学习【1】

2017-03-06
阅读 12 分钟
8.9k
若你不能成功安装这个版本不要纠结,你可以看第二篇译文,但我建议你先浏览一遍这篇文章H2O Ensemble已经实现成为一个成为h2oEnsemble的独立R包。该包是h2o这个包的扩展,它允许用户在h2o集群上使用任意的h2o监督学习算法来训练一个集成模型。在h2o这个R包中,h2oEnsemble中的所有计算实际上都在H2O集群内部执行,而不是...

【译】使用H2O进行集成学习【2】

2017-03-02
阅读 6 分钟
5.9k
集成学习就是组合多个机器学习算法,从而得到更好的预测性能。许多流行的现代机器学习算法实际上就是集成。比如说随机森林 和 Gradient Boosting Machine (GBM)都是2个集成学习器。Bagging(例如随机森林)和boosting(例如GBM)是集成方法,其采用一系列弱学习器(例如,决策树)来得到单个,强大的集成学习器。