R语言学习笔记 - SegmentFault 思否

R语言安装新版本后旧版本安装包的迁徙问题

aloneme

2018-06-20

阅读 1 分钟

14.2k

在安装完新的R版本后，我们在原版本的R包那么多，重新下载一遍等死人，有些还要手工编译，这边介绍一下使用installr包来进行R包迁移的方法

R语言apply系列介绍

aloneme

2018-06-20

阅读 3 分钟

5.6k

apply函数有3个参数：a. 第一个为输入的数据，要求为矩阵或者数据框的形式b. 第二个参数指的是按行还是按列来进行计算，为1时是按行进行计算，为2时是按列进行计算c. 第三个参数指的是使用什么函数

purrr 0.2.0

aloneme

2018-01-27

阅读 5 分钟

3.3k

我仍然在研究purrr应该做什么，以及它如何与基础R、dplyr, tidyr的现有功能进行比较。一个主要的观点影响了当前的版本那就是：为编程设计的函数应该是类型稳定的。类型稳定性是一个来自Julia的概念，并引起了我的注意。尽管R和Julia中的函数可以返回不同类型的输出，但总的来说，您应该努力让函数总是返回相同类型数据结...

purrr鲜为人知的技巧

aloneme

2018-01-27

阅读 5 分钟

11k

你可能想知道为什么这可能比for循环更受欢迎？因为它更简洁，你不需要初始化任何类型的结构来保存结果。如果用google “create empty list in R”，你会发现它很普遍。然而，有了map函数族，将不需要初始化结构。map_dbl函数会返回一个实数原子列表(atomic list)，map函数会返回一个列表，去试一下吧。

利用data.table进行数据分析

aloneme

2017-10-30

阅读 9 分钟

8.3k

个人认为R中最应该学习的一个R包就是data.table了,本人16年参加一些数据挖掘比赛，数据量较大，开始学习data.table来进行快速数据清洗，这边的快速有2方面：

最优化函数optim 目标函数： $$f(x_1,x_2)=(1-x_1)^2+100(x_2-x_1^2)^2$$ 该函数全局最小值在($x_1=1,x_2=1$)时取到。下面这种写法是因为有多个自变量函数，传入一个参数x，每个自变量用向量x的分量来表示，从而定义出目标函数。 {代码...} x1梯度：$-400*x_1*(x_2-x_1^2)-2*(1-x_1)$ x2梯度：$200*(x_2-x_1^2)$ 梯度：...

R语言机器学习框架h2o基础学习教程

aloneme

2017-10-15

阅读 10 分钟

14.9k

h2o高性能机器学习框架教程本文为2016年H2O Open Chicago上的内容。译者注：在使用H2O前你需要：安装java环境(需下载64位JDK，不然在R中不能控制通过h2o.init()函数来控制内存) install.packages("h2o") h2o类似于python中的sklearn,提供各种机器学习算法接口，我们需要此类框架的理由：提供统一的接口，代码更加...

R语言使用稀疏矩阵onehot编码问题

aloneme

2017-10-11

阅读 2 分钟

9.2k

将需要onehot的那些列合并，形成一个矩阵或者数据框X1,然后使用OneHotEncoder.fit与transform来onehot,可用sparse参数来指定是否需要稀疏矩阵格式 {代码...}

【译】使用H2O进行集成学习【1】

aloneme

2017-03-06

阅读 12 分钟

9.1k

若你不能成功安装这个版本不要纠结，你可以看第二篇译文，但我建议你先浏览一遍这篇文章H2O Ensemble已经实现成为一个成为h2oEnsemble的独立R包。该包是h2o这个包的扩展，它允许用户在h2o集群上使用任意的h2o监督学习算法来训练一个集成模型。在h2o这个R包中，h2oEnsemble中的所有计算实际上都在H2O集群内部执行，而不是...

【译】使用H2O进行集成学习【2】

aloneme

2017-03-02

阅读 6 分钟

6.1k

集成学习就是组合多个机器学习算法，从而得到更好的预测性能。许多流行的现代机器学习算法实际上就是集成。比如说随机森林和 Gradient Boosting Machine (GBM)都是2个集成学习器。Bagging（例如随机森林）和boosting（例如GBM）是集成方法，其采用一系列弱学习器（例如，决策树）来得到单个，强大的集成学习器。