用R处理不平衡的数据

2018-06-13
阅读 4 分钟
2.4k
在分类问题当中,数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题,样本不平衡的问题在二分类问题中的出现频率更高。举例来说,在银行或者金融的数据中,绝大多数信用卡的状态是正常的,只有少数的信用卡存在盗刷等异常现象。

协同过滤的R语言实现及改进

2018-05-24
阅读 5 分钟
3.5k
协同过滤算法(CF)是构建推荐系统时最常用的技术之一。它可以基于收集到的其他用户的偏好信息(协同)来自动地预测当前用户的兴趣点。协同过滤算法主要分为两种:基于记忆(memory-based)的协同过滤算法和基于模型(model-based)的协同过滤算法。一般来说,将两者融合可以获得预测准确度上的提升。

用R语言进行文本挖掘和主题建模

2018-05-17
阅读 3 分钟
3.9k
我们每天都会遇到各种各样的文本数据,但大部分是非结构化的,并不是全部都是有价值的。据估计,全球约80%的数据是非结构化的。这包括音频,视频和文本数据。在这篇文章中,我们将只讨论文本数据。在系列后面,我们将会谈论到其他非结构化数据。