腾讯云技术社区 - SegmentFault 思否

用R处理不平衡的数据

腾讯云开发者

2018-06-13

阅读 4 分钟

2.4k

在分类问题当中，数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题，样本不平衡的问题在二分类问题中的出现频率更高。举例来说，在银行或者金融的数据中，绝大多数信用卡的状态是正常的，只有少数的信用卡存在盗刷等异常现象。

协同过滤的R语言实现及改进

腾讯云开发者

2018-05-24

阅读 5 分钟

3.5k

协同过滤算法（CF）是构建推荐系统时最常用的技术之一。它可以基于收集到的其他用户的偏好信息（协同）来自动地预测当前用户的兴趣点。协同过滤算法主要分为两种：基于记忆（memory-based）的协同过滤算法和基于模型（model-based）的协同过滤算法。一般来说，将两者融合可以获得预测准确度上的提升。

用R语言进行文本挖掘和主题建模

腾讯云开发者

2018-05-17

阅读 3 分钟

3.9k

我们每天都会遇到各种各样的文本数据，但大部分是非结构化的，并不是全部都是有价值的。据估计，全球约80％的数据是非结构化的。这包括音频，视频和文本数据。在这篇文章中，我们将只讨论文本数据。在系列后面，我们将会谈论到其他非结构化数据。