一个数据挖掘问题

魔亦有道

发布于
2017-08-26

这是一个数据挖掘比赛，现在遇到些问题，想与各位探讨：题目这样的：

根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好，在特征工程处遇到了以下问题：
1、uid 是categoriy 类型需要one-hot 编码，但是种类有uid有一万多种，one-hot编码会有memoryError 错误
2、内容部分想进行分词处理，再用词袋进行特征提取，但还是量太大，特征太多
想问问各位高见

python 机器学习

阅读 4k

2 个回答

发布于
2017-12-14

你可以把uid进行hash，这样降维效果会非常明显。
如果你不知道hash trick是什么的话，可以看看这个hashing trick或者feature hashing是什么

发布于
2019-10-13

uid只是主键，起到连接两张表的作用，并不需要独热处理进入模型训练。
小弟认为你只需要集中精力对content的东西进行处理，这涉及nlp的一些操作，网路上蛮多trick的，建议往这方面去检索信息。
以上，谢谢

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题