这是一个数据挖掘比赛,现在遇到些问题,想与各位探讨:题目这样的:
根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好,在特征工程处遇到了以下问题:
1、uid 是categoriy 类型需要one-hot 编码,但是种类有uid有一万多种,one-hot编码会有memoryError 错误
2、内容部分想进行分词处理,再用词袋进行特征提取,但还是量太大,特征太多
想问问各位高见
你可以把uid进行hash,这样降维效果会非常明显。
如果你不知道hash trick是什么的话,可以看看这个hashing trick或者feature hashing是什么