一个数据挖掘问题

这是一个数据挖掘比赛,现在遇到些问题,想与各位探讨:题目这样的:
clipboard.png
根据 'uid', 'mid', 'time', 'content' 来预测 'forward_count','comment_count', 'like_count'三个指标
目前数据已经整理好,在特征工程处遇到了以下问题:
1、uid 是categoriy 类型需要one-hot 编码,但是种类有uid有一万多种,one-hot编码会有memoryError 错误
2、内容部分想进行分词处理,再用词袋进行特征提取,但还是量太大,特征太多
想问问各位高见

阅读 4k
2 个回答

uid只是主键,起到连接两张表的作用,并不需要独热处理进入模型训练。
小弟认为你只需要集中精力对content的东西进行处理,这涉及nlp的一些操作,网路上蛮多trick的,建议往这方面去检索信息。
以上,谢谢

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题