如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集?

现在可以获得的数据格式为:00016C4838CE   FA1003 5 每个字段分别为user_id,menu_id,click_num

也就是用户id菜单id和菜单对应的点击次数 以下截取了两个用户的数据
00016C4838CE FA1003 5
00016C4838CE FA1508 1
00016C4838CE FA2101 1
00016C4838CE GL0205 1
00016C4838CE GL0304 1
00016C4838CE reg 67
00031D091B1F FA2303 1
00031D091B1F GL0204 13
00031D091B1F GL0209 1
00031D091B1F GL0303 66
想要将这些数据使用kmeans进行从而将用户进行聚类,但是不知道数据如何处理转化为可以训练的训练集

我的思路:

我是想把数据转化成如下的矩阵
![图片描述][1]

想请教如何转化,或者更好的方案
注:不重复的菜单数一共有543种

阅读 1.5k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题