如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集？

Question

如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集？

发布于
2019-04-08

新手上路，请多包涵

现在可以获得的数据格式为：00016C4838CE   FA1003 5 每个字段分别为user_id,menu_id,click_num

也就是用户id，菜单id和菜单对应的点击次数 以下截取了两个用户的数据
00016C4838CE FA1003 5
00016C4838CE FA1508 1
00016C4838CE FA2101 1
00016C4838CE GL0205 1
00016C4838CE GL0304 1
00016C4838CE reg 67
00031D091B1F FA2303 1
00031D091B1F GL0204 13
00031D091B1F GL0209 1
00031D091B1F GL0303 66
想要将这些数据使用kmeans进行从而将用户进行聚类，但是不知道数据如何处理转化为可以训练的训练集

我的思路：

我是想把数据转化成如下的矩阵
![图片描述][1]

想请教如何转化，或者更好的方案
注：不重复的菜单数一共有543种

python pyspark

阅读 1.5k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？