0

如何选择将数据集分为几个cluster?有什么常用的标准吗?

2014-12-22 提问
3 个回答
0

trial and error

0

k-means cluster number
随便一搜一大堆问题 这种东西设计的数学性太强 一时半伙也说不清楚
另外如果连k都不会估计干嘛用k-means single-pass或者dbscan这种不需要估计k的算法可能更适合你

0

首先,k不是算出来的,更像是试出来的,很多启发式的机器学习算法中所需要的常数往往是这么试出来的.
但还是提供几种方法:

  1. 用不同的k值进行聚类,然后分别计算类内距离均值和类间距离均值之比,选择最小的那个.

  2. 根据先验知识决定k的取值

  3. 对不同k值都产生2次聚类,选择两次聚类结果最相似的k值.(稳定性)

撰写答案

推广链接