主要观点:作为软件工程师,常使用聚类算法,但每个聚类算法都有根本缺陷,这是由数学本身决定的,无法同时满足规模不变性、丰富性和一致性这三个自然期望的属性。介绍了不同聚类算法在这三个属性上的表现及牺牲,如单链接聚类在不同停止准则下牺牲的属性,质心聚类不满足丰富性和一致性属性等,理解这一局限性可帮助工程师更好地选择和设计聚类系统。
关键信息:
- 2002 年 Jon Kleinberg 证明任何聚类算法不能同时具备三个属性。
- 规模不变性:数据点距离缩放不改变聚类结果。
- 丰富性:能处理数据的各种分组可能性。
- 一致性:现有聚类良好时,数据变化不应改变聚类。
- 不同聚类算法在三个属性上的取舍,如单链接聚类的不同停止准则牺牲的属性。
- 质心聚类不满足丰富性和一致性。
重要细节: - 以衣柜分组为例说明丰富性的意义。
- 以电影聚类为例说明一致性的意义。
- 介绍了支持作者的方式,如付费订阅、Buy me a coffee 页面、GitHub Sponsor 页面等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。