使用具有余弦相似度的 K-means - Python

Question

新手上路，请多包涵

我正在尝试在 python 中实现 Kmeans 算法，它将使用 cosine distance 而不是欧氏距离作为距离度量。

我知道使用不同的距离函数可能是致命的，应该小心使用。使用余弦距离作为度量标准迫使我更改平均函数（根据余弦距离的平均值必须是归一化向量的逐元素平均值）。

我已经看到了这个手动覆盖 sklearn 的距离函数的优雅解决方案，我想使用相同的技术来覆盖代码的平均部分，但我找不到它。

有谁知道怎么办？

距离度量不满足三角不等式有多重要？

如果有人知道我使用余弦度量或满足距离和平均函数的 kmeans 的不同有效实现，它也会非常有帮助。

非常感谢你！

编辑：

使用角距离而不是余弦距离后，代码看起来像这样：

 def KMeans_cosine_fit(sparse_data, nclust = 10, njobs=-1, randomstate=None):
    # Manually override euclidean
    def euc_dist(X, Y = None, Y_norm_squared = None, squared = False):
        #return pairwise_distances(X, Y, metric = 'cosine', n_jobs = 10)
        return np.arccos(cosine_similarity(X, Y))/np.pi
    k_means_.euclidean_distances = euc_dist
    kmeans = k_means_.KMeans(n_clusters = nclust, n_jobs = njobs, random_state = randomstate)
    _ = kmeans.fit(sparse_data)
    return kmeans

我注意到（通过数学计算）如果向量被归一化，则标准平均值适用于角度度量。据我了解，我必须在 kmeans.py 中更改 _mini_batch_step() 。但是功能很复杂，我不明白该怎么做。

有谁知道替代解决方案？

或者，有谁知道如何使用始终强制质心归一化的功能来编辑此功能？

原文由 ise372 发布，翻译遵循 CC BY-SA 4.0 许可协议

python scikit-learn k-means cosine-similarity sklearn-pandas

阅读 1.4k

1 个回答

得票最新

社区维基

1

发布于
2023-01-10

所以事实证明你可以将 X 标准化为单位长度并像往常一样使用 K-means。原因是如果 X1 和 X2 是单位向量，看下面的等式，最后一行括号内的项是余弦距离。

因此，就使用 k-means 而言，只需执行以下操作：

 length = np.sqrt((X**2).sum(axis=1))[:,None]
X = X / length

kmeans = KMeans(n_clusters=10, random_state=0).fit(X)

如果您需要质心和距离矩阵，请执行以下操作：

 len_ = np.sqrt(np.square(kmeans.cluster_centers_).sum(axis=1)[:,None])
centers = kmeans.cluster_centers_ / len_
dist = 1 - np.dot(centers, X.T) # K x N matrix of cosine distances

笔记：

刚刚意识到您正在尝试最小化集群的平均向量与其成分之间的距离。当您简单地对向量进行平均时，平均向量的长度小于一。但在实践中，仍然值得运行普通的 sklearn 算法并检查平均向量的长度。在我的例子中，平均向量接近单位长度（平均约为 0.9，但这取决于数据的密度）。 TLDR：使用@σηγ 指出的 spherecluster 包。

原文由 sachinruk 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

使用具有余弦相似度的 K-means - Python

笔记：

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

使用具有余弦相似度的 K-means - Python

笔记：

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？