新手上路，请多包涵

我正在尝试计算 silhouette score 因为我找到了要创建的最佳簇数，但收到一条错误消息：

 ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

我无法理解这样做的原因。这是我用来聚类和计算 silhouette score 的代码。

我阅读了包含要聚类的文本的 csv，并在 n 聚类值上运行 K-Means 。我收到此错误的原因可能是什么？

   #Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score

model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)

#Load the test csv file
data = pd.read_csv(test_filename)
overview = data['overview'].astype('str').tolist()
overview = filter(bool, overview)
vectors = []

def split_words(text):
  return ''.join([x if x.isalnum() or x.isspace() else " " for x in text ]).split()

def preprocess_document(text):
  sp_words = split_words(text)
  return sp_words

for i, t in enumerate(overview):
  vectors.append(loaded_model.infer_vector(preprocess_document(t)))

sse = {}
silhouette = {}

for k in range(1,15):
  km = KMeans(n_clusters=k, max_iter=1000, verbose = 0).fit(vectors)
  sse[k] = km.inertia_
  #FOLLOWING LINE CAUSES ERROR
  silhouette[k] = silhouette_score(vectors, km.labels_, metric='euclidean')

best_cluster_size = 1
min_error = float("inf")

for cluster_size in sse:
    if sse[cluster_size] < min_error:
        min_error = sse[cluster_size]
        best_cluster_size = cluster_size

print(sse)
print("====")
print(silhouette)

原文由 Suhail Gupta 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas 机器学习 scikit-learn k-means

阅读 2.8k

2 个回答

得票最新

社区维基

发布于
2023-01-10

✓ 已被采纳

产生错误是因为您有一个针对不同数量的簇的循环 n 。 During the first iteration, n_clusters is 1 and this leads to all(km.labels_ == 0) to be True .

换句话说， 您只有一个标签为 0 的集群（因此， np.unique(km.labels_) 打印 array([0], dtype=int32) ）。

`silhouette_score` 需要超过 1 个簇标签。这会导致错误。错误信息很清楚。

例子：

 from sklearn import datasets
from sklearn.cluster import KMeans
import numpy as np

iris = datasets.load_iris()
X = iris.data
y = iris.target

km = KMeans(n_clusters=3)
km.fit(X,y)

# check how many unique labels do you have
np.unique(km.labels_)
#array([0, 1, 2], dtype=int32)

我们有 3 个不同的集群/集群标签。

 silhouette_score(X, km.labels_, metric='euclidean')
0.38788915189699597

该功能工作正常。

现在，让我们来引发错误：

 km2 = KMeans(n_clusters=1)
km2.fit(X,y)

silhouette_score(X, km2.labels_, metric='euclidean')

 ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)
原文由 seralouk 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-10

从文档中，

请注意，仅当标签数量为 2 <= n_labels <= n_samples - 1 时才定义 Silhouette Coefficient

因此，解决此问题的一种方法是不使用 for k in range(1,15) ，而是尝试从 k = 2 开始迭代，即 for k in range(2,15) 。这对我行得通。

原文由 Yuan 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

ValueError：标签数量为 1。使用 silhouette_score 时，有效值为 2 到 n_samples - 1（含）

`silhouette_score` 需要超过 1 个簇标签。这会导致错误。错误信息很清楚。

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译

ValueError：标签数量为 1。使用 silhouette_score 时，有效值为 2 到 n_samples - 1（含）

silhouette_score 需要超过 1 个簇标签。这会导致错误。错误信息很清楚。

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译

`silhouette_score` 需要超过 1 个簇标签。这会导致错误。错误信息很清楚。