我正在尝试计算 silhouette score
因为我找到了要创建的最佳簇数,但收到一条错误消息:
ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)
我无法理解这样做的原因。这是我用来聚类和计算 silhouette score
的代码。
我阅读了包含要聚类的文本的 csv,并在 n
聚类值上运行 K-Means
。我收到此错误的原因可能是什么?
#Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score
model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)
#Load the test csv file
data = pd.read_csv(test_filename)
overview = data['overview'].astype('str').tolist()
overview = filter(bool, overview)
vectors = []
def split_words(text):
return ''.join([x if x.isalnum() or x.isspace() else " " for x in text ]).split()
def preprocess_document(text):
sp_words = split_words(text)
return sp_words
for i, t in enumerate(overview):
vectors.append(loaded_model.infer_vector(preprocess_document(t)))
sse = {}
silhouette = {}
for k in range(1,15):
km = KMeans(n_clusters=k, max_iter=1000, verbose = 0).fit(vectors)
sse[k] = km.inertia_
#FOLLOWING LINE CAUSES ERROR
silhouette[k] = silhouette_score(vectors, km.labels_, metric='euclidean')
best_cluster_size = 1
min_error = float("inf")
for cluster_size in sse:
if sse[cluster_size] < min_error:
min_error = sse[cluster_size]
best_cluster_size = cluster_size
print(sse)
print("====")
print(silhouette)
原文由 Suhail Gupta 发布,翻译遵循 CC BY-SA 4.0 许可协议
产生 错误 是因为您有一个针对不同数量的簇的循环
n
。 During the first iteration,n_clusters
is1
and this leads toall(km.labels_ == 0)
to beTrue
.换句话说, 您只有一个标签为 0 的集群(因此,
np.unique(km.labels_)
打印array([0], dtype=int32)
)。silhouette_score
需要超过 1 个簇标签。这会导致错误。错误信息很清楚。例子:
我们有 3 个不同的集群/集群标签。
该功能工作正常。
现在,让我们来引发错误: