【问题标题】:ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive) when using silhouette_scoreValueError:标签数为 1。使用 silhouette_score 时,有效值为 2 到 n_samples - 1(含)
【发布时间】:2018-12-25 04:58:03
【问题描述】:

我正在尝试计算 silhouette score,因为我找到了要创建的最佳集群数量,但收到一条错误消息:

ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

我无法理解其原因。这是我用来聚类和计算silhouette score 的代码。

我读取了包含要聚类的文本的 csv,并在 n 聚类值上运行 K-Means。我收到此错误的原因可能是什么?

  #Create cluster using K-Means
#Only creates graph
import matplotlib
#matplotlib.use('Agg')
import re
import os
import nltk, math, codecs
import csv
from nltk.corpus import stopwords
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.metrics import silhouette_score

model_name = checkpoint_save_path
loaded_model = Doc2Vec.load(model_name)

#Load the test csv file
data = pd.read_csv(test_filename)
overview = data['overview'].astype('str').tolist()
overview = filter(bool, overview)
vectors = []

def split_words(text):
  return ''.join([x if x.isalnum() or x.isspace() else " " for x in text ]).split()

def preprocess_document(text):
  sp_words = split_words(text)
  return sp_words

for i, t in enumerate(overview):
  vectors.append(loaded_model.infer_vector(preprocess_document(t)))

sse = {}
silhouette = {}


for k in range(1,15):
  km = KMeans(n_clusters=k, max_iter=1000, verbose = 0).fit(vectors)
  sse[k] = km.inertia_
  #FOLLOWING LINE CAUSES ERROR
  silhouette[k] = silhouette_score(vectors, km.labels_, metric='euclidean')

best_cluster_size = 1
min_error = float("inf")

for cluster_size in sse:
    if sse[cluster_size] < min_error:
        min_error = sse[cluster_size]
        best_cluster_size = cluster_size

print(sse)
print("====")
print(silhouette)

【问题讨论】:

  • 可以添加数据吗?
  • 代码中的哪一行导致错误?
  • @seralouk 这是来自我的谷歌驱动器的 CSV/数据的链接:drive.google.com/open?id=1pM0RvqyQI5IIqc_UbQL6b54p_DnnxHED
  • @R.F.Nelson 抱歉,我刚刚在问题中用评论标记了它。以下行创建错误:silhouette_score(vectors, km.labels_, metric='euclidean')
  • 你也可以上传test_filename文件吗?

标签: python pandas machine-learning scikit-learn k-means


【解决方案1】:

产生错误是因为您有一个循环用于不同数量的集群n。在第一次迭代中,n_clusters1 并且 这导致 all(km.labels_ == 0) 成为 True

换句话说,你只有一个标签为 0 的集群(因此,np.unique(km.labels_) 打印 array([0], dtype=int32))。


silhouette_score 需要超过 1 个集群标签。这会导致错误。错误信息很清楚。


示例:

from sklearn import datasets
from sklearn.cluster import KMeans
import numpy as np

iris = datasets.load_iris()
X = iris.data
y = iris.target

km = KMeans(n_clusters=3)
km.fit(X,y)

# check how many unique labels do you have
np.unique(km.labels_)
#array([0, 1, 2], dtype=int32)

我们有 3 个不同的集群/集群标签。

silhouette_score(X, km.labels_, metric='euclidean')
0.38788915189699597

该功能运行良好。


现在,让我们引发错误:

km2 = KMeans(n_clusters=1)
km2.fit(X,y)

silhouette_score(X, km2.labels_, metric='euclidean')
ValueError: Number of labels is 1. Valid values are 2 to n_samples - 1 (inclusive)

【讨论】:

    【解决方案2】:

    从文档中,

    请注意,仅当标签数量为 2 时才定义轮廓系数

    所以解决这个问题的一种方法是不使用for k in range(1,15),而是尝试从k = 2 开始迭代,即for k in range(2,15)。这对我有用。

    【讨论】:

      【解决方案3】:

      尝试更改 min_samples 以及算法和指标。

      用于指标和算法的有效列表。 sklearn.neighbors.VALID_METRICS

      【讨论】:

      • 请考虑进一步解释为什么这可以解决问题,并提供参考外部文档的链接。
      • 道歉。 min_samples 建议适用于 DBSCAN。对于 DBSCAN,我也遇到了与上述相同的错误,但已修复。出现错误 - k 在范围(1,15)内 - 对于第一次迭代 k = 1,我们有 len(set(kmeans.label_) 即只有 1 个集群。silhoute 系数是关于集群内的点如何相对分离到其他集群的点。因此,silhoute 系数的基本定义需要至少 2 个集群,这意味着您应该选择 (2,15) 而不是 (1,15) 之间的集群范围。
      • 请转至scikit-learn.org/stable/auto_examples/cluster/…。见用法 range_n_clusters = [2, 3, 4, 5, 6]
      • 我相信silhouette_score在下面使用了简单的随机抽样,可以有效地导致样本中只有一个簇标签。想象一下从两组数据中采样——一大组和一小组。
      【解决方案4】:

      尝试增加您的 eps 值。我也遇到了同样的错误,但是当我选择更高的 eps 值时,错误就消失了。

      【讨论】:

        猜你喜欢
        • 2021-02-20
        • 2021-02-24
        • 2019-03-18
        • 2020-12-29
        • 2021-04-16
        • 1970-01-01
        • 2021-04-28
        • 1970-01-01
        相关资源
        最近更新 更多