Python - 输入包含 NaN、无穷大或对于 dtype('float64') 来说太大的值答案

【问题标题】：Python - Input contains NaN, infinity or a value too large for dtype('float64')Python - 输入包含 NaN、无穷大或对于 dtype('float64') 来说太大的值
【发布时间】：2025-12-29 12:35:05
【问题描述】：

我是 Python 新手。我正在尝试使用 sklearn.cluster。这是我的代码：

from sklearn.cluster import MiniBatchKMeans

kmeans=MiniBatchKMeans(n_clusters=2)
kmeans.fit(df)

但我收到以下错误：

     50             and not np.isfinite(X).all()):
     51         raise ValueError("Input contains NaN, infinity"
---> 52                          " or a value too large for %r." % X.dtype)

 ValueError: Input contains NaN, infinity or a value too large for dtype('float64')

我检查了没有 Nan 或 infinity 值。所以只剩下一个选项了。但是，我的数据信息告诉我所有变量都是float64，所以我不明白问题出在哪里。

df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 362358 entries, 135 to 4747145
Data columns (total 8 columns):
User         362358 non-null float64
Hour         362352 non-null float64
Minute       362352 non-null float64
Day          362352 non-null float64
Month        362352 non-null float64
Year         362352 non-null float64
Latitude     362352 non-null float64
Longitude    362352 non-null float64
dtypes: float64(8)
memory usage: 24.9 MB

非常感谢，

【问题讨论】：

I checked that the there is no Nan or infinity value. 请告诉我们你是怎么做到的。
对数据进行排序并检查顶部/底部值。
我认为df 是熊猫数据框？如果是这样，请尝试kmeans.fit(df.as_matrix())。 Scikit-learn 没有 DataFrame 的概念，只有 numpy 数组。

标签： python pandas machine-learning scikit-learn k-means

【解决方案1】：

我认为fit() 只接受“类似数组，形状 = [n_samples，n_features]”，而不接受 pandas 数据帧。所以尝试将数据框的值传递给它：

kmeans=MiniBatchKMeans(n_clusters=2)
kmeans.fit(df.values)

或对它们进行整形以正确运行该功能。希望对您有所帮助。

【讨论】：

谢谢@Fabio，我试过了，但我仍然有同样的错误
我也有同样的情况。已验证数据不存在空值但得到上述错误信息

【解决方案2】：

通过查看您的 df.info()，似乎非空用户值比任何其他列的值多 6 个。这表明您在其他每一列中有 6 个空值，这就是错误的原因。

<class 'pandas.core.frame.DataFrame'>
Int64Index: 362358 entries, 135 to 4747145
Data columns (total 8 columns):
User         362358 non-null float64
Hour         362352 non-null float64
Minute       362352 non-null float64
Day          362352 non-null float64
Month        362352 non-null float64
Year         362352 non-null float64
Latitude     362352 non-null float64
Longitude    362352 non-null float64
dtypes: float64(8)
memory usage: 24.9 MB

【讨论】：

【解决方案3】：

通过查看您的 df.info()，似乎非空用户值比任何其他列的值多 6 个。这表明您在其他每一列中有 6 个空值，这就是错误的原因。

因此，您可以使用 iloc() 将数据切分到合适的位置：

df = pd.read_csv(location1, encoding = "ISO-8859-1").iloc[2:20]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 2 to 19
Data columns (total 6 columns):
zip_code     18 non-null int64
latitude     18 non-null float64
longitude    18 non-null float64
city         18 non-null object
state        18 non-null object
county       18 non-null object
dtypes: float64(2), int64(1), object(3)

【讨论】：