【问题标题】:kmeans scikit-learn tutorialkmeans scikit-learn 教程
【发布时间】:2014-05-11 15:43:22
【问题描述】:

我正在尝试使用 Python 而不是 R 进行数据分析,但遇到了一些麻烦。所以我一直在阅读 scikit-learn 的文档并尝试自己运行他们的 kmeans 示例,但收到以下错误消息:

使用稀疏矢量化器从训练数据集中提取特征 Traceback(最近一次调用最后一次):

文件“kmeans.py”,第 104 行,在 X = vectorizer.fit_transform(dataset.data)

文件“/Library/Python/2.7/site-packages/scikit_learn-0.15_git-py2.7-macosx-10.9-intel.egg/sklearn/feature_extraction/text.py”,第 1238 行,在 fit_transform return self._tfidf.transform(X, copy=False)

文件“/Library/Python/2.7/site-packages/scikit_learn-0.15_git-py2.7-macosx-10.9-intel.egg/sklearn/feature_extraction/text.py”,第 1010 行,在转换中 X = normalize(X, norm=self.norm, copy=False)

文件“/Library/Python/2.7/site-packages/scikit_learn-0.15_git-py2.7-macosx-10.9-intel.egg/sklearn/preprocessing/data.py”,第542行,标准化 inplace_csr_row_normalize_l2(X)

文件“sparsefuncs.pyx”,第 146 行,在 sklearn.utils.sparsefuncs.inplace_csr_row_normalize_l2 (sklearn/utils/sparsefuncs.c:2714)

ValueError: 缓冲区 dtype 不匹配,预期为 'int' 但得到了 'long'

供参考,代码在这里:http://scikit-learn.org/stable/auto_examples/document_clustering.html

我花了一些时间来获得整个 scipy 堆栈,但我确定我现在拥有它,只是想知道为什么复制粘贴他们的代码然后运行它会出错(我相信他们不会'不要在他们的网站上放置带有错误的代码)。关于修复是什么/发生了什么的任何想法?

【问题讨论】:

标签: python numpy scipy scikit-learn


【解决方案1】:

一种有用的方法是安装 Anaconda 和 PyCharm 或 Eclipse IDE。将您的解释器从 IDE 指向 Anaconda 库。有关更多指南,请参阅此链接:http://docs.continuum.io/anaconda/ide_integration.html。此外,使用“conda update”和“anaconda update”从 shell 更新 pkgs 包括 scikit 非常容易。

【讨论】:

    【解决方案2】:

    您是如何安装 scipy 堆栈的?我强烈建议您不要尝试自己组装堆栈,因为这样做非常具有挑战性。我宁愿推动你使用 anaconda https://store.continuum.io/cshop/anaconda/

    免责声明:1) 我不为这些人工作。 2) anaconda 有免费版本。挺好的。

    【讨论】:

      猜你喜欢
      • 2015-02-20
      • 2017-04-15
      • 2019-11-29
      • 2015-11-20
      • 2015-11-28
      • 2015-09-16
      • 2016-11-16
      • 2016-06-28
      • 2018-09-04
      相关资源
      最近更新 更多