Sklearn 中的数据类型和机器学习算法答案

【问题标题】：Data Types and Machine Learning Algorithms in SklearnSklearn 中的数据类型和机器学习算法
【发布时间】：2016-04-20 08:16:45
【问题描述】：

有谁知道在滑雪套件学习中运行机器学习算法时变量的数据类型是否起（负面）作用？

这里有一些背景可能会影响对这个问题的回答：我有一个 299 变量数据集，其中输出变量是一个虚拟变量。这将是一个分类问题，我想尝试不同的选项，例如逻辑回归和基于树的模型。当我使用 pandas 导入数据集时，我注意到一些变量被分配了 int64 的数据类型，而实际上它们是分类变量。这会成为机器学习算法的问题吗？如果这是一个愚蠢的问题，请原谅我......我对机器学习世界还比较陌生，虽然我在文献中没有看到关于这个主题的任何内容，但我确实想确保我之前不会偏离轨道我什至开始了。

【问题讨论】：

标签： python pandas machine-learning scikit-learn

【解决方案1】：

它将用于 scikit-learn，因为 scikit-learn 不支持分类特征。它将最终将该整数值视为数字特征，并且不会像您希望的那样表现。它确实支持以数字形式重新编码它们（请参阅here），但是与使用自然支持数字和分类特征的库和算法相比，这是次优的。

【讨论】：