机器学习分类数据集设置答案

【问题标题】：Machine learning classification dataset setup机器学习分类数据集设置
【发布时间】：2017-05-16 16:29:25
【问题描述】：

如果这个问题违反了 SO 的问题指南，我很抱歉，但我被困住了，我找不到其他地方可以问这类问题。假设我有一个数据集，其中包含在三种不同条件（热、冷、舒适）下获得的三个实验数据。数据在由 4 列 (time, cold, comfortable and hot) 组成的 pandas dataframe 中以三列排列。当我绘制数据时，我可以直观地看到三个实验的分离，但我想用机器学习自动完成。 x 轴代表time，y 轴代表数据的magnitude。我已经阅读了不同的机器学习 classification techniques 但我不明白如何设置我的数据以便我可以将其“输入”到 classification 算法中。也就是说，我的问题是：

这在编程上可行吗？
如何设置（排列我的数据）以便可以轻松地将其输入到分类算法中？ From what I read so far，看来，要使算法起作用，数据必须按特定顺序排列（例如，参见iris dataset，其中数据被很好地标记。如何自定义算法以满足我的需求？ 注意：理想情况下，我希望程序在给定幅度值的情况下将其分类为hot, comfortable or cold。在我的情况下，时间序列并没有太大的相关性

【问题讨论】：

您尝试使用分类来实现什么？如果是你的数据，你有其他数据作为测试集要分类吗？
为什么排序数据不够？好像你在这里遇到了一些 XY 问题meta.stackexchange.com/questions/66377/what-is-the-xy-problem
是的，可行，为什么不呢？您不需要任何预处理来使用您的数据，但行之间没有冲突，您可以使用一个简单的阈值来确定新数据
而且，一般来说，这类问题更适合Cross Validated。
ML用于非常复杂的数据，可以用ML，但是不值得，怎么可以MLP（多层感知器），但是需要很多前提。

标签： python scikit-learn

【解决方案1】：

当然这是可行的。

从原始帖子中并不完全清楚您的模型可以使用哪些变量/功能，但这里有一些一般性指导。所有这些机器学习问题，从分类到回归，都依赖于相同的核心假设，即您试图根据一堆输入来预测某些结果。通常这种关系是这样建模的：y ~ X1 + X2 + X3 ...，其中y 是您的结果（“依赖”）变量，X1、X2 等是特征（“解释性”变量）。更简单地说，我们可以说使用我们的整个特征集矩阵X（即包含我们所有的 x 变量的矩阵），我们可以使用各种 ML 技术预测一些结果变量y。

因此，在您的情况下，您将尝试根据time 预测它是Cold、Comfortable 还是Hot。这实际上更像是一个预测问题而不是 ML 问题，因为您有一个时间组件，它看起来是数据集中最重要的（如果不是唯一的）特征之一。您可能想看看一些更简单的时间序列预测方法（例如 ARIMA）而不是 ML 算法，因为某些时间序列 ML 方法可能不适合初学者。

无论如何，我认为这应该可以帮助您入门。

【讨论】：

感谢您的快速回复。 ARIMA 不是用于预测未来值而不是分类吗？就我而言，时间并不重要。我只关心知道给定的震级是属于热的、冷的还是舒适的实验。
所以你可以 a) 使用 ARIMA 来预测给定时间 t 的值，然后应用构成某事物的任何规则 Hot、Cold 或 Comfortable（例如更大大于 80 是“热”）到该预测值，或者 b）将其视为分类问题并仅使用 time 作为您的特征。您的数据中可能存在某些时间序列成分（例如季节性），如果您采用 ML 路线，可能需要进行更多检查...
很遗憾，这行不通，因为我需要使用分类模型来预测其他实验，其输出值取决于所使用的受试者（在我的情况下为小鼠）。
这完全是一个不同的问题。如果您想完全忘记预测，请继续。从机器学习的角度来看，我是否明确说明了如何从一般意义上解决这个问题？你有一些类（Hot、Cold 和 Comfortable）和一个特性（time）。使用time 预测给定时间的“类别”。您可以为此使用各种分类器。我也建议查看 scikit-learn 的 docs。
再次感谢。我需要对机器学习和统计学有深入的了解才能让它发挥作用。恐怕没有捷径！