【问题标题】:Machine learning classification dataset setup机器学习分类数据集设置
【发布时间】:2017-05-16 16:29:25
【问题描述】:

如果这个问题违反了 SO 的问题指南,我很抱歉,但我被困住了,我找不到其他地方可以问这类问题。假设我有一个数据集,其中包含在三种不同条件(热、冷、舒适)下获得的三个实验数据。数据在由 4 列 (time, cold, comfortable and hot) 组成的 pandas dataframe 中以三列排列。 当我绘制数据时,我可以直观地看到三个实验的分离,但我想用机器学习自动完成。 x 轴代表time,y 轴代表数据的magnitude。我已经阅读了不同的机器学习 classification techniques 但我不明白如何设置我的数据以便我可以将其“输入”到 classification 算法中。也就是说,我的问题是:

  1. 这在编程上可行吗?
  2. 如何设置(排列我的数据)以便可以轻松地将其输入到分类算法中? From what I read so far,看来,要使算法起作用,数据必须按特定顺序排列(例如,参见iris dataset,其中数据被很好地标记。如何自定义算法以满足我的需求? 注意:理想情况下,我希望程序在给定幅度值的情况下将其分类hot, comfortable or cold。在我的情况下,时间序列并没有太大的相关性

【问题讨论】:

  • 您尝试使用分类来实现什么?如果是你的数据,你有其他数据作为测试集要分类吗?
  • 为什么排序数据不够?好像你在这里遇到了一些 XY 问题meta.stackexchange.com/questions/66377/what-is-the-xy-problem
  • 是的,可行,为什么不呢?您不需要任何预处理来使用您的数据,但行之间没有冲突,您可以使用一个简单的阈值来确定新数据
  • 而且,一般来说,这类问题更适合Cross Validated
  • ML用于非常复杂的数据,可以用ML,但是不值得,怎么可以MLP(多层感知器),但是需要很多前提。

标签: python scikit-learn


【解决方案1】:

当然这是可行的。

从原始帖子中并不完全清楚您的模型可以使用哪些变量/功能,但这里有一些一般性指导。所有这些机器学习问题,从分类到回归,都依赖于相同的核心假设,即您试图根据一堆输入来预测某些结果。通常这种关系是这样建模的:y ~ X1 + X2 + X3 ...,其中y 是您的结果(“依赖”)变量,X1X2 等是特征(“解释性”变量)。更简单地说,我们可以说使用我们的整个特征集矩阵X(即包含我们所有的 x 变量的矩阵),我们可以使用各种 ML 技术预测一些结果变量y

因此,在您的情况下,您将尝试根据time 预测它是ColdComfortable 还是Hot。这实际上更像是一个预测问题而不是 ML 问题,因为您有一个时间组件,它看起来是数据集中最重要的(如果不是唯一的)特征之一。您可能想看看一些更简单的时间序列预测方法(例如 ARIMA)而不是 ML 算法,因为某些时间序列 ML 方法可能不适合初学者。

无论如何,我认为这应该可以帮助您入门。

【讨论】:

  • 感谢您的快速回复。 ARIMA 不是用于预测未来值而不是分类吗?就我而言,时间并不重要。我只关心知道给定的震级是属于热的、冷的还是舒适的实验。
  • 所以你可以 a) 使用 ARIMA 来预测给定时间 t 的值,然后应用构成某事物的任何规则 HotColdComfortable(例如更大大于 80 是“热”)到该预测值,或者 b)将其视为分类问题并仅使用 time 作为您的特征。您的数据中可能存在某些时间序列成分(例如季节性),如果您采用 ML 路线,可能需要进行更多检查...
  • 很遗憾,这行不通,因为我需要使用分类模型来预测其他实验,其输出值取决于所使用的受试者(在我的情况下为小鼠)。
  • 这完全是一个不同的问题。如果您想完全忘记预测,请继续。从机器学习的角度来看,我是否明确说明了如何从一般意义上解决这个问题?你有一些类(HotColdComfortable)和一个特性(time)。使用time 预测给定时间的“类别”。您可以为此使用各种分类器。我也建议查看 scikit-learn 的 docs
  • 再次感谢。我需要对机器学习和统计学有深入的了解才能让它发挥作用。恐怕没有捷径!
猜你喜欢
  • 1970-01-01
  • 2020-05-04
  • 2019-03-06
  • 2018-03-09
  • 2023-04-04
  • 2021-04-14
  • 1970-01-01
  • 2017-03-26
  • 2020-07-23
相关资源
最近更新 更多