【问题标题】:Machine Learning: How to handle discrete and continuous data together机器学习:如何同时处理离散和连续数据
【发布时间】:2017-10-30 05:43:33
【问题描述】:

我发帖询问是否有任何方法或想法来处理分类问题中的离散和连续数据。

在我的情况下,我有一堆具有离散数据的独立“批次”。这是与流程相关的数据,因此对于每个批次,都有单独的点。我也有一个数据集,它随着时间的变化而变化。然而,这一次,每批都有很多时间观察。数据集如下所示:

Data Set 1

Batch 1      DiscreteInfo(1)      DiscreteInfo(2) ....... DiscreteInfo(n)
Batch 2      DiscreteInfo(1)      DiscreteInfo(2) ....... DiscreteInfo(n)
Batch 3      DiscreteInfo(1)      DiscreteInfo(2) ....... DiscreteInfo(n)
Batch 4      DiscreteInfo(1)      DiscreteInfo(2) ....... DiscreteInfo(n)

Data Set 2

Batch 1      t(1)      TimeData
Batch 1      t(2)      TimeData 
Batch 1      t(3)      TimeData
Batch 1      t(4)      TimeData
.
.
.
.
Batch n     (t1)      TimeData
Batch n     (t2)      TimeData
Batch n     (t3)      TimeData

我正在尝试对所有这些数据是否属于“好”批次、“差”批次或“一般”批次进行分类。这是由一个特定的离散参数决定的(未在数据集中使用)。

我对机器学习很陌生;任何意见或想法将不胜感激。我正在使用 matlab 分类学习器来尝试解决这个问题。

【问题讨论】:

    标签: matlab machine-learning classification


    【解决方案1】:

    在处理分类问题时,您需要考虑一些事项。

    1. 训练数据。我们需要用于分类的训练数据,即我们需要所有上述属性的值以及类值,无论是“好”、“坏”还是“一般”。
    2. 使用它我们可以训练一个模型,然后为所有训练的属性提供一个新数据,我们可以预测它属于哪个类。

    就离散和连续而言,我们处理离散和连续数据的方式没有区别。事实上,对于这种情况,我们可以生成一个新属性,该属性将是给定批次的所有其他时间变量的函数,然后执行分类。如果您提供数据集的实例,则可以更准确地回答问题。

    【讨论】:

    • 数据的结构类似于我的问题。我真的不能给出一个示例数据集,因为我认为我不允许分享这些信息。本质上,我们有两个数据表。一个是包含类值和各种其他离散信息的离散表(通常是在过程中编写的东西,每批只有一次)。在另一个数据表中,我们拥有属于每个批次的所有随时间变化的数据(每批次大约 1300 行信息;例如时间 t 的温度。
    • 如果您认为温度数据是帮助分类的重要信息,那么您必须为每个批次设计一个新列,该列将是所有这 1300 行信息的派生列。例如均值、方差、偏度、峰度等。现在使用这些变量,数据在一个表中,现在您可以使用任何标准的机器学习算法。希望这会有所帮助
    猜你喜欢
    • 2020-11-21
    • 2018-08-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-02-17
    • 2017-06-23
    • 2020-06-15
    • 2018-06-10
    相关资源
    最近更新 更多