【问题标题】:Setting up multiclass decision forest/neural network on smaller dataset在较小的数据集上建立多类决策森林/神经网络
【发布时间】:2016-08-28 00:45:09
【问题描述】:

所以我有一组数据,1900 行和 22 列。 21 列只是数字,但我想要训练数据的关键有 3 个阶段:a、b 和 c。

我已经尝试过决策树/丛林和神经网络,无论我如何设置它们,我都无法获得超过 55% 的精度。

通常它的准确率约为 50%,而我所能获得的最好结果是总体准确率 55% 和平均 70% 左右。

我什至应该在这么小的数据集上使用 NN 吗?正如我所说,我尝试了其他 ML 算法,但它们并没有产生更好的结果。

【问题讨论】:

  • 1900 行 22 列对于 NN 模型来说并不是一个很好的数据集...但是您是否首先尝试过像 PCA 这样的降维技术?您可以这样做也许将您的列减少到 4 或 5...在这种情况下,您可能会找到一个好的模型...

标签: machine-learning neural-network azure-machine-learning-studio


【解决方案1】:

我认为您的问题没有明确的答案。低准确度分数可能来自几个原因。我将在以下几点中说明其中一些:

  1. 当您使用决策树/神经网络时 - 低准确度可能是元参数设置错误的结果(例如树的最大高度或 DT 中的树数或错误的拓扑或 NN 情况下的数据准备)。我建议您对 NN 和 DT 使用网格或随机搜索来为您的算法寻找最佳元参数(在“静态”(非顺序数据)包的情况下,例如 R 中的 h20 或 Python 中的 Scikit-learn可能会做得很好)并且在神经网络的情况下 - 正确规范您的数据(例如,每x 数据列减去均值并除以标准差)。
  2. 您的数据集可能不一致。如果例如您的数据不具有xy 之间存在函数依赖关系的属性(这意味着y = f(x) 对于某些f)那么在训练期间学到的是给定x 的概率 -您的示例属于某个指定的类。这种不一致可能会严重损害您的准确性。在这种情况下,我建议您尝试指定是否发生这种现象,然后例如尝试对数据进行细分以解决问题。
  3. 您的数据集可能太小了。在这种情况下尝试获取更多数据。

【讨论】:

  • 我已经尝试了您和 Gaurav 的建议,但没有成功。我只是一直卡在 60% 左右(我现在有更大的数据集和更少的列)。有人可以看看这里的数据吗www97.zippyshare.com/v/LqqORkx5/file.html 如果有可能达到 80%,那将是一件好事。
猜你喜欢
  • 2018-09-20
  • 2017-03-15
  • 2019-11-18
  • 2020-04-04
  • 2012-05-15
  • 2013-01-04
  • 2012-04-06
  • 1970-01-01
  • 2018-01-05
相关资源
最近更新 更多