【问题标题】:Handling Dependent features in machine learning处理机器学习中的依赖特征
【发布时间】:2017-12-22 12:16:30
【问题描述】:

我有一个类似的数据集

 Project | Area       | Feature 1 | Feature 2 |
---------+------------+-----------+-----------+...
 A       | Production |     X     |     X     |
 A       | Testing    |     Y     |     Y     |
 B       | Testing    |     Z     |     Z     |
 C       | QA         |     W     |     W     |

这里的“区域”依赖于项目(即区域和项目的组合构成了区域的标识)并且它们具有多对多的关系。我使用 Keras 使用深度神经网络预测 Area。我应该如何预处理这些数据?

项目是一个非常重要的功能。

还有什么公式可以估算 X 个特征所需的训练数据数量吗?

【问题讨论】:

    标签: tensorflow machine-learning neural-network keras


    【解决方案1】:

    拥有相关功能本身并不是问题。当您在训练和进行预测时没有相同的输入特征时,问题通常会出现。

    还要确保这种关系是有意义的。在某些情况下,它可能会导致更准确的结果,您可能会以错误的方式解释或模型记忆结果。在不了解更多问题的情况下,很难在这里给出体面的建议。

    至于示例的数量,它实际上取决于问题的复杂性。即使对于单个输入,如果您要学习的是一个常量函数,一个例子就足够了,但是如果您要学习一个哈希函数,您将需要更多,即使那样它也可能无法工作或产生错误。我的建议是用你拥有的东西来训练它,检查损失的进展情况并从那里推断出来。

    【讨论】:

    • 如果我解释更多关于数据集的信息,所有功能都依赖于“项目”。在不考虑关系的情况下,在特征的热编码(它们都是分类的)上,我被困在 40% 的验证准确度上,而得到 85% 的模型准确度。肯定是过拟合了,所以我正在尝试使用关系来提高准确性。
    • @user2578525 尝试更小的模型或更强大的正则化。我认为添加关系会使模型更加过度拟合。还要确保您选择验证示例的方式实际上是随机的。
    猜你喜欢
    • 2013-06-23
    • 2016-03-07
    • 2019-07-14
    • 1970-01-01
    • 2019-09-29
    • 2018-09-23
    • 2012-03-28
    • 2016-03-09
    • 1970-01-01
    相关资源
    最近更新 更多