处理机器学习中的依赖特征答案

【问题标题】：Handling Dependent features in machine learning处理机器学习中的依赖特征
【发布时间】：2017-12-22 12:16:30
【问题描述】：

我有一个类似的数据集

 Project | Area       | Feature 1 | Feature 2 |
---------+------------+-----------+-----------+...
 A       | Production |     X     |     X     |
 A       | Testing    |     Y     |     Y     |
 B       | Testing    |     Z     |     Z     |
 C       | QA         |     W     |     W     |

这里的“区域”依赖于项目（即区域和项目的组合构成了区域的标识）并且它们具有多对多的关系。我使用 Keras 使用深度神经网络预测 Area。我应该如何预处理这些数据？

项目是一个非常重要的功能。

还有什么公式可以估算 X 个特征所需的训练数据数量吗？

【问题讨论】：

标签： tensorflow machine-learning neural-network keras

【解决方案1】：

拥有相关功能本身并不是问题。当您在训练和进行预测时没有相同的输入特征时，问题通常会出现。

还要确保这种关系是有意义的。在某些情况下，它可能会导致更准确的结果，您可能会以错误的方式解释或模型记忆结果。在不了解更多问题的情况下，很难在这里给出体面的建议。

至于示例的数量，它实际上取决于问题的复杂性。即使对于单个输入，如果您要学习的是一个常量函数，一个例子就足够了，但是如果您要学习一个哈希函数，您将需要更多，即使那样它也可能无法工作或产生错误。我的建议是用你拥有的东西来训练它，检查损失的进展情况并从那里推断出来。

【讨论】：

如果我解释更多关于数据集的信息，所有功能都依赖于“项目”。在不考虑关系的情况下，在特征的热编码（它们都是分类的）上，我被困在 40% 的验证准确度上，而得到 85% 的模型准确度。肯定是过拟合了，所以我正在尝试使用关系来提高准确性。
@user2578525 尝试更小的模型或更强大的正则化。我认为添加关系会使模型更加过度拟合。还要确保您选择验证示例的方式实际上是随机的。