【问题标题】：Cloud labels affecting % testing accuracy?云标签会影响测试准确率吗？
【发布时间】：2018-07-18 01:52:25
【问题描述】：

我有 96 个特征，标签用 1 和 -1 表示，用于输入深度学习模型。

1- 主成分分析

这里的 3 轴代表 3 个第一主成分。蓝云代表标签 1，红云代表标签 -1。

即使我们可以从视觉上识别出两朵不同的云，它们也是粘在一起的。我认为我们可能会因此在训练阶段遇到问题。

2-t-SNE

对于具有 t-SNE 的相同特征和标签，我们仍然可以区分两朵云，但它们又粘在一起了。

1- 两个点云粘在一起的事实是否会影响训练和测试阶段的准确率百分比？

2- 当我们去除红色和蓝色时，不知何故我们只有一朵大云。有没有办法解决两个云“粘在一起”的问题？

【问题讨论】：

【解决方案1】：

所谓的粘在一起是指在这个空间中，您的数据不是线性可分的。它似乎也不是非线性可分的。我希望使用这些组件，您肯定会得到较差的准确性。

解决问题的方法是更多或不同的数据。你有一些选择。

1) 包括更多的主成分怎么样？也许，4、5、10 个组件可以解决您的问题。根据您的数据集，这可能不起作用，但这是首先尝试的最明显的事情。

2) 您可以尝试其他矩阵分解技术。 PCA 不是唯一的。有 NMF、内核 PCA、LSA 等等。哪一个最适合您将基本上取决于您的数据分布。

3) 使用任何其他类型的特征选择。坦率地说，一开始，96 并不多。你打算做深度学习吗？您通常不会将所有 96 个特征都放入深度学习模型中吗？如果需要，除了矩阵分解之外，还有许多其他方法可以进行特征选择。

祝你好运。

【讨论】：

如何在使用 4、5 或 10 个主成分的情况下仍然具有视觉效果？
你走在了前面。在您担心视觉效果之前，您需要一个好的模型。还有更高级的可视化技术。但即使只有基础知识，也许你可以想象第二、第四和第五个组件？也许这种组合看起来不错。仅仅因为您只能简单地看到 3 个组件，并不意味着它们必须是前三个组件。