线性判别分析与朴素贝叶斯答案

【问题标题】：Linear Discriminant Analysis vs Naive Bayes线性判别分析与朴素贝叶斯
【发布时间】：2018-03-05 21:53:43
【问题描述】：

LDA 与朴素贝叶斯在机器学习分类的术语？

我知道一些区别，比如朴素贝叶斯假设变量是独立的，而 LDA 假设高斯类条件密度模型，但是我不明白什么时候使用 LDA，什么时候使用 NB 取决于情况？

【问题讨论】：

【解决方案1】：

这两种方法都非常简单，所以很难说哪一种会更好。尝试两者并计算测试准确性通常更快。但这里的特征列表通常表明某些方法不太可能产生良好的结果。这一切都归结为数据。

朴素贝叶斯

朴素贝叶斯分类器的第一个缺点是特征独立假设。在实践中，数据是多维的，并且不同的特征确实相关。因此，结果可能非常糟糕，尽管并不总是很重要。如果您确定特征是依赖的（例如图像的像素），不要指望朴素贝叶斯会炫耀。

另一个问题是数据稀缺。对于特征的任何可能值，通过频率论方法估计可能性。这可能导致概率接近 0 或 1，进而导致数值不稳定和更糟糕的结果。

连续特征会出现第三个问题。朴素贝叶斯分类器仅适用于分类变量，因此必须将连续特征转换为离散特征，从而丢弃大量信息。如果数据中存在连续变量，则这是反对朴素贝叶斯的强烈迹象。

如果类不平衡，即各个类中的对象数量差异很大，则 LDA 无法正常工作。解决方案是获取更多数据，这可能非常容易或几乎不可能，具体取决于任务。

LDA 的另一个缺点是它不适用于非线性问题，例如甜甜圈形状点云的分离，但在高维空间中很难立即发现它。通常你在看到 LDA 不工作后就会明白这一点，但如果已知数据是非常非线性的，这就是反对 LDA 的强烈迹象。

此外，LDA 可能对过度拟合很敏感，需要仔细验证/测试。

【讨论】：