【问题标题】:Linear Discriminant Analysis vs Naive Bayes线性判别分析与朴素贝叶斯
【发布时间】:2018-03-05 21:53:43
【问题描述】:

LDA 与朴素贝叶斯在 机器学习分类的术语?

我知道一些区别,比如朴素贝叶斯假设变量是独立的,而 LDA 假设高斯类条件密度模型,但是我不明白什么时候使用 LDA,什么时候使用 NB 取决于情况?

【问题讨论】:

    标签: machine-learning classification naivebayes linear-discriminant machine-learning-model


    【解决方案1】:

    这两种方法都非常简单,所以很难说哪一种会更好。尝试两者并计算测试准确性通常更快。但这里的特征列表通常表明某些方法不太可能产生良好的结果。这一切都归结为数据。

    朴素贝叶斯

    朴素贝叶斯分类器的第一个缺点是特征独立假设。在实践中,数据是多维的,并且不同的特征确实相关。因此,结果可能非常糟糕,尽管并不总是很重要。如果您确定特征是依赖的(例如图像的像素),不要指望朴素贝叶斯会炫耀。

    另一个问题是数据稀缺。对于特征的任何可能值,通过频率论方法估计可能性。这可能导致概率接近 0 或 1,进而导致数值不稳定和更糟糕的结果。

    连续特征会出现第三个问题。朴素贝叶斯分类器仅适用于分类变量,因此必须将连续特征转换为离散特征,从而丢弃大量信息。如果数据中存在连续变量,则这是反对朴素贝叶斯的强烈迹象。

    线性判别分析

    如果类不平衡,即各个类中的对象数量差异很大,则 LDA 无法正常工作。解决方案是获取更多数据,这可能非常容易或几乎不可能,具体取决于任务。

    LDA 的另一个缺点是它不适用于非线性问题,例如甜甜圈形状点云的分离,但在高维空间中很难立即发现它。通常你在看到 LDA 不工作后就会明白这一点,但如果已知数据是非常非线性的,这就是反对 LDA 的强烈迹象。

    此外,LDA 可能对过度拟合很敏感,需要仔细验证/测试。

    【讨论】:

    • 可以使用类似于 LDA 的高斯朴素贝叶斯,但假设高斯变量是独立的
    猜你喜欢
    • 2015-12-18
    • 2020-02-28
    • 2012-11-06
    • 2018-02-06
    • 2015-08-27
    • 2012-01-30
    • 2019-04-01
    • 2012-07-02
    • 2017-01-10
    相关资源
    最近更新 更多