GDA（高斯判别分析）的对数似然函数答案

【问题标题】：Log likelihood function for GDA(Gaussian Discriminative analysis)GDA（高斯判别分析）的对数似然函数
【发布时间】：2015-12-02 04:09:03
【问题描述】：

我无法理解 Andrew Ng 的 CS229 笔记中给出的 GDA 似然函数。

l(φ,µ0,µ1,Σ) = log (i 到 m 的乘积) {p(x(i)|y(i);µ0,µ1,Σ)p(y(i);φ) }

对于线性回归，函数是从 i 到 m p(y(i)|x(i);theta) 的乘积这对我来说很有意义。为什么这里有一个变化，说它由 p(x(i)|y(i) 给出，然后乘以 p(y(i);phi)？提前致谢

【问题讨论】：

【解决方案1】：

第5页的起始公式是

l(φ,µ0,µ1,Σ) = log <product from i to m> p(x_i, y_i;µ0,µ1,Σ,φ)

暂时省略参数φ,µ0,µ1,Σ，可以简化为

l = log <product> p(x_i, y_i)

使用链式规则，您可以将其转换为任一

l = log <product> p(x_i|y_i)p(y_i)

或

l = log <product> p(y_i|x_i)p(x_i).

在第 5 页公式中，φ 被移动到 p(y_i)，因为只有 p(y) 依赖于它。

可能性从联合概率分布p(x,y)而不是条件概率分布p(y|x)开始，这就是为什么GDA被称为生成模型（从x到y和从y到x的模型），而逻辑回归是被认为是一种判别模型（从 x 到 y 的模型，单向）。两者都有其优点和缺点。下面似乎还有一章。

【讨论】：

嗨..给定带有x（向量可能）和y值（0或1）的训练集..p（x_i，y_i）是什么，即联合概率密度函数表示......即它的含义。在判别模型中，我理解为了最大化 theta 的可能性..我们将产品从 i 最大化到 mp(y_i,x_i)..在这种情况下，可能性是参数 mu、phi 和 sigma。什么联合pdf在这里注明..
joint probability distribution 对两个（或更多）随机变量的联合分布进行建模。例如。如果你知道 P(X,Y) 你可以估计 p(X=1, Y=0), p(X=15, Y=1), p(X=, Y=1) = p( Y=1), p(X=1, Y=), ... 而在条件分布 P(Y|X) 中，您对 X 的分布一无所知。就像有人在处理你随机的 X 值，你所能做的就是告诉它们的 Y 值，即你不能从 y 到 x 的“倒退”。