【发布时间】:2018-05-05 16:39:30
【问题描述】:
在逻辑回归中:
假设函数,
h(x) = ( 1 + exp{-wx} )^-1
where, w - 要拟合或优化的权重/参数
成本函数(-ve 对数似然函数)如下:
对于单次训练,例如 (x,y):
l(w) = y * log ( h(x) ) + (1 - y) * log ( 1 - h(x) )
目标是在所有训练示例中最大化 l(w),从而估计 w。
问题:
考虑正面 (y=1) 训练示例多于负面 (y=0) 训练示例的情况。
为简单起见:
如果我们只考虑正面 (y=1) 示例: 算法运行:
maximize ( l(w) )
=> maximize ( y * log ( h(x) ) )
=> maximize ( log( h(x) ) )
=> maximize ( h(x) ); since log(z) increases with z
=> maximize ( ( 1 + exp{-wx} )^-1 )
=> maximize ( wx );
since a larger wx will increase h(x) and move it closer to 1
也就是说,优化算法会尝试增加(wx),以便更好地拟合数据并增加似然度。
但是,算法似乎有可能以一种意想不到的方式增加(wx)但无论如何都不能改善解决方案(决策边界):
by scaling w: w' = k*w ( where k is positive constant )
我们可以在不改变解决方案的情况下增加 (k*wx)。
1) 为什么这不是问题?还是这是个问题?
2) 有人可能会争辩说,在一个正面示例多于负面示例的数据集中,该算法将尝试不断增加 ||w||。
【问题讨论】:
标签: machine-learning classification logistic-regression supervised-learning log-likelihood