機器學習(5)–邏輯斯迴歸,過度適合與正規化( Logistic regression,overfitting and regularization)
-
高度適合(overfitting)
是機器學習常見的一種現象,意旨一個模型在對"訓練數據集"時有很好的效能,但是面對"未知的數據集"或是"測試數據集"時,卻效能不佳。
如果該模型有高度適合(overfitting)現象,也代表著有高變異性(high variance)其產生的原因可能是使用"過多的特徵",而相反的低度適合(underfitting)則代表有著高偏誤(high bias),其模型在訓練樣本時無法訓練出適合的模式,而在面對"未知的數據"時,通常也不會有好的效能。 -
變異數(variance)
可以測量該模型對特定樣本,預測能力的一致性或是變異性,也就是說該模型對訓練數據的隨機性,是否反應良好。 -
偏誤(bias)
一般而言是測量預測正確值的偏離,在於描述不是由隨機性所產生的系統誤差