[数据挖掘]熵和分类算法

\[Entropy(S)=Entropy(p_1,...p_n)=-\sum_{i=1}^{n}p_ilog_2(p_i) \]

熵越小,越纯,熵为0的时候,所有样本的目标属性取值相同

熵越大,越混乱,最大为\(log2(m)\),\(m\)是取值种类.

信息增益是划分样本数据集的不纯程度和花粉后样本数据集的不纯程度的差值.

\[Gain(S,A)=Entropy(S)-Entropy_A(S)\\ Entropy_A(S)=\sum_{i=1}^{k}\frac{S_i}{S}Entropy(S_i) \]

信息增益越大,说明使用属性A划分后的样本子集越纯,越有利于分类.

不断选择信息增益最大的属性A来划分子集,直到子集中的样本属于同一个类别

得到一个未知样本\(X\)时,对于每个类别\(m\),计算

\[P(X|C_j)=\prod_{i=1}^{n}P(x_i|C_j)\\ P(C_j)\\ \mu=P(X|C_j)P(C_j) \]

找到一个类别使得\(\mu\)最大,\(X\)属于该类别.

对于每个测试样本\(X\),计算他与每个训练样本的距离,距离样本\(X\)最近的几个训练样本占多数的类别就是\(X\)所属的类别