关于一些数据挖掘算法的问题答案

【问题标题】：Questions on some data-mining algorithms关于一些数据挖掘算法的问题
【发布时间】：2011-05-04 08:03:35
【问题描述】：

最近我研究了k-最近邻和决策树，我很好奇两者之间的区别，即对于分离目标函数“如果x2>x1返回1，否则返回0”的任务，然后选择最近的邻居在这里会很好，因为决策树会涉及太多的分裂。所以我只是在考虑在什么样的情况下，选择决策树比k最近邻更合适？

另一个问题只是与 K-最近邻有关，我知道当 K=1 时，它只是一个基线分类（将实例分类为其最近邻类）。谁能给我一个想法在什么样的分类任务中，3-最近邻分类器肯定会优于1-最近邻分类器？

提前致谢！

【问题讨论】：

标签： artificial-intelligence machine-learning data-mining

【解决方案1】：

k-NN 与决策树

我总是发现图片是获得算法直觉的最佳方式。你建议的目标函数会产生一个有点像这样的数据集：

其中分离数据的函数是x1 - x2 = 0。问题是通常决策树在节点处只有一个变量的函数，因此节点处的决策函数是轴对齐的。我想象在这个数据集上学习的决策树会做这样的事情：

希望您明白这一点，显然您可以通过在决策树中使用足够多的节点来逼近最佳决策边界，但这意味着您存在过度拟合数据的风险。

实际上，我说过决策树通常在节点上使用单变量函数，但还有另一种方法，在 StackOverflow 关于multivariate decision trees 的问题中有描述（我没有回答）。

顺便说一句，这种数据的最佳分类器是线性分类器，可能是逻辑回归，它会找到最佳决策边界

k在k-NN中的作用

对于 k 近邻中的 k，我能给出的最佳描述是 k 的高值平滑了决策边界。也并非较高的 k 总是比较低的更好。

要考虑 k-NN，我们需要更多复杂的数据集。对于 k=1，k-NN 模型可能会做出类似这样的决策：

如果我们增加 k 的值，决策将受到更大邻域点的影响，因此决策边界会变得更平滑。特别是那些红色和蓝色的小岛会被周围的数据点淹没：

使用高 k 是否更好取决于数据集上的噪声水平。那些小岛真的很重要，我们学习的模型太简单，不能很好地拟合数据，还是它们只是噪音，我们是否避免过拟合？

实用视角

不幸的是，鉴于一些大型、复杂的真实数据集，您可能没有很好的基础来决定哪种算法效果最好（除非您借鉴以前对相同或相似数据所做的工作）。大多数人所做的是将数据仔细地分割成训练、参数调整和测试集，然后运行他们能想到的尽可能多的算法。您可能还会发现您的特定情况决定了算法必须具有的一些属性（快速、增量、概率等）

【讨论】：

【解决方案2】：

这是第二个问题的答案。

（我认为绝对优于你的意思是总是优于。）

我不确定这是否可能——因为，给定一个数据集和一个 kNN 算法，对于每个使用 k=3（与 k=1）预测更好的实例，很容易将结果翻转为更改模型的配置方式或更改数据描述（特别是解决方案空间中的数据密度）。

这是一个简单的例子，尽管 kNN 可能是最简单的机器学习算法，但除了计算距离矩阵然后计算最小距离之外，还有一些关键的配置细节。这些配置参数之一是 weighting——即每个相邻点对加权预测值的贡献。一些常见的加权函数是高斯函数和逆函数。例如，一个常见的加权函数是“减法函数”，对于每个邻居，只要距离大于常数，它就会从常数中减去距离。虽然此函数很好地避免了对非常接近未知点（您试图预测其值的点）的数据点进行过度加权，但当点与未知点的距离接近所选常数的值时，该点的权重接近于零。换句话说，使用 k=3 的预测可能比使用此函数的 k=1 好得多，但如果三个相邻点中的两个距离足够远以至于它们的权重接近于零，它们也可能非常接近相同。

或者它可能是数据。假设由于我刚才提到的原因，来自 k=3 模型的预测给出了与 k=1 相同的预测。现在假设数据集被扩大，因此数据密度更大，这反过来意味着三个相邻点比以前更有可能对预测值的贡献大致相等。

当然，这同样适用于 kNN 算法中的其他主要配置参数——例如，距离度量、维度缩放、概率分布等。

顺便说一句，问得好。

【讨论】：