我应该使用什么机器学习算法？ [关闭]答案

【问题标题】：What machine learning algorithm should I use? [closed]我应该使用什么机器学习算法？ [关闭]
【发布时间】：2014-04-09 14:51:30
【问题描述】：

我正在尝试编写一个算法来估计我所知道的系统的物体质量。

我的数据是 x 和 y 点的形式，所以我可以将它们表示为多个 x 和 y 点，或者通过表示 x 和 y 点的平均值和偏差来表示为分布。这可能取决于算法的参数。

我不需要分类器，我正在寻找数值估计。

例如，x 值：{1,2,3,...}，y 值：{1,2,3,...} -> 质量：5，或 x 值：{2 (mean), 1 (std)} y: {2,1} -> 5

我对机器学习很陌生，分类器似乎不是解决这个问题的方法，而且我查找的回归学习算法似乎试图估计参数，而不是结果。

我也打算用 Python 做这个，但我不需要包什么的，通用算法应该能让我走上正轨。

编辑以响应 blubb

我的数据以一组 x 点、一组 y 点和一个质量的形式给出。例如，

x values   |   y values   | mass
--------------------------------
1 2 3 4    |   1 2 3 4    | 6.7
2 3 4 5    |   2 3 4 5    | 7.9

我会收到一个输入，例如：

x values   |   y values
-----------------------
5 6 7      |   8 9 10

另一种讨厌它的方式（可能在向量空间方面很聪明）是用它们的手段和标准来表示这些值，所以我的训练数据会变成：

x mean | x std | y mean | y std | mass
--------------------------------------
2.5    | 1     | 2.5    | 1     | 6.7
3.5    | 1     | 3.5    | 1     | 7.9

这些显然不是真正的价值，而是具有代表性的例子。（所有值都是浮点数）

【问题讨论】：

“质量”是什么意思？您要么需要某种从数据中计算的方法（其中可能不是机器学习），要么需要一些为给定输入提供质量的训练数据。
这并不重要，不是吗？这只是我试图让算法预测的一些数字。我的数据是 xvalues、yvalues -> 质量数。我假设 x 和 y 点/散布对质量有影响。它不是算法（如密度*体积 = 质量），它是预测性的，我确实有它的训练数据。
好吧，但是很难给出“我如何估计某事”的通用算法。通常在机器学习上下文中，您将拥有一组单独的“案例”，其中一个单独的“案例”包含各种输入变量和一个或多个输出变量。鉴于此，使用 mean 和 stdev 的第二种形式似乎更合理，因为它将一组标量值与一个标量值相关联。你看过scikit-learn吗？它有各种算法。其中哪一个是“最好的”，通常只需尝试几个，看看哪个性能最好。
这个问题似乎跑题了，可能更适合stats.SE。
@Xyxyl：您的描述过于宽泛，无法合理回答问题。但是，我试图对回归方法进行一般描述。希望这有助于您了解需要什么样的描述。

标签： algorithm machine-learning artificial-intelligence regression

【解决方案1】：

您正在寻找估计函数f: R² -> R，因此回归是您应该研究的方法系列。然而，哪种回归很大程度上取决于(x, y) 和mass 之间的关系。

一般来说，回归方法定义了一个成本函数c: R² x F -> R+ 和一组可供选择的函数F。通常集合F 是无限的并且以某种形式参数化。这使得大多数回归方法都存在估计确定最佳f 的参数的问题（您称之为“估计参数”）。

为了确定哪种回归方法最合适，您必须找出以下几点：

什么是有意义的成本函数c？
如何选择F的函数集？

例如，线性回归选择线性最小二乘成本函数并将定义F 设置为所有线性函数f: R² x R 的集合。这可能是也可能不是您想要的，具体取决于您的设置。

因此，解释可以确定三元组(x, y, mass) 的实验设置可能有助于阐明这一点。

【讨论】：

是的，听起来不错。我可以提供哪些帮助？
@Xyxyl：我修改了我的答案，请相应地编辑您的问题。
@mvw 描述是完全通用的，包含“机器学习”回归方法。当然，您应该始终从一个非常简单的模型开始（例如线性回归）。
@ziggystar 我再次阅读了这个问题并再次得出结论，如果他对他的数据不提供更多洞察力，他就不应该得到更多的信息。跨度>