【问题标题】:What machine learning algorithm should I use? [closed]我应该使用什么机器学习算法? [关闭]
【发布时间】:2014-04-09 14:51:30
【问题描述】:

我正在尝试编写一个算法来估计我所知道的系统的物体质量。

我的数据是 x 和 y 点的形式,所以我可以将它们表示为多个 x 和 y 点,或者通过表示 x 和 y 点的平均值和偏差来表示为分布。这可能取决于算法的参数。

我不需要分类器,我正在寻找数值估计。

例如,x 值:{1,2,3,...},y 值:{1,2,3,...} -> 质量:5, 或 x 值:{2 (mean), 1 (std)} y: {2,1} -> 5

我对机器学习很陌生,分类器似乎不是解决这个问题的方法,而且我查找的回归学习算法似乎试图估计参数,而不是结果。

我也打算用 Python 做这个,但我不需要包什么的,通用算法应该能让我走上正轨。

编辑以响应 blubb

我的数据以一组 x 点、一组 y 点和一个质量的形式给出。 例如,

x values   |   y values   | mass
--------------------------------
1 2 3 4    |   1 2 3 4    | 6.7
2 3 4 5    |   2 3 4 5    | 7.9

我会收到一个输入,例如:

x values   |   y values
-----------------------
5 6 7      |   8 9 10

另一种讨厌它的方式(可能在向量空间方面很聪明)是用它们的手段和标准来表示这些值,所以我的训练数据会变成:

x mean | x std | y mean | y std | mass
--------------------------------------
2.5    | 1     | 2.5    | 1     | 6.7
3.5    | 1     | 3.5    | 1     | 7.9

这些显然不是真正的价值,而是具有代表性的例子。 (所有值都是浮点数)

【问题讨论】:

  • “质量”是什么意思?您要么需要某种从数据中计算的方法(其中可能不是机器学习),要么需要一些为给定输入提供质量的训练数据。
  • 这并不重要,不是吗?这只是我试图让算法预测的一些数字。我的数据是 xvalues、yvalues -> 质量数。我假设 x 和 y 点/散布对质量有影响。它不是算法(如密度*体积 = 质量),它是预测性的,我确实有它的训练数据。
  • 好吧,但是很难给出“我如何估计某事”的通用算法。通常在机器学习上下文中,您将拥有一组单独的“案例”,其中一个单独的“案例”包含各种输入变量和一个或多个输出变量。鉴于此,使用 mean 和 stdev 的第二种形式似乎更合理,因为它将一组标量值与一个标量值相关联。你看过scikit-learn吗?它有各种算法。其中哪一个是“最好的”,通常只需尝试几个,看看哪个性能最好。
  • 这个问题似乎跑题了,可能更适合stats.SE
  • @Xyxyl:您的描述过于宽泛,无法合理回答问题。但是,我试图对回归方法进行一般描述。希望这有助于您了解需要什么样的描述。

标签: algorithm machine-learning artificial-intelligence regression


【解决方案1】:

您正在寻找估计函数f: R² -> R,因此回归是您应该研究的方法系列。然而,哪种回归很大程度上取决于(x, y)mass 之间的关系。

一般来说,回归方法定义了一个成本函数c: R² x F -> R+ 和一组可供选择的函数F。通常集合F 是无限的并且以某种形式参数化。这使得大多数回归方法都存在估计确定最佳f 的参数的问题(您称之为“估计参数”)。

为了确定哪种回归方法最合适,您必须找出以下几点:

  • 什么是有意义的成本函数c
  • 如何选择F的函数集?

例如,线性回归选择线性最小二乘成本函数并将定义F 设置为所有线性函数f: R² x R 的集合。这可能是也可能不是您想要的,具体取决于您的设置。

因此,解释可以确定三元组(x, y, mass) 的实验设置可能有助于阐明这一点。

【讨论】:

  • 是的,听起来不错。我可以提供哪些帮助?
  • @Xyxyl:我修改了我的答案,请相应地编辑您的问题。
  • @mvw 描述是完全通用的,包含“机器学习”回归方法。当然,您应该始终从一个非常简单的模型开始(例如线性回归)。
  • @ziggystar 我再次阅读了这个问题并再次得出结论,如果他对他的数据不提供更多洞察力,他就不应该得到更多的信息。跨度>
猜你喜欢
  • 2011-11-22
  • 1970-01-01
  • 2022-12-11
  • 2011-02-06
  • 2011-01-10
  • 1970-01-01
  • 1970-01-01
  • 2010-10-17
  • 2022-01-05
相关资源
最近更新 更多