【发布时间】:2014-04-09 14:51:30
【问题描述】:
我正在尝试编写一个算法来估计我所知道的系统的物体质量。
我的数据是 x 和 y 点的形式,所以我可以将它们表示为多个 x 和 y 点,或者通过表示 x 和 y 点的平均值和偏差来表示为分布。这可能取决于算法的参数。
我不需要分类器,我正在寻找数值估计。
例如,x 值:{1,2,3,...},y 值:{1,2,3,...} -> 质量:5, 或 x 值:{2 (mean), 1 (std)} y: {2,1} -> 5
我对机器学习很陌生,分类器似乎不是解决这个问题的方法,而且我查找的回归学习算法似乎试图估计参数,而不是结果。
我也打算用 Python 做这个,但我不需要包什么的,通用算法应该能让我走上正轨。
编辑以响应 blubb
我的数据以一组 x 点、一组 y 点和一个质量的形式给出。 例如,
x values | y values | mass
--------------------------------
1 2 3 4 | 1 2 3 4 | 6.7
2 3 4 5 | 2 3 4 5 | 7.9
我会收到一个输入,例如:
x values | y values
-----------------------
5 6 7 | 8 9 10
另一种讨厌它的方式(可能在向量空间方面很聪明)是用它们的手段和标准来表示这些值,所以我的训练数据会变成:
x mean | x std | y mean | y std | mass
--------------------------------------
2.5 | 1 | 2.5 | 1 | 6.7
3.5 | 1 | 3.5 | 1 | 7.9
这些显然不是真正的价值,而是具有代表性的例子。 (所有值都是浮点数)
【问题讨论】:
-
“质量”是什么意思?您要么需要某种从数据中计算的方法(其中可能不是机器学习),要么需要一些为给定输入提供质量的训练数据。
-
这并不重要,不是吗?这只是我试图让算法预测的一些数字。我的数据是 xvalues、yvalues -> 质量数。我假设 x 和 y 点/散布对质量有影响。它不是算法(如密度*体积 = 质量),它是预测性的,我确实有它的训练数据。
-
好吧,但是很难给出“我如何估计某事”的通用算法。通常在机器学习上下文中,您将拥有一组单独的“案例”,其中一个单独的“案例”包含各种输入变量和一个或多个输出变量。鉴于此,使用 mean 和 stdev 的第二种形式似乎更合理,因为它将一组标量值与一个标量值相关联。你看过scikit-learn吗?它有各种算法。其中哪一个是“最好的”,通常只需尝试几个,看看哪个性能最好。
-
这个问题似乎跑题了,可能更适合stats.SE。
-
@Xyxyl:您的描述过于宽泛,无法合理回答问题。但是,我试图对回归方法进行一般描述。希望这有助于您了解需要什么样的描述。
标签: algorithm machine-learning artificial-intelligence regression