如何预测 scikit-learn 中未知函数的组件？答案

【问题标题】：How to predict components of an unknown function in scikit-learn?如何预测 scikit-learn 中未知函数的组件？
【发布时间】：2019-06-07 09:41:16
【问题描述】：

我有一些图表。所有这些图表都是两个参数（Alpha 和Beta）的函数。然而这个功能是未知的。我唯一知道的是，通过改变 Alpha 和 Beta 函数的形状会发生变化，但不清楚这两个参数如何影响这个函数的形状。

我想使用机器学习工具（最好是 scikit-learn）通过提供任意图形来预测组件 Alpha 和 Beta。我将提供更多细节：假设我有 3 个基于存储在 3 个文本文件中的点的图表：

#First graph: 1.txt
89.3131996411674    0.0                 
86.31206459803472   1.9218574062324632  
81.87220673358236   4.212444252488191   
76.41926314984194   7.090515235715248   
69.70749592038558   10.46295619504502   
4.695619238294171   42.982945242832166 

#Second graph: 2.txt
89.31085880364263   0.0                 
86.14246621045181   0.11975843148903698 
81.48739328101496   0.7686454222842645  
75.88152851199536   1.501591710302762   
69.15242620019211   4.034900351905526   
4.674145681785713   41.09359256010945

#Third graph: 3.txt
89.30979468139782   0.0                 
86.05550911873416   -0.9850540767366983 
81.20598538751082   -1.1003291465972356 
75.39779664162057   -2.714132118366186  
68.62777149709575   -1.3767373919651047   
4.653517556961358   39.28302423686896

现在，如果我使用以下代码绘制它们：

import matplotlib.pyplot as plt
plt.plotfile('1.txt', delimiter=' ', cols=(0, 1),linestyle='--',linewidth=3,color='k',label=r'$1:Alpha\/\/=20\/\/and\/\/Beta\/\/=5$')
plt.plotfile('2.txt',  delimiter=' ', cols=(0, 1),linestyle='-',linewidth=3,color='m',label=r'$2:Alpha\/\/=30\/\/and\/\/Beta\/\/=0.3$',newfig=False)
plt.plotfile('3.txt', delimiter=' ', cols=(0, 1),linestyle='-.', linewidth=3,color='r',label=r'$3:Alpha\/\/=40\/\/and\/\/Beta\/\/=0.2$',newfig=False)
lg=plt.legend(ncol=1, loc=2, fontsize=13)
plt.xlabel(r'$\mathrm{X}$', fontsize=16)
plt.ylabel(r'$\mathrm{Y}$', fontsize=16)
axes = plt.gca()
plt.gca().invert_xaxis()
plt.tick_params(axis='both', which='major', labelsize=13)
plt.show()

结果是：

现在我想给出一个任意图（点），我希望机器学习算法能够预测系数 Alpha 和 Beta。需要说明的是，为了简单起见，我在这里只提供了 3 个图表，而实际上我有 1000 多个图表，并且所有图表都位于 graph.1 和 graph.3 之间。例如，如果我给代码给出与 graph.3 完全相同的点并要求预测 Alpha 和 Beta ，我希望得到：

Alpha = 40
Beta = 0.2

或者如果我给代码给出与 graph.1 完全相同的点并要求预测 Alpha 和 Beta ，我希望得到：

Alpha = 20
Beta = 5

我不知道机器学习是否能够为我做这件事，因为我不知道 Alpha 和 Beta 究竟如何影响图形的形状. 我只知道图表依赖于这两个组件，但我不知道这个函数是什么

我希望如果我为算法提供合理数量的图形（作为输入）作为训练集，代码可以预测（估计）任意给定点（图形）的 Alpha 和 Beta。

提前感谢您的时间和帮助！

【问题讨论】：

那么，对于你想用于机器学习训练步骤的那 1000 个图，你知道什么是 alpha 和 beta 吗？

标签： python machine-learning scikit-learn data-fitting model-fitting

【解决方案1】：

根据您的问题解释，不清楚您是否有每个 1000 图表的 alpha 和 beta 值，我假设您没有，您只有值。如果是这种情况，我假设上面的alpha = 0.4 和beta = 0.2 只是一些虚拟值。

如果您假设您的图表是直线，您可以使用线性回归为给定图表创建参数 a 和 b 的估计值，它们对应于拦截器（下面等式中的 a）和系数（下面等式中的 b）。通过这样做，您将了解 a 和 b 如何影响给定图形的函数形状。换句话说，您将了解什么是函数。

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

df = pd.read_csv("1.txt", delimiter="\t")
x = df.x.values.reshape(-1, 1)
y = df.y.values.reshape(-1, 1)
model = LinearRegression(fit_intercept=True)
model.fit(x, y)
# This corresponds to a and b from equation above
print(model.coef_, model.intercept_)

但是，如果您的图表不是一条直线，您可以使用多项式回归。假设您认为您的函数是 2 次多项式，那么您将有以下等式：

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

df = pd.read_csv("1.txt", delimiter="\t")
x = df.x.values.reshape(-1, 1)
y = df.y.values.reshape(-1, 1)
poly = PolynomialFeatures(degree=2) 
X_ = poly.fit_transform(x) # Transforming into degree two polynomial
model = LinearRegression(fit_intercept=True)
model.fit(X_, y)
# This corresponds to a,b and c from equation above
print(model.coef_, model.intercept_)

如果您愿意，您可以使用更高次的多项式，它们将适合更复杂的函数。

通过所有这些，您将了解给定 x 的参数，即输出 y。这不是你所说的问题。您想了解 alpha 和 beta 是什么。

如果您密切关注我所写的内容，您可能会发现 alpha 和 beta 是一些参数（例如 a、b、c 等），但为了弄清楚它们的近似值，您必须知道使用多项式函数的次数，然后找出使用的参数（a、b、c等）alpha和beta是哪一个。

【讨论】：

感谢您的回复。由于某种原因，您提供的示例代码不起作用。首先它返回这个错误：AttributeError: 'DataFrame' object has no attribute 'x'。我在“df”之后删除了 x,y，但又出现了另一个错误：ValueError: could not convert string to float: '86.31206459803472 1.9218574062324632'
我编辑了1.txt，数值用制表符分隔，你要在1.txt开头加一行，这个标题行应该有"x\ty" -> x和y用制表符分隔。
我忘了提到，当你想预测某个值 x 的 y（我们称之为 x_test）时，你应该只写 model.predict(x_test)。请接受我的回答:)