【发布时间】:2020-03-25 16:01:11
【问题描述】:
我有一个非常大的数据集(大约 100k 点),我想为这个图拟合一条曲线。
我尝试了另一个问题的答案建议的过滤器,但这会导致过度拟合。 到目前为止,我正在使用 numpy 和 matplotlib。
This 是我想要拟合的散点图类型。
编辑 1:
请忽略中心主数据点一侧的数据点(因此只有一条曲线可以拟合)
Here 是数据集,将文件下载为文本文件以分隔列,考虑第 3 列和第 9 列(基于 1 的索引),y 轴有第 3 列,而 x 轴绘制差异第 3 列和第 9 列。
编辑 2:忽略负值
编辑 3:由于似乎有很多噪音,请考虑第 33 列的概率,并仅考虑概率 >90% 的恒星
【问题讨论】:
-
从视觉上看,单个函数不适合此数据,因为在同一个图上似乎有多个数据组。对我来说,似乎应该有多个模型分别适合不同的数据组。如果这样做,每个模型中的数据点数量就会减少。
-
能否发一个数据集的链接?
-
@JamesPhillips 是的,我会编辑问题
-
这些列中的某些值是负数。我应该排除它们吗?
-
@JamesPhillips 很抱歉我忘了说,是的,排除他们。
标签: python-3.x numpy matplotlib curve-fitting scatter-plot