Python中的多维线性回归答案

【问题标题】：Multidimensional, linear regression in PythonPython中的多维线性回归
【发布时间】：2021-10-28 10:52:54
【问题描述】：

我有一个关于我目前正在研究的数据科学方法的问题。

我有二维数据 (x, y)。对于每个数据条目，都附有记录该数据的日期 (t)。所以，基本上每个数据点都有以下属性：(x, y, t)

现在，我想在 x 和 y 之间进行线性回归，但除了在某种程度上尊重 t 之外，较早的日期不如较早的日期具有决定性。在这种情况下，每个数据点都会根据其日期进行评级，并根据该评级以不同的方式包含在回归中。换句话说：较新的数据会更重要，并且会比旧数据更强烈地影响线性回归。

我已经环顾了几个小时，但还没有找到合适的解决方案。你们知道合适的方法和 Python 中的实现策略吗？

干杯，谢谢！

【问题讨论】：

【解决方案1】：

如果日期是字符串格式，试试这个方法。

将当前编码为字符串的日期解析为日期时间格式

raw_df['Date'] = pd.to_datetime(raw_df['Date'])

从日期中提取年份

raw_df['Year'] = raw_df['Date'].dt.year

raw_df['Year'].head()

从日期中提取月份

raw_df['Month'] = raw_df['Date'].dt.month

raw_df['Month'].head()

从日期中提取日期

raw_df['Day'] = raw_df['Date'].dt.day

raw_df['Day'].head()

日期分布

sns.countplot(x=pd.to_datetime(raw_df.Date).dt.year);

删除原来的 Date 变量。

【讨论】：

感谢您的评论！然而，这并不完全是我的意思。我想知道，是否有值得在 Python 中实施的方法，其中我的线性回归的观察值 (x,y) 的权重越老。所以基本上，更新的数据会更重要，并且会对线性回归产生更强的影响。
如果没有别的，您可能可以将日期表示为自参考日期以来的天数（周数？年？），并使用其中的某些功能来衡量案例。见this previous answer。作为下一步，可能会在问题中添加一些信息，显示一些具有代表性的数据行和一些执行您想要的回归的代码，除非不考虑日期。此外，描述您感兴趣的日期范围可能会有所帮助。它们跨越一个月、一年、一千年还是什么？