【问题标题】:Multidimensional, linear regression in PythonPython中的多维线性回归
【发布时间】:2021-10-28 10:52:54
【问题描述】:

我有一个关于我目前正在研究的数据科学方法的问题。

我有二维数据 (x, y)。对于每个数据条目,都附有记录该数据的日期 (t)。所以,基本上每个数据点都有以下属性:(x, y, t)

现在,我想在 x 和 y 之间进行线性回归,但除了在某种程度上尊重 t 之外,较早的日期不如较早的日期具有决定性。在这种情况下,每个数据点都会根据其日期进行评级,并根据该评级以不同的方式包含在回归中。换句话说:较新的数据会更重要,并且会比旧数据更强烈地影响线性回归。

我已经环顾了几个小时,但还没有找到合适的解决方案。 你们知道合适的方法和 Python 中的实现策略吗?

干杯,谢谢!

【问题讨论】:

    标签: python regression data-science


    【解决方案1】:

    如果日期是字符串格式,试试这个方法。

    将当前编码为字符串的日期解析为日期时间格式

    raw_df['Date'] = pd.to_datetime(raw_df['Date'])
    

    从日期中提取年份

    raw_df['Year'] = raw_df['Date'].dt.year
    
    raw_df['Year'].head()
    

    从日期中提取月份

    raw_df['Month'] = raw_df['Date'].dt.month
    
    raw_df['Month'].head()
    

    从日期中提取日期

    raw_df['Day'] = raw_df['Date'].dt.day
    
    raw_df['Day'].head()
    

    日期分布

    sns.countplot(x=pd.to_datetime(raw_df.Date).dt.year);
    

    删除原来的 Date 变量。

    【讨论】:

    • 感谢您的评论!然而,这并不完全是我的意思。我想知道,是否有值得在 Python 中实施的方法,其中我的线性回归的观察值 (x,y) 的权重越老。所以基本上,更新的数据会更重要,并且会对线性回归产生更强的影响。
    • 如果没有别的,您可能可以将日期表示为自参考日期以来的天数(周数?年?),并使用其中的某些功能来衡量案例。见this previous answer。作为下一步,可能会在问题中添加一些信息,显示一些具有代表性的数据行和一些执行您想要的回归的代码,除非不考虑日期。此外,描述您感兴趣的日期范围可能会有所帮助。它们跨越一个月、一年、一千年还是什么?
    猜你喜欢
    • 1970-01-01
    • 2013-07-17
    • 2019-05-15
    • 2016-10-15
    • 1970-01-01
    • 1970-01-01
    • 2014-05-04
    • 2019-04-19
    • 2020-05-17
    相关资源
    最近更新 更多