【问题标题】:how to make use of data that unknown in the future? [closed]如何利用未来未知的数据? [关闭]
【发布时间】:2019-10-31 01:59:55
【问题描述】:

我有 2 个数据集。 df1 存储关于餐厅的数据,df2 是天气数据。

df1 
       date  how many customers came  Sales($)  how many pokes used (kg) ...
0  20180101                     120     44520                       58
1  20180102                     270     57950                       60
2  20180103                     290     65320                       90
...

df2 
       date  temperature  precipitation ...
0  20180101           35          0.2
1  20180102           23          0.5
2  20180103           31          0.6
...

我想制作一个模型,可以预测未来一天将使用多少次戳。

我不知道将来会有多少客户,以及将来会有多少销售额。所以我只使用天气数据来建立模型。

我尝试使用天气数据预测sales,并使用天气数据和预测sales数据预测how many pocks used,但得分比只使用天气数据的模型还要差。

有没有办法利用df1中的其他数据?

【问题讨论】:

  • 只需按日期合并 2 个 data.frames 并在模型中使用任意数量的变量作为预测变量。你的问题有什么我遗漏的吗?
  • @Simon 抱歉,我已经编辑了我的问题。我想制作一个模型,可以预测未来一天将使用多少次戳。我可以使用天气预报数据。但是像sales 这样的数据要到那一天才能知道。
  • 如果您有一些过去的历史,那么还值得查看数据中的趋势——许多时间序列都有每周和每年的周期性。您可能会从这本免费的在线教科书中得到一些东西:otexts.com/fpp2

标签: r pandas machine-learning scikit-learn scipy


【解决方案1】:

结合date 特征上的两个数据框,并根据您将来知道的特征训练模型。这将是您的第一种方法。您尚未提及其他功能的外观,因此我们无法真正提及哪些功能可能很重要,以及您是否应该使用任何数据规范化或缩放方法。

您的第二种方法是根据天气数据训练模型并尝试预测客户数量,然后使用天气数据和预测的客户数据来创建模型。这种特殊的方法风险很大,因为客户预测中的一个小错误可能会导致pokes 预测发生重大变化。

另请提及,您当前使用哪个 ML 模型进行预测,因为并非每个模型都适用于每个数据集。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-04-26
    • 1970-01-01
    • 2014-09-30
    • 1970-01-01
    • 2019-10-23
    • 1970-01-01
    • 1970-01-01
    • 2018-05-25
    相关资源
    最近更新 更多