【发布时间】:2021-03-01 18:36:13
【问题描述】:
我正在尝试预测单口喜剧咖啡馆的预订量。我可以使用很多功能,这些功能会影响销售数量。 (例如一年中的某一天、天气、上个月的平均销售额、一周中的某一天、一周中特定日期的平均销售额等)
但是,与实际销售数量最相关的特征之一是截止日期前已售出的门票数量。客户可以在实际订购截止日期前 120 小时(5 天)开始预订(演出当天上午 11:00)。
我更愿意将此数据用作我的机器学习算法的输入。目前我在数据框中创建了 120 列。这些列定义了截止日期前 120 小时,直到截止日期本身。因此,“hour_98”列显示截止日期前 4 天的累计销售额。 “hour_24”列显示截止日期前24小时的累计销售额等。
如果我现在想预测截止日期前 24 小时的销售额,则“hour_24”列直到“hour_0”都被赋予“NaN”值。由于算法无法处理 NaN 值我目前将这些列的值设为 0。但是,我认为这太简单了,会导致预测模型不好。
我们如何处理不断变化的输入形状,因为如果我们越来越接近订购的最后期限,我们会获得更多的数据?
【问题讨论】:
标签: machine-learning deep-learning