【发布时间】:2021-09-19 19:18:15
【问题描述】:
有如下数据:这是为实际问题准备的。
- 月份:一月到十二月共有12个月
- 周: 表示 1、2、3 和 4 月的第几周
- 日期:从星期一到星期日是一周中的哪一天。
- 日期:样本的日期
- 年份:年份
- Regular Day?:代表一天的类型;定期、国定假日和宗教节日
- 小时:一天中的小时,从 0 到 23。
- Temreat :那个时期的温度。
- DE : 目标变量。
计划首先应用简单的机器学习模型,例如 MLP,然后应用更复杂的模型,例如 LSTM。但是,在使用任何模型之前,我知道我必须准备数据集。对于那部分,我对某些功能有点困惑。这是我计划为每个功能做的事情。
-
月份:使用 one-hot 编码,例如一月为
[0 0 0 0 0 0 0 0 0 0 0 1],二月为[0 0 0 0 0 0 0 0 0 0 1 0]等。 - 周:保持原样。
-
Day : 使用 one-hot 编码,例如星期一为
[0 0 0 0 0 0 1],星期二为[0 0 0 0 0 1 0]等。 - 日期:删除
- 年份:删除它
-
Regular Day?: 使用 one-hot 编码,例如常规为
[0 0 1],国定假日为[0 1 0]等。 - 小时:保持原样
- Temreat:保持原样
我还是有一些疑问,我不确定我是否遵循正确的方法。
任何人都可以确认、修复或推荐我正在尝试做的事情。
【问题讨论】:
标签: python time-series preprocessor