【发布时间】:2021-12-17 23:19:44
【问题描述】:
我有一个包含大约 200 个特征的大型数据集,主要由日期和分类数据组成,还有一些连续特征。数据集是从邮政服务中提取的。小例子:
我试图使示例尽可能通用,以供将来参考。这些是上下文的选定(加扰)条目:
shipment delivery cost time location weight_kg
2020-04-22 2020-04-27 77.31 19:42:00 UK:66c54f531.... 0.5
2020-04-22 2020-04-25 44.14 19:42:00 DK:22c54f531.... 2.23
2020-04-24 2020-04-24 53.84 09:55:00 UK:66c54f531.... 1.57
2020-04-24 2020-04-26 22.09 14:27:00 UK:66c54f531.... 1.2
我的第一个想法是在 shipping/count_monthly(shipment) 上创建一个需求预测模型,但考虑到功能的数量,多变量案例似乎更相关。我只是不确定要添加哪些附加功能 - 更重要的是 - 这样该项目确实变得通用(线性回归)。我的初始 EDA 描述的变量相关性较低,否则会被删除以避免多重共线性。
- 然后,我考虑了一种聚类方法,以更详细地收集特征之间的关系。只是不知道如何处理如此大的数据量以及看起来像时间序列的数据,以前从未真正使用过该 dtype。
我说的表面上是,据我了解,时间序列数据必须按时间顺序排列且不能重复,上述日期列(装运/交付)都有。
- 那么,我是否应该将日期列视为类别?即使某些特征是时间序列(时间列)。
【问题讨论】:
标签: python time-series cluster-analysis categorical-data