【发布时间】:2020-12-05 11:45:30
【问题描述】:
我试图了解一些自变量之间的基本原理,并量化它们对因变量的重要性。我遇到了诸如随机森林之类的方法,它可以量化变量的重要性,然后预测结果。但是,我对要与随机森林或类似方法一起使用的数据的性质有疑问。下面提供了一个数据结构示例,正如您所见,时间序列有一些变量,例如人口和年龄,它们不会随时间变化,尽管不同城市之间存在差异。而温度和#internet 用户等其他变量随着时间和城市内部的变化而变化。我的问题是:如何量化这些变量对“Y”变量的重要性?顺便说一句,我更喜欢在 python 环境中应用该方法。
【问题讨论】:
-
您需要将月份(日期)转换为整数,然后我推荐一个热门的城市变量。
-
@barker 你能详细说明为什么要使用 one-hot 方法吗?
标签: python machine-learning random-forest