【问题标题】:Dealing with Longitude and Latitude in Feature Engineering处理特征工程中的经纬度
【发布时间】:2020-08-17 16:58:15
【问题描述】:

我有一个数据集,其中包含有关全球房屋的信息,具有以下特征:房屋大小、卧室数量、城市名称、国家名称、花园与否……(以及许多其他典型的房屋信息)。目标变量是房子的价格。

我知道字符串不能作为机器学习或神经网络模型中的输入,因此我决定不再对城市名称和国家名称进行热编码(因为我最终会得到几百列)用地理坐标替换城市名称(一列经度,一列纬度)。 房子所在的城市显然会帮助确定房子的价格。

那么更改城市名称及其经度和纬度是否会保留这些重要信息?用经度和纬度更改城市名称可以吗?

【问题讨论】:

    标签: machine-learning neural-network feature-engineering


    【解决方案1】:

    笛卡尔坐标可以在某种程度上对模型有用。但是,对于某些模型(例如决策树),正确建模目标变量对地理坐标的依赖性可能需要过于复杂的模型。要清楚直观地了解这一点,您可以查看this

    在这些情况下,一种常见的方法是将坐标转换为polar coordinates,并将它们添加为新特征。当您考虑它时,您正在添加一种新的方式来表达相同的事物,只是在不同的规模或系统中。这样一来,一棵树将需要更少的分割来模拟样本的这种空间依赖性。

    话虽如此,我不会用坐标完全替换现有的地理位置数据。根据城市数据的国家/地区添加一些聚合/统计数据可能也很有趣,而不是对它们进行热编码或仅用坐标替换它们。

    【讨论】:

    • 感谢您的回答。我会用一些关于城市的统计数据来代替这个城市。
    猜你喜欢
    • 2014-09-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-10
    • 2013-09-09
    • 2021-04-05
    相关资源
    最近更新 更多