【问题标题】:VowpalWabbit incorrect predictions. How to properly prepare learning data?VowpalWabbit 预测不正确。如何正确准备学习数据?
【发布时间】:2019-05-29 17:39:36
【问题描述】:

我正在尝试学习大众汽车根据卧室数量、浴室数量、面积和其他特征来预测房价。我的训练数据示例行是:

68000 '51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
56333 '3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
68790 '2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839

价格街 | ... 总共约500条记录。 我的测试数据是(大约 500 条记录):

'51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
'3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
'2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839

预测给出这些值:

4819.900391 51-OMAHA-CT
4609.826172 3526-HIGH-ST
4537.140137 2796-BRANCH-ST

这些不是正确的预测。我不确定我的训练数据是否有问题?我还是很困惑|字符和放置功能。

【问题讨论】:

    标签: artificial-intelligence vowpalwabbit


    【解决方案1】:

    当您将特征构造为city=SACRAMENTO 时,大众将其解释为名称为city=SACRAMENTO 的字符串特征,并为其分配一个隐式值1.0city=SACRAMENTO 被散列并形成特征的索引。

    当您将特征构造为beds:2 时,大众将其解释为名称为beds 且特征值为2.0 的特征。 beds 被散列并形成索引。

    因此,将__=__ 形式的特征视为枚举,或来自离散集合的值。当您有连续特征时,应使用浮点值。

    对于城市名称,使用__=__ 格式似乎很好,但是当您对纬度和经度使用相同的格式时,另一个示例不太可能共享相同的精确纬度/经度字符串能够使用它预测中的特征。在我看来,lat/lng 应该是基于浮点数的特征。

    对于sale_date,您也有类似的问题。这可能更像是一个特征工程,但也许您想将此特征拆分为年份、星期几、月份等。

    【讨论】:

    • 您能否使用--audit 选项来了解大众如何看待这些功能?
    猜你喜欢
    • 1970-01-01
    • 2021-11-26
    • 1970-01-01
    • 2020-05-27
    • 1970-01-01
    • 2013-10-22
    • 2019-09-14
    • 2013-07-23
    • 2017-09-27
    相关资源
    最近更新 更多