【问题标题】:Select amount of past data when calculating features计算特征时选择过去的数据量
【发布时间】:2018-06-25 23:35:37
【问题描述】:

我想知道是否有一种方法可以在计算特征时自动选择过去的数据量。

例如,我可能想预测客户何时进行下一次购买,因此最好了解不同截止日期的购买次数或平均购买价格。例如过去 12 个月、过去 3 个月、7 天等内的购买情况。

使用功能工具解决此问题的最佳方法是什么?

【问题讨论】:

    标签: featuretools


    【解决方案1】:

    您可以使用featuretools.dfs 中的training window 参数创建仅使用一定数量历史数据的特征矩阵。设置训练窗口时,Featuretools 将使用cutoff timecutoff_time - training_window 之间的历史数据。这是文档中的示例:

    window_fm, window_features = ft.dfs(entityset=es,
                                        target_entity="customers",
                                        cutoff_time=cutoff_times,
                                        cutoff_time_in_index=True,
                                        training_window="1 hour")
    

    在确定哪些数据可以使用时,训练窗口会检查time_index列中的时间是否在训练窗口内。

    【讨论】:

    • 所以我猜我是否想使用多个训练窗口(1 周、1 个月、6 个月、1 年等)我需要使用不同的训练窗口多次运行 dfs?如果我希望这些是离散的(>= 1 周和 = 1 个月和
    • 是的,就是这样。如果有帮助,如果截止时间本身不同,您可以在截止时间数据框中包含两次给定的客户 ID。它将为客户返回两个特征向量,但在两个指定时间计算。
    猜你喜欢
    • 2015-06-07
    • 1970-01-01
    • 2018-05-20
    • 2018-06-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-07
    • 2014-09-21
    相关资源
    最近更新 更多