【发布时间】:2019-12-05 19:04:21
【问题描述】:
我无法理解 RCF 算法,尤其是它如何预期/预期数据或应完成的预处理?例如,我有大约 50 万条记录的以下数据/特征(带有示例值):
我的 RCF 模型的结果(针对 57 个特征的 500K 记录进行训练 - 数量、30 个国家/地区和 26 个虚拟类别)非常关注数量特征(例如,所有异常都高于约 1000.00,绝对没有变化基于国家或类型)。
此外,我还对金额字段进行了标准化,结果也不是那么强。事实上,可以肯定地说我的结果很糟糕,我显然错过了一些东西。
总的来说,我正在寻找一些关于正确使用功能的指导(再次 - 1 个数量字段和 2 个分类字段和虚拟 1 和 0 - 导致大约 57 个字段)。我想知道使用 kmeans 之类的东西是否会更好。
编辑:这里有一些上下文......我想知道:
1) 加权 - 有没有办法给某些变量赋予权重(即,一个分类变量比另一个更重要)。例如,我使用 Country 和 Category 作为关键属性,并希望给予 Category 比 Country 更多的权重。
2) 上下文 - 我如何确保在其同行(分类数据)的上下文中考虑异常值?例如,一笔 5000 美元的“机票”费用交易不是该类别的异常值,而是任何其他类别的异常值。我可以创建 N 个模型,但这会变得混乱和繁琐,对吧?
我浏览了大部分可用的文档 (https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_how-it-works.html),但找不到任何描述这个的东西!
非常感谢您提前提供的帮助!
编辑:在我什至没有半合理的结果的这一点上不确定它是否重要,但我使用了以下超参数:
num_samples_per_tree=256,
num_trees=100
【问题讨论】:
标签: scikit-learn amazon-sagemaker feature-engineering