【问题标题】:Why smogn is extremely slow?为什么smogn非常慢?
【发布时间】:2020-11-24 19:24:13
【问题描述】:

我正在使用 smoter 来平衡我的回归数据。我有 130k 个样本、3 个特征列和 1 个目标列。 Smoter 需要很长时间才能平衡数据。例如通过学习分类,它需要几秒钟。我做错了什么还是只是数据的大小? smoter 估计平衡所有数据的时间约为 20 小时。我还检查了它的情况,例如20% 的数据,因此 13k 个样本,估计时间约为 2 小时...

import smogn
smogn.smoter(
    
    ## main arguments
    data = df_gonzalez_healthy,           ## pandas dataframe
    y = 'healthy',          ## string ('header name')
    k = 9,                    ## positive integer (k < n)
    samp_method = 'extreme',  ## string ('balance' or 'extreme')

    ## phi relevance arguments
    rel_thres = 0.80,         ## positive real number (0 < R < 1)
    rel_method = 'auto',      ## string ('auto' or 'manual')
    rel_xtrm_type = 'high',   ## string ('low' or 'both' or 'high')
    rel_coef = 2.25           ## positive real number (0 < R)
)

【问题讨论】:

    标签: pandas smote


    【解决方案1】:

    我不认为你做错了什么,实际上很多用户都是这样。

    这可能是因为很多 for 循环。

    作者/开发者已经表示他正在努力提高 smogn 的效率。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-06-29
      • 2020-06-11
      • 1970-01-01
      • 2021-12-03
      • 2011-10-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多