【发布时间】:2020-08-10 11:07:10
【问题描述】:
这是我的数据:
a b c d e f g
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
14.6 74529 720 4639.341 10039.323 0.3089194 0.00011135818
270.0 74529 720 4639.341 10039.323 0.3089194 0.00011135818
14.6 74529 720 4639.341 10039.323 0.3089194 0.00011135818
390.0 74529 720 4639.341 10039.323 0.3089194 0.00011135818
2000.0 74529 720 4639.341 10039.323 0.3089194 0.00011135818
2452.0 74529 720 4639.341 10039.323 0.3089194 0.00011135818
10315.0 74529 720 4639.341 10039.323 0.3089194 0.00011135818
190.6 74529 720 4639.341 10039.323 0.3089194 0.00011135818
1050.0 74529 720 4639.341 10039.323 0.3089194 0.00011135818
14.6 74529 720 4639.341 10039.323 0.3089194 0.00011135818
...
假设我想通过对其他变量执行加法来创建一个新变量。但是,由于变量没有可比的比例,我需要重新调整它们。变量的分布不是正态的,标准化过程也应该对异常值具有鲁棒性。那么,标准化数据的最佳方法是什么,以便我可以对变量进行求和以为我的数据创建一个新参数?
【问题讨论】:
-
你的问题不是更适合stats exchange吗?一旦你有了一个有效的统计方法,你就可以在这里询问你关于代码实现的问题。
标签: r normalization standardization