【发布时间】:2021-08-29 00:56:51
【问题描述】:
我已经好几天没有运气扫描互联网寻求有关此问题的帮助。任何建议将不胜感激! (尤其是对 tidyverse 友好的语法)
我有一个大约 tibble。 4300 行/obs 和 320 列。一列是我的因变量,一个称为“RR”(响应比率)的连续数字列。我的目标是将 RR 值分成 10 个因子水平。稍后用于机器学习分类。
我已经用这段代码试验了 cut() 函数:
df <- era.af.Al_noNaN %>%
rationalize() %>%
drop_na(RR) %>%
mutate(RR_MyQuantile = cut(RR,
breaks = unique(quantile(RR, probs = seq.int(0,1, by = 1 / numbers_of_bins))),
include.lowest = TRUE))
但是我没有运气,因为我的 bin 在每个 bin 中都有相等的 n,但是,这并不能反映数据的分布。我在这里研究了一点 https://towardsdatascience.com/understanding-feature-engineering-part-1-continuous-numeric-data-da4e47099a7b 但我根本无法在R.
Here is the distribution of my RR data values grouped into classes *not what I want
【问题讨论】:
-
那你想要什么?
标签: r dplyr quantile binning continuous