【发布时间】:2021-03-16 23:28:46
【问题描述】:
我创建了两个格式相同的虚拟数据,然后使用 pd qcut 得到了不同的结果。请告诉我如何使输出正确(如数据1)?
数据1:
df=pd.DataFrame(list(np.zeros(10)) + list (np.ones(2)), columns=['X'])
df1=df[['X']].assign(var_bin=lambda x: pd.qcut(x['X'], q=20, duplicates='drop'))
df1['var_bin'].unique()
输出[(-0.001, 0.35], (0.9, 1.0]] Categories (2, interval[float64]): [(-0.001, 0.35] < (0.9, 1.0]]
数据 2:
df=pd.DataFrame(list(np.zeros(1000)) + list (np.ones(200)), columns=['X'])
df1=df[['X']].assign(var_bin=lambda x: pd.qcut(x['X'], q=20, duplicates='drop'))
df1['var_bin'].unique()
输出
[(-0.001, 1.0]] Categories (1, interval[float64]): [(-0.001, 1.0]]
【问题讨论】: