【发布时间】:2021-05-06 14:02:10
【问题描述】:
pandas.cut() 用于将值分箱为离散区间。例如,
pd.cut(
np.array([0.2, 0.25, 0.36, 0.55, 0.67, 0.78]),
3,
include_lowest=True,
right=False
)
Out[9]:
[[0.2, 0.393), [0.2, 0.393), [0.2, 0.393), [0.393, 0.587), [0.587, 0.781), [0.587, 0.781)]
Categories (3, interval[float64]): [[0.2, 0.393) < [0.393, 0.587) < [0.587, 0.781)]
如何在 PySpark 中实现同样的效果?我查看了QuantileDiscretizer,但它绝对不等同于pd.cut(),因为它不返回间隔。
【问题讨论】:
标签: python pandas apache-spark pyspark