【发布时间】:2020-07-15 21:57:30
【问题描述】:
我有一个 pandas 数据框,它存储用户 ID、他们的工资范围(在 3 个可能的范围中)和他们产生的利润,如下所示:
user_id salary_range profit_amount
--------- ------------------ ---------------
123 0 - 35,000 324
654 50,000 - 100,000 2083
129 50,000 - 100,000 20023
654 0 - 35,000 699
398 35,000 - 49,999 298
我想看看用户的工资范围和他们产生的利润之间是否存在任何关联。
通常我会使用 seaborn.heatmap 和 pd.corr 但这仅适用于 2 个数值变量,虽然薪水通常是一个数值,但这里的范围是一个分类。
就个人而言,我解决此问题的方法是将范围从 1 到 3 进行排名,然后从那里生成相关性。但是我相信还有其他可能的方法可以做到这一点,并想看看是否有人可以建议范围和利润之间的替代关联方法?
【问题讨论】:
标签: python pandas statistics