【发布时间】:2020-10-26 01:32:14
【问题描述】:
我已经展示了我正在处理的数据集的一个小样本。我的原始数据集大约有 400 列用于“症状”,1 列用于“疾病”。从这里the output expected is to find out the top 'N' maybe 10 or some number of 'Symptoms' which are most significant for a particular disease.
我的示例数据集如下:
fever headche sore throat drowsiness Disease
0 0 1 0 Fungal infection
0 0 0 1 Fungal infection
0 1 0 0 liver infection
1 0 0 1 diarrhoea
0 0 1 1 common cold
0 1 1 0 diarrhoea
1 0 0 0 flu
我曾尝试使用 sklearn 的 SelectKBest,但无法理解结果。也想知道panda的dataframe.corr函数在这种情况下能不能工作
【问题讨论】:
-
如果我明白了,您想对每种疾病的每列中的值求和,并确定每行具有最高 n 项的列吗?这是每种疾病的主要症状吗?
-
@wwnde 我没有清楚地提到这一点,我的错。我不是在寻找总和。我正在寻找的是每个症状之间的相关性。例如,如果我输入头痛,我想找出哪些其他症状最有可能与头痛一起出现。所以,给定头痛的症状,给我头痛可能出现的前“N”个症状。希望说明清楚,或者请告诉我。
标签: python pandas machine-learning scikit-learn categorical-data