【发布时间】:2015-10-19 17:03:48
【问题描述】:
我的问题与为我的数据集找到最佳算法有关。
我的数据包含三列,即个人、疾病和测试分数(我有 50 个测试分数特征,但这里只提到了一个测试分数特征)。 我有 3000 个人,疾病特征的可能值是 disA、disB 和 disC,其中测试分数是离散变量。 疾病特征是我的类属性。
一个人最多可以患有三种不同的疾病,但只有一个测试分数值。 我的目标是根据疾病对考试成绩进行分类 (哪些考试成绩与哪种疾病有关) 但这里的问题是,如果一个人患有三种疾病,那么所有的考试成绩都将重复三次。 例如,对于单个 aa(包含所有 disA、disB 和 disC)测试分数为 12。然后分析文件将如下所示
individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...
这将导致有偏见的分析。 是否有针对此类数据的任何数据挖掘算法或统计测试? 我无法删除这些患者,因为它们是数据集的最高比例。
【问题讨论】:
-
您可以将此问题移至datascience.stackexchange.com
标签: algorithm data-mining data-analysis genetics