什么是最合适的数据集？ [关闭]答案

【问题标题】：What is the most suitable dataset? [closed]什么是最合适的数据集？ [关闭]
【发布时间】：2012-12-29 23:43:57
【问题描述】：

我正在制作一个数据挖掘应用程序，它可以根据患者的症状将患者分类为正确的诊断。我想知道是否有人知道我需要的最合适的数据集是什么以及我可以从哪里获得它。专注于某个领域（即心脏病、糖尿病等）是一种更好的方法，还是我应该根据所有类型的疾病对患者进行整体分类？理想情况下，我希望数据集基于患者对医生的访问。因此它应该包含症状和诊断。但是，如果我可以获得包含其他属性（例如年龄、性别等）的数据集，那就更好了。如果有人可以帮助我并将我指向合适的数据集，那么我将不胜感激。

【问题讨论】：

由于机密性的原因，获得医疗信息的访问权是棘手且有问题的。祝你好运..
research.microsoft.com/en-us/um/people/heckerman/hn92cbr.pdf
不幸的是，没有标准的方法来跟踪“症状”。通常，医院会跟踪诊断和程序。见 ICD9 标准。你大概可以得到这样的数据集。

标签： algorithm dataset data-mining

【解决方案1】：

那里有一些示例数据集。

例如在Weka 中有一个包含糖尿病数据的数据集。这些是变量：

%    1. Number of times pregnant
%    2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test
%    3. Diastolic blood pressure (mm Hg)
%    4. Triceps skin fold thickness (mm)
%    5. 2-Hour serum insulin (mu U/ml)
%    6. Body mass index (weight in kg/(height in m)^2)
%    7. Diabetes pedigree function
%    8. Age (years)
%    9. Class variable (0 or 1)

还可以查看此页面以获取一些更公开的资源列表（其中一些可能具有医学背景）：

http://www.cs.waikato.ac.nz/ml/weka/datasets.html

【讨论】：