为 weka 数据挖掘检索的缺失数据答案

【问题标题】：missing data retrieved for weka datamining为 weka 数据挖掘检索的缺失数据
【发布时间】：2018-03-29 00:37:10
【问题描述】：

我需要从我的数据库中检索数据以使用 weka 进行挖掘，但是相关表中缺少一些数据，我是否应该手动改进 arff 文件中缺少的那些属性？在我的工作中，我有一张将注册特定课程的人员表（id、姓名、年龄、国籍、专业、级别、电子邮件、密码）。所以根据他们的个人资料（水平，专业）和他们的轨迹（看课程的视频或没有，有一个帐户或创建了一个新帐户），我需要确定他是否参加课程的概率。所以这里缺失的值是see-video（是，否）和帐户（新，否）。我是数据挖掘和 weka 的新手，我希望这个想法很清楚。谢谢！

【问题讨论】：

标签： weka

【解决方案1】：

首先，您需要考虑丢失某些数据意味着什么。它是否完全随机丢失，就好像有人拿了一个完整的数据集并掷骰子来决定要删除哪些数据？或者数据丢失的事实能否为您提供有关实例的一些信息？例如，如果您没有关于某人是否创建帐户的数据，也许这意味着他们拒绝分享这些数据，而该类别的人实际上不太可能注册课程？

一些技术，例如常用的 J48 树分类器，可以处理缺失数据。 J48 本质上将实例的缺失值视为所有未缺失属性的值的聚合。如果数据完全随机丢失，那应该会给出有效的结果。

其他技术无法处理缺失数据，如果您想使用其中一种技术，您必须从数据中删除属性或实例，直到没有剩余数据缺失，或者用允许的方法替换缺失值要使用的属性和实例，或这些方法的某种组合。一种典型的方法是用数字属性的非缺失值的平均值或名义属性的最常见的非缺失值替换缺失值，但您也可以用您选择的不同值替换缺失值 -您甚至可以将“缺失”视为名义属性的一个新的、单独的值。

Weka 有过滤器可以在进行分类之前为您执行这些操作，因此您不必亲自进入并编辑 .arff 数据。

【讨论】：