【问题标题】:Which Data Mining task to retrieve a unique instance检索唯一实例的数据挖掘任务
【发布时间】:2014-06-13 10:43:00
【问题描述】:

我从事数据挖掘工作,熟悉分类、聚类和回归任务。在分类中,可以有很多实例(例如动物)、它们的特征(例如腿的数量)和一个类别(例如哺乳动物、爬行动物)。

但我需要完成的是,给定一些属性,包括类属性,以确定我指的是哪个唯一实例(例如长颈鹿)。我可以提供我拥有的所有已知属性,如果模型无法找出答案,它可以要求另一个属性——类似于 20 个问题的游戏风格。

所以,我的问题是:这个特定任务有名称吗?它似乎类似于分类,其中类对于每个实例都是唯一的,但这不适合当前的训练模型,除非是决策树模型。

【问题讨论】:

    标签: data-mining information-retrieval


    【解决方案1】:

    您的输入,在机器学习中表示为特征,是物种的元组(我认为您的意思是“实例”)和物理属性。您的输出是更广泛的分类等级。因此,为每个输入分配一个是一个分类问题。由于您的特征不完整,您希望执行...对不完整数据进行分类,或估算缺失的特征。搜索这些字词将为您提供足够的线索。

    (另一个任务被正确地称为聚类。)

    【讨论】:

    • 我已经用这些术语更改更新了我的问题。但我不认为这完全是一个分类问题,因为如果类属性是唯一的(如 ID),您无法训练模型来预测新实例(元组)属于哪个类。
    • 类属性不是与物种相关的分类群吗?当你说它是独一无二的时,我不明白你的意思。设置提问引导学习者回忆active learning
    【解决方案2】:

    恕我直言,您只是在寻找决策树

    除了你不是在你的分类属性(你的“类”)上训练它,而是在单个实例标签上训练它。

    不过,您需要仔细选择拆分度量,因为许多度量都适用于班级规模 - 现在您所有的班级都有规模 1。为决策树找到一个好的拆分可能涉及提前计划一些拆分以获得最佳平衡树。类似随机森林的方法可能有助于提高找到好树的机会。

    【讨论】:

      猜你喜欢
      • 2011-07-25
      • 1970-01-01
      • 2011-07-13
      • 2018-03-29
      • 2011-04-26
      • 2011-02-07
      • 2010-12-17
      • 1970-01-01
      • 2011-12-25
      相关资源
      最近更新 更多