【问题标题】:Difference between secondary analysis and data mining二次分析和数据挖掘的区别
【发布时间】:2016-04-04 07:01:31
【问题描述】:

我正在尝试从为其他目的构建的大型多维数据集中提取某些人口统计群体的一些消费模式。我正在使用手动方法(SPSS)进行聚类和回归分析。这算是二次分析还是数据挖掘?我了解统计分析和数据挖掘之间的区别,但在这种情况下似乎介于两者之间......谢谢

【问题讨论】:

  • 我从未听说过“二次分析”。定义是什么?
  • 您想问统计和数据挖掘的交互作用是什么?请更具体地回答您的问题,因为“二次分析”在这里是令人困惑的术语。
  • 当然,我是该领域的新手,我认为这是一个相当普遍的概念:“二次分析涉及使用现有数据,为先前研究的目的而收集,以追求研究兴趣与原始工作不同;这可能是一个新的研究问题或对原始问题的替代观点。在这方面,二级分析不同于旨在编译的定性研究的系统评价和荟萃分析并评估与共同关注或实践领域有关的证据。” (希顿,1998 年)
  • 这与数据挖掘本身无关。从这个意义上说,“次要分析”意味着数据是为“主要”研究项目 A 收集的,但随后再次为“次要”项目 B 进行分析,其目标非常不同,最初并未计划。也许很久以后也许由不同的人。如果您想避免自己进行实验的成本,并且其他人已经发布了合适的数据,这在医学中相当普遍。
  • 感谢@Anony-Mousse 的回答,但我不明白为什么这与数据挖掘无关,如果根据定义您可以使用多个数据集来发现新模式?这种技术在医学和一般社会研究(例如营销、教育等)中很常见,涉及数据预处理、建模/分析和解释。

标签: methods statistics data-mining spss


【解决方案1】:

“次要分析”是指为“主要”研究项目 A 收集数据,但随后再次为“次要”项目 B 进行分析,其目标与最初计划的完全不同。也许很久以后也许由不同的人。如果您想避免自己进行实验的成本,并且其他人已经发布了合适的数据,这在医学中相当普遍。

一个理论例子:

  1. 研究组 A 对药物 B 进行临床试验,并测量体重和胰岛素水平。
  2. 已公布研究组(使用药物 B)和对照组(未使用药物 B)的数据。
  3. ...十年后...
  4. C 研究组想知道体重和胰岛素水平之间是否存在相关性。他们不关心药物B,所以他们只看对照组。他们将数据与许多其他组的数据相结合,而不是自己进行实验。

这不是一项“元”研究,因为他们忽略了与药物 B 相关的任何结果。他们不使用 A 组的结果,仅将他们的数据用于不同的目的。由于这是对数据的二次利用,所以称为“二次分析”。

分析可以像计算相关性一样简单 - 通常不被视为“数据挖掘”(您不搜索,也不使用高级统计数据)而是传统的统计假设检验。

【讨论】:

  • 好的,但是假设我想预测例如打算使用一些公共调查重新购买,因此我对有意义的变量进行归一化和汇集,然后使用相关性、聚类和回归分析(一起)来确定最佳预测变量。这将被视为二次分析或数据挖掘?
  • 它们是正交的概念。某事可以两者兼而有之,也可以两者都不是。一个是关于数据的用途,另一个是关于应用的方法
  • 正是我需要知道的
猜你喜欢
  • 2019-09-21
  • 2016-05-04
  • 1970-01-01
  • 2013-01-10
  • 2014-04-20
  • 2018-05-08
  • 2012-06-25
  • 2016-04-06
  • 2011-03-04
相关资源
最近更新 更多