【问题标题】:How to compute histograms using weka如何使用 weka 计算直方图
【发布时间】:2012-06-09 21:04:13
【问题描述】:

给定一个分布在 6 个维度上的 23 个点的数据集,在本练习的第一部分中,我们应该执行以下操作,而我被困在后半部分:

  • 计算 CLIQUE 算法的第一步(检测所有密集单元)。采用 域 0..100 中每个维度的三个相等间隔,如果一个单元格包含至少五个对象,则认为它是密集的。

现在这是微不足道的,只是一个计数问题。下一部分会问以下问题:

  • 确定一种仅使用以下函数来计算上述 CLIQUE 结果的方法 Weka 在 Preprocess、Classify、Cluster 或 Associate 选项卡中提供。 提示:只需要两个选项卡。

我已经尝试了一个多小时,但我似乎无法在这里找到解决方案。如果有人有提示,或者可能是有用的教程,可以让我对 weka 有更多的了解,我们将不胜感激!

【问题讨论】:

  • 这只是一个猜测,但我有预感“集群”是这些选项卡之一。 ...为什么还没有“homework.stackexchange.com”呢?
  • 感谢您的回复。我自己是这么想的,集群选项卡中可用的集群算法相当有限,所以我几乎用一些参数尝试了它们。可悲的是,我无法获得正确的价值观。我想我需要预处理选项卡来选择不同的值,并且可能进行一些标准化或类似的操作,然后使用集群或分类选项卡来访问单元格。可悲的是,不同的可能组合在这里是巨大的...... :(

标签: histogram weka clique


【解决方案1】:

我假设您有 23 个实例(行)和 6 个属性(维度)

每个维度使用三个相等的间隔

使用预处理选项卡将您的数据离散化为 3 个相等的 bin。请参阅图像或命令行。您使用 3 个箱子作为间隔。您可以选择将 useEqualFrequency 更改为 false 和 true 并重试。我认为 true 可能会产生更好的结果。

weka.filters.unsupervised.attribute.Discretize -B 3 -M -1.0 -R first-last

然后对您的数据进行聚类。这将向您展示附近的实例。因为你想找到密集的细胞。我认为 SOM 可能是合适的。

如果一个单元格包含至少五个对象,则它与它一样密集。

您有 23 个实例。因此尝试 2x2=4 聚类中心,然后选择 2x3=6,2x4=8 和 3x3=9。如果您的数据点在附近。无论您选择多少个集群中心,一些集群中心应该始终拥有 5 个实例。

【讨论】:

  • 感谢您的回复!我无法完全使用它,因为我找不到 SOM 聚类算法,而且我不相信我们可以为此练习添加新算法:( 但是你让我走上了正确的轨道!问题是使用离散化,箱子没有很好地分为 0-33 , 33-66, 66-100。所以首先我编辑了数据中的最小和最大点,然后我使用离散化,然后只使用 DBSCAN 来获得密集的单元格。这并不漂亮,也不科学,但这是我发现的唯一方法来告知离散数据的实际最小值和最大值。非常感谢!
  • 您使用的是开发者版本 3.7.2+。您需要使用 Package Manager 来安装 SOM 算法。
猜你喜欢
  • 2014-01-31
  • 2015-06-18
  • 1970-01-01
  • 2013-06-21
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-09-17
相关资源
最近更新 更多