如何使用 weka 计算直方图答案

【问题标题】：How to compute histograms using weka如何使用 weka 计算直方图
【发布时间】：2012-06-09 21:04:13
【问题描述】：

给定一个分布在 6 个维度上的 23 个点的数据集，在本练习的第一部分中，我们应该执行以下操作，而我被困在后半部分：

现在这是微不足道的，只是一个计数问题。下一部分会问以下问题：

确定一种仅使用以下函数来计算上述 CLIQUE 结果的方法 Weka 在 Preprocess、Classify、Cluster 或 Associate 选项卡中提供。 提示：只需要两个选项卡。

我已经尝试了一个多小时，但我似乎无法在这里找到解决方案。如果有人有提示，或者可能是有用的教程，可以让我对 weka 有更多的了解，我们将不胜感激！

【问题讨论】：

这只是一个猜测，但我有预感“集群”是这些选项卡之一。 ...为什么还没有“homework.stackexchange.com”呢？
感谢您的回复。我自己是这么想的，集群选项卡中可用的集群算法相当有限，所以我几乎用一些参数尝试了它们。可悲的是，我无法获得正确的价值观。我想我需要预处理选项卡来选择不同的值，并且可能进行一些标准化或类似的操作，然后使用集群或分类选项卡来访问单元格。可悲的是，不同的可能组合在这里是巨大的...... :(

【解决方案1】：

我假设您有 23 个实例（行）和 6 个属性（维度）

每个维度使用三个相等的间隔

使用预处理选项卡将您的数据离散化为 3 个相等的 bin。请参阅图像或命令行。您使用 3 个箱子作为间隔。您可以选择将 useEqualFrequency 更改为 false 和 true 并重试。我认为 true 可能会产生更好的结果。

weka.filters.unsupervised.attribute.Discretize -B 3 -M -1.0 -R first-last

然后对您的数据进行聚类。这将向您展示附近的实例。因为你想找到密集的细胞。我认为 SOM 可能是合适的。

如果一个单元格包含至少五个对象，则它与它一样密集。

您有 23 个实例。因此尝试 2x2=4 聚类中心，然后选择 2x3=6,2x4=8 和 3x3=9。如果您的数据点在附近。无论您选择多少个集群中心，一些集群中心应该始终拥有 5 个实例。

【讨论】：

感谢您的回复！我无法完全使用它，因为我找不到 SOM 聚类算法，而且我不相信我们可以为此练习添加新算法:( 但是你让我走上了正确的轨道！问题是使用离散化，箱子没有很好地分为 0-33 , 33-66, 66-100。所以首先我编辑了数据中的最小和最大点，然后我使用离散化，然后只使用 DBSCAN 来获得密集的单元格。这并不漂亮，也不科学，但这是我发现的唯一方法来告知离散数据的实际最小值和最大值。非常感谢！
您使用的是开发者版本 3.7.2+。您需要使用 Package Manager 来安装 SOM 算法。