【发布时间】:2015-02-26 00:01:38
【问题描述】:
矢量量化软件通常仅适用于数值数据。一个例子是 Python 的 scipy.cluster.vq.vq (here),它执行矢量量化。大多数聚类软件也存在数值数据要求。
许多人指出,您始终可以将分类变量转换为一组二进制数值变量。但是,在处理单个分类变量可能有数百或数千个类别的大数据时,这会变得很尴尬。
显而易见的替代方法是更改距离函数。对于混合数据类型,从观测到“中心”或“码本条目”的距离可以表示为两部分总和,包括 (a) 数值变量的常用欧几里德计算和 (b) 不等式指标的总和对于分类变量,如第 125 页上的 here 建议的那样。
是否有任何具有这种广义距离函数的矢量量化开源软件实现?
【问题讨论】:
-
虽然可以使用大量现有代码来解决这类问题(正如您所指出的),但我的经验是,距离函数几乎总是必须专门编写以适应特定数据问题。