基于多词相似性的聚类[关闭]答案

【问题标题】：Clustering Based-On Multi-Word Similarity [closed]基于多词相似性的聚类[关闭]
【发布时间】：2020-11-28 22:05:10
【问题描述】：

我正在尝试为银行交易数据实现集群。数据集包含关于Vendor 和MCC 的列，它们是string。这些列中有太多不同的值，我想根据一些指标进行聚类，例如cosine similarity for Vendor or MCC。（例如'Hotel A' 和'Hotel B' 可以在同一个集群中。）我认为Levenshtein distance 是不够的。

我想为 MCC 找到一个语料库，并创建一个模型来查找单词之间的相似性。这种方法对这个问题有好处吗？如果没有，我该如何处理这些列？如果有，是否有这方面的语料库？

数据来源：https://data.world/oklahoma/purchase-card-fiscal-year

【问题讨论】：

MCC 是指商家类别代码？那是一个数字字段吗？
是的，它是商家类别代码。不，不是数字，是PET SHOPS,PET FOOD AND SUPPLIES等字符串字段
唯一 MCC 和供应商的大约数量是多少？
400 个不同的 MCC 编号和 86729 个供应商，我放弃使用 Vendor 但问题是 MCC 看起来像 A 酒店、B 酒店、C 店、D 店...。我希望这些可以根据相似性进行聚类。

标签： machine-learning nlp cluster-analysis word-embedding

【解决方案1】：

我使用GloVe word embeddings 完成了与此问题类似的操作。

对分类文本特征进行聚类的一种方法是将每个唯一值转换为平均词向量（在删除停用词之后）。然后您可以通过余弦相似度比较向量，并使用基于相似度矩阵的聚类方法。如果这种方法计算过于复杂，请将值转换为向量，并通过余弦相似度获得前 n 个最接近的项目。

【讨论】：

我尝试使用GoogleNews的预训练模型，很多单词都丢失了。正如我所观察到的，GloVe 包含的单词不超过GoogleNews 一个。 GloVe 有不同的词嵌入方法吗？顺便谢谢。
来自 GloVe 的最大模型 - glove.840B.300d 有 840B 个标记，2.2M 词汇，大小写，具有 300 维向量。如果很多单词都不见了，我会感到惊讶。如果有一些代码没有单个词向量，则可以将它们分配到“其他”类别