【发布时间】:2020-11-28 22:05:10
【问题描述】:
我正在尝试为银行交易数据实现集群。数据集包含关于Vendor 和MCC 的列,它们是string。这些列中有太多不同的值,我想根据一些指标进行聚类,例如cosine similarity for Vendor or MCC。 (例如'Hotel A' 和'Hotel B' 可以在同一个集群中。)我认为Levenshtein distance 是不够的。
我想为 MCC 找到一个语料库,并创建一个模型来查找单词之间的相似性。这种方法对这个问题有好处吗?如果没有,我该如何处理这些列?如果有,是否有这方面的语料库?
【问题讨论】:
-
MCC 是指商家类别代码?那是一个数字字段吗?
-
是的,它是商家类别代码。不,不是数字,是PET SHOPS,PET FOOD AND SUPPLIES等字符串字段
-
唯一 MCC 和供应商的大约数量是多少?
-
400 个不同的 MCC 编号和 86729 个供应商,我放弃使用
Vendor但问题是 MCC 看起来像 A 酒店、B 酒店、C 店、D 店...。我希望这些可以根据相似性进行聚类。
标签: machine-learning nlp cluster-analysis word-embedding