寻找具有非文本属性的相似客户的相似性匹配技术答案

【问题标题】：Techniques for Similarity matching to find similar customers with non-textual attributes寻找具有非文本属性的相似客户的相似性匹配技术
【发布时间】：2016-12-20 20:53:38
【问题描述】：

我是机器学习及其技术的初学者。

我需要有关构建模型的建议。这是问题陈述 -

我有一个拥有特定公司 X 的所有产品（4 种产品）的客户数据集 - 将此集称为 Cust4。
我还有另一个数据集仅拥有同一公司 X 的少量产品（3 种产品）的客户 - 将此集合称为 Cust3。
我已经为这两个数据集收集了许多“分类”和“数字”属性（有不是文本数据）。
我想向拥有 3 种产品的客户销售更多产品（我想向他们销售第 4 种产品），因此想知道如何类似 是 Cust3 客户将他们与 Cust4 客户集进行比较，因此我只向与 Cust4 集中的客户高度相似的客户销售。

是否有一种技术/什么技术适合告诉我，例如 Cust3 集中的特定测试客户与 Cust4 集有 70% 相似或 80% 相似等？

到目前为止的研究 -
我试图将其定义为一类分类问题，并研究了一类分类，尤其是一类 SVM（在 R 中）。这确实建立了一个模型并对数据进行分类，但目前不支持概率预测（R 包 e1071）。

了解可能适用于此类问题的其他技术会有所帮助。感谢所有帮助。

【问题讨论】：

标签： machine-learning svm similarity

【解决方案1】：

尝试高斯混合模型。为每个类训练一个单独的 GMM，然后您可以从该模型中获得任何输入样本的似然分数。

【讨论】：

我不熟悉其中的一些技术，我肯定想尝试一下。因此，根据您的建议，将有一个 GMM（因为只有一类客户），然后我从 Cust3 获得每个客户的可能性分数，并根据某个阈值进行选择。对吗？

【解决方案2】：

当然，这是一类分类问题（或看起来相似），因为您正在寻找看起来像 cust4 的客户，并且您不会得到概率，因为您没有第 4 个产品的先验概率。但是你可以得到Cust3和Cust4的字符之间的相似距离。

为此，我向您推荐聚类算法： 1.Fist 为您的 cust4（在一个或多个集群上）进行聚类，您将获得一个或多个质心（集群的中心）。

2.对于 Cust3 中的每个客户，您计算与该客户和每个质心的距离（您应该使用聚类中使用的相同变量）。如果距离超过某个阈值。所以这个客户对product4很开胃。

还有其他技术，例如 k 个最近邻，但在计算时间上非常昂贵。

希望对你有所帮助。

【讨论】：

谢谢@raait。我将尝试您建议的聚类方法。如果您能更详细地介绍一些具体的方法，那将对我有很大帮助。