【问题标题】:Techniques for Similarity matching to find similar customers with non-textual attributes寻找具有非文本属性的相似客户的相似性匹配技术
【发布时间】:2016-12-20 20:53:38
【问题描述】:

我是机器学习及其技术的初学者。

我需要有关构建模型的建议。这是问题陈述 -

我有一个拥有特定公司 X 的所有产品(4 种产品)的客户数据集 - 将此集称为 Cust4。
我还有另一个数据集仅拥有同一公司 X 的少量产品(3 种产品)的客户 - 将此集合称为 Cust3。
我已经为这两个数据集收集了许多“分类”和“数字”属性(有不是文本数据)。
我想向拥有 3 种产品的客户销售更多产品(我想向他们销售第 4 种产品),因此想知道如何类似 是 Cust3 客户将他们与 Cust4 客户集进行比较,因此我只向与 Cust4 集中的客户高度相似的客户销售。

是否有一种技术/什么技术适合告诉我,例如 Cust3 集中的特定测试客户与 Cust4 集有 70% 相似或 80% 相似等?

到目前为止的研究 -
我试图将其定义为一类分类问题,并研究了一类分类,尤其是一类 SVM(在 R 中)。 这确实建立了一个模型并对数据进行分类,但目前不支持概率预测(R 包 e1071)。

了解可能适用于此类问题的其他技术会有所帮助。感谢所有帮助。

【问题讨论】:

    标签: machine-learning svm similarity


    【解决方案1】:

    尝试高斯混合模型。为每个类训练一个单独的 GMM,然后您可以从该模型中获得任何输入样本的似然分数。

    【讨论】:

    • 我不熟悉其中的一些技术,我肯定想尝试一下。因此,根据您的建议,将有一个 GMM(因为只有一类客户),然后我从 Cust3 获得每个客户的可能性分数,并根据某个阈值进行选择。对吗?
    【解决方案2】:

    当然,这是一类分类问题(或看起来相似),因为您正在寻找看起来像 cust4 的客户,并且您不会得到概率,因为您没有第 4 个产品的先验概率。但是你可以得到Cust3和Cust4的字符之间的相似距离。

    为此,我向您推荐聚类算法: 1.Fist 为您的 cust4(在一个或多个集群上)进行聚类,您将获得一个或多个质心(集群的中心)。

    2.对于 Cust3 中的每个客户,您计算与该客户和每个质心的距离(您应该使用聚类中使用的相同变量)。如果距离超过某个阈值。所以这个客户对product4很开胃。

    还有其他技术,例如 k 个最近邻,但在计算时间上非常昂贵。

    希望对你有所帮助。

    【讨论】:

    • 谢谢@raait。我将尝试您建议的聚类方法。如果您能更详细地介绍一些具体的方法,那将对我有很大帮助。
    猜你喜欢
    • 2011-08-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-11-09
    • 1970-01-01
    • 1970-01-01
    • 2020-04-21
    • 2012-03-16
    相关资源
    最近更新 更多