【问题标题】:Is there any way to get the relationship from the unsupervised dataset?有没有办法从无监督数据集中获取关系?
【发布时间】:2020-11-02 12:13:20
【问题描述】:

我有一些数据,数据集包括device id (int), phone (int), name(string)等特征, device id 等。但所有数据都没有标签。我的任务是获取一个人使用多个 ID 或多个设备的概率。我不知道该怎么做,有人有想法吗?

为了清楚起见,这里是一个例子。 数据集就像

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

所以我们可以找到 Jason 有 2 个电话号码,
如何使用机器学习方法或深度学习方法获得概率?

【问题讨论】:

    标签: machine-learning graph deep-learning information-extraction knowledge-graph


    【解决方案1】:

    一种可能的方法是计算用户的相似度。

    据我所知,用户的设备相似性是您的最终目标。

    首先,将唯一标识用户的名称和 ID 字段结合起来。 生成,所有剩余的特征向量作为一个数组。

    之后,您可以在所有用户之上运行嵌套 for 循环。 这会给你最接近的匹配,你可以设置一个阈值,或者你可以选择 kNN 来做到这一点。

    看看这个: Convert Nested dictionary to Pyspark Dataframe

    【讨论】:

    • 我认为在当前状态下,您提出的解决方案是模糊的。例如,将使用什么距离度量来计算相似度? kNN是分类器,跟聚类没有关系?
    • 感谢您的回答,真的很有帮助。我可能会为这个问题添加一些细节。 1. 不仅是设备id的相似度,还使用姓名、电话、....等其他特征来判断2个数据样本(2行)之间的相似度。 2.有没有可能将phone numberdevice id转换为矢量格式?所以我可以计算两个向量之间的相似度。期待您的回复。
    • @mmm 至于你的问题 1 应该使用什么距离测量?实际上,距离度量的选择将取决于数据余弦相似度的种类,或者可以应用任何相似度度量。问题 2 它与聚类无关,K 最近邻本质上会从所有正在计算的设备中挑选出前 k 个相似设备。
    • @h2222 如果您可以共享相同的数据进行复制,这将有助于提出解决方案。我同意它不是关于设备,而是关于整个行的相似性,我在上下文设备 bcoz 讨论中提到了这一点。谢谢..!!
    猜你喜欢
    • 2023-03-10
    • 2018-07-11
    • 2017-09-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-10-14
    相关资源
    最近更新 更多