有没有办法从无监督数据集中获取关系？答案

【问题标题】：Is there any way to get the relationship from the unsupervised dataset?有没有办法从无监督数据集中获取关系？
【发布时间】：2020-11-02 12:13:20
【问题描述】：

我有一些数据，数据集包括device id (int), phone (int), name(string)等特征, device id 等。但所有数据都没有标签。我的任务是获取一个人使用多个 ID 或多个设备的概率。我不知道该怎么做，有人有想法吗？

为了清楚起见，这里是一个例子。数据集就像

  name   id    phone  device_id  
 Jason   123    12345   12341231     ......  
 James   1345   312312  312312312    ......  
 Jason   123    53523   23115124    ......

所以我们可以找到 Jason 有 2 个电话号码，
如何使用机器学习方法或深度学习方法获得概率？

【问题讨论】：

标签： machine-learning graph deep-learning information-extraction knowledge-graph

【解决方案1】：

一种可能的方法是计算用户的相似度。

据我所知，用户的设备相似性是您的最终目标。

首先，将唯一标识用户的名称和 ID 字段结合起来。生成，所有剩余的特征向量作为一个数组。

之后，您可以在所有用户之上运行嵌套 for 循环。这会给你最接近的匹配，你可以设置一个阈值，或者你可以选择 kNN 来做到这一点。

看看这个： Convert Nested dictionary to Pyspark Dataframe

【讨论】：

我认为在当前状态下，您提出的解决方案是模糊的。例如，将使用什么距离度量来计算相似度？ kNN是分类器，跟聚类没有关系？
感谢您的回答，真的很有帮助。我可能会为这个问题添加一些细节。 1. 不仅是设备id的相似度，还使用姓名、电话、....等其他特征来判断2个数据样本（2行）之间的相似度。 2.有没有可能将phone number或device id转换为矢量格式？所以我可以计算两个向量之间的相似度。期待您的回复。
@mmm 至于你的问题 1 应该使用什么距离测量？实际上，距离度量的选择将取决于数据余弦相似度的种类，或者可以应用任何相似度度量。问题 2 它与聚类无关，K 最近邻本质上会从所有正在计算的设备中挑选出前 k 个相似设备。
@h2222 如果您可以共享相同的数据进行复制，这将有助于提出解决方案。我同意它不是关于设备，而是关于整个行的相似性，我在上下文设备 bcoz 讨论中提到了这一点。谢谢..!!