NER后如何使用k-means算法进行属性聚类？答案

【问题标题】：How to use k-means algorithm to do attribute clustering after NER?NER后如何使用k-means算法进行属性聚类？
【发布时间】：2020-08-23 10:44:35
【问题描述】：

我正在阅读 this paper 和 3.2.1 小节，第一段最后三行，

将命名实体候选映射到标准属性名称，我们采用 k-means 算法对识别的命名进行聚类通过基于词频-逆计算实体之间的余弦相似度文档频率 (TFIDF)。”

谁能解释一下这是什么意思？如果可能的话，给出一个实现场景的例子。

【问题讨论】：

正在寻找关于什么是 Kmeans 和什么是 TFIDF 的解释？或者您想了解什么是名称实体候选和标准属性名称？
@Roim 我对 Kmeans 和 TFIDF 很熟悉，但不确定他如何对已识别的命名实体进行聚类。因此，NER 模型已经能够获得技能、教育等，那么论文为什么要提出这个额外的步骤。为什么是目的。

标签： machine-learning deep-learning nlp named-entity-recognition

【解决方案1】：

我不完全确定它们的意思；最好的解决方案是直接询问论文的作者。但是似乎已经执行了聚类以做与entity linking相关的事情。

实体链接是通过将文本中发现的命名实体与唯一身份（例如维基百科文章或数据库条目）进行匹配来消除歧义的过程。例如，“Washington”可以与城市“Washington, D.C”、州“Washington”或人“George Washington”相关联。另一方面，字符串“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、Stanford.edu”、“斯坦福”和a few more 确实指的是同一机构。纯NER 模型不提供此信息，因为它们只能告诉您，例如I graduated from Stanford U. in 2010，Stanford U 是一所学校-但不是一些具体学校。

您可能想要使用 NEL，因为 NER 模型仅预测“Stanford U”是教育机构的名称，或者“TeslaMotors”是公司的名称。然后 NEL 模型预测“Stanford U”真正的意思是“Stanford University”，而“TeslaMotors”真正的意思是“Tesla, inc.”。因此，您可以认为命名实体链接以某种方式“改进”了已识别的实体。例如，如果您使用找到的实体和“Tesla, inc.”执行某些下游任务（例如简历分类），这很有用。存在于训练样本中，而“TeslaMotors”则不存在。在这种情况下，命名实体链接将提高下游模型的泛化能力，因为在 NEL 之后，两个实体的处理方式将完全相同。

但是，该论文的作者似乎没有针对所有特定领域实体（学校、学位、技能、工作职位等）的数据库，或者没有标记数据集来训练实体链接模型。因此，它们不是经典的实体链接，而是将相似出现的实体合并到集群中，希望最终在同一个集群中的字符串确实引用了相同的标识。

这种方法可能看起来很粗糙，但总比没有链接要好，它可以为手动标记/链接集群提供一个很好的起点，从而为训练实体链接的监督模型创建数据集。

【讨论】：

感谢您的回复。我尝试的第一件事是联系作者，但找不到任何联系信息。我尽力了。我仍然无法理解实体链接的含义。在这种情况下，NER 模型不是已经预测技能、学校、学位、工作职位等，我们称之为直接从 NER 模型中轻松提取这些，不是吗？为什么在这种情况下我们需要实体链接？
需要实体链接来缩小可能预测实体的空间。例如，您可能会发现了解实体“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、 Stanford.edu”甚至“Stanfurd”都指的是同一个机构。
所以我想我明白了，但是他们如何将相似的实体合并到集群中呢？您能否更深入地解释一下如何实现它。我目前正在撰写这篇论文。
您可以在此处应用任何“文本聚类”算法 - 例如来自这个问题stackoverflow.com/questions/61748673/… 的那个，或者来自scikit-learn 示例scikit-learn.org/stable/auto_examples/text/… 的那个，或者你可以谷歌搜索的任何其他文本聚类算法。
我想我仍然无法完全理解为什么需要它？我希望你已经阅读了这篇论文，首先他们将简历分为多个部分（即个人、工作、项目、技能等），对吗？现在，我将训练一个 NER 模型，然后将实体预测到这些小节中，不是吗？比如，如果我们采用工作子部分，我的 NER 模型将预测工作持续时间（或）公司名称，因为我训练了 NER 模型。那么，现在这个实体链接如何更有帮助。我已经得到了需要的不是吗？