【问题标题】:How to use k-means algorithm to do attribute clustering after NER?NER后如何使用k-means算法进行属性聚类?
【发布时间】:2020-08-23 10:44:35
【问题描述】:

我正在阅读 this paper 和 3.2.1 小节,第一段最后三行,

将命名实体候选映射到 标准属性名称,我们采用 k-means 算法对识别的命名进行聚类 通过基于词频-逆计算实体之间的余弦相似度 文档频率 (TFIDF)。”

谁能解释一下这是什么意思?如果可能的话,给出一个实现场景的例子。

【问题讨论】:

  • 正在寻找关于什么是 Kmeans 和什么是 TFIDF 的解释?或者您想了解什么是名称实体候选和标准属性名称?
  • @Roim 我对 Kmeans 和 TFIDF 很熟悉,但不确定他如何对已识别的命名实体进行聚类。因此,NER 模型已经能够获得技能、教育等,那么论文为什么要提出这个额外的步骤。为什么是目的。

标签: machine-learning deep-learning nlp named-entity-recognition


【解决方案1】:

我不完全确定它们的意思;最好的解决方案是直接询问论文的作者。但是似乎已经执行了聚类以做与entity linking相关的事情。

实体链接是通过将文本中发现的命名实体与唯一身份(例如维基百科文章或数据库条目)进行匹配来消除歧义的过程。例如,“Washington”可以与城市“Washington, D.C”、州“Washington”或人“George Washington”相关联。另一方面,字符串“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、Stanford.edu”、“斯坦福”和a few more 确实指的是同一机构。纯NER 模型不提供此信息,因为它们只能告诉您,例如I graduated from Stanford U. in 2010Stanford U 是一所学校-但不是一些具体学校。

您可能想要使用 NEL,因为 NER 模型仅预测“Stanford U”是教育机构的名称,或者“TeslaMotors”是公司的名称。然后 NEL 模型预测“Stanford U”真正的意思是“Stanford University”,而“TeslaMotors”真正的意思是“Tesla, inc.”。因此,您可以认为命名实体链接以某种方式“改进”了已识别的实体。例如,如果您使用找到的实体和“Tesla, inc.”执行某些下游任务(例如简历分类),这很有用。存在于训练样本中,而“TeslaMotors”则不存在。在这种情况下,命名实体链接将提高下游模型的泛化能力,因为在 NEL 之后,两个实体的处理方式将完全相同。

但是,该论文的作者似乎没有针对所有特定领域实体(学校、学位、技能、工作职位等)的数据库,或者没有标记数据集来训练实体链接模型。因此,它们不是经典的实体链接,而是将相似出现的实体合并到集群中,希望最终在同一个集群中的字符串确实引用了相同的标识。

这种方法可能看起来很粗糙,但总比没有链接要好,它可以为手动标记/链接集群提供一个很好的起点,从而为训练实体链接的监督模型创建数据集。

【讨论】:

  • 感谢您的回复。我尝试的第一件事是联系作者,但找不到任何联系信息。我尽力了。我仍然无法理解实体链接的含义。在这种情况下,NER 模型不是已经预测技能、学校、学位、工作职位等,我们称之为直接从 NER 模型中轻松提取这些,不是吗?为什么在这种情况下我们需要实体链接?
  • 需要实体链接来缩小可能预测实体的空间。例如,您可能会发现了解实体“Stanford”、“Stanford University”、“Leland Stanford Junior University”、“LSJU”、“Stanford U.”、“Stanford uni”、“University of Stanford”、 Stanford.edu”甚至“Stanfurd”都指的是同一个机构。
  • 所以我想我明白了,但是他们如何将相似的实体合并到集群中呢?您能否更深入地解释一下如何实现它。我目前正在撰写这篇论文。
  • 您可以在此处应用任何“文本聚类”算法 - 例如来自这个问题stackoverflow.com/questions/61748673/… 的那个,或者来自scikit-learn 示例scikit-learn.org/stable/auto_examples/text/… 的那个,或者你可以谷歌搜索的任何其他文本聚类算法。
  • 我想我仍然无法完全理解为什么需要它?我希望你已经阅读了这篇论文,首先他们将简历分为多个部分(即个人、工作、项目、技能等),对吗?现在,我将训练一个 NER 模型,然后将实体预测到这些小节中,不是吗?比如,如果我们采用工作子部分,我的 NER 模型将预测工作持续时间(或)公司名称,因为我训练了 NER 模型。那么,现在这个实体链接如何更有帮助。我已经得到了需要的不是吗?
猜你喜欢
  • 2016-07-28
  • 2019-05-03
  • 1970-01-01
  • 2015-01-16
  • 2020-03-10
  • 2019-08-17
  • 2012-01-01
  • 2012-03-24
  • 2017-11-01
相关资源
最近更新 更多