将名字和姓氏识别为一个实体答案

【问题标题】：Recognition of first and last name as one entity将名字和姓氏识别为一个实体
【发布时间】：2014-06-11 06:01:31
【问题描述】：

我对自然语言处理感兴趣。我想知道是否有一种众所周知的算法可以在文本中将名字和姓氏确定为一个实体。

例如，如果我们有这个：

Last week John Wayne went to Europe.

我想要一个分词器，它给出：“Last”、“Week”、John Wayne”、“went”、“to”、“Europe”。

感谢任何帮助。

【问题讨论】：

【解决方案1】：

这是命名条目识别的重要组成部分，大多数 NER 算法都是开箱即用的（大部分时间）。例如，我通过Stanford NER system's web interface 运行您的句子，我得到：

Last week <PERSON>John Wayne</PERSON> went to <LOCATION>Europe</LOCATION>.

根据您使用的算法，输出的格式可能会有所不同。最常见的格式是IOB。

【讨论】：

【解决方案2】：

如果你的文字中的人物是名人，你可以这样做：

在您的文本上运行 Illinois Wikiifier：例如在您的示例上运行它：http://cogcomp.cs.illinois.edu/demo/wikify/?id=25
结合所有被维基百科链接到同一网页的词；例如，在您的示例中，输出如下所示： “上周 John_Wayne 去了欧洲。” 您也可以将其保存在组合完成的位置。

现在你可以对你的文本做任何事情，比如把它交给分词器！

【讨论】：

感谢您的回答。这是一个很好的工具，但是我正在寻找一种算法来做到这一点。用英语做这件事相对容易，因为名字和姓氏都以大写字母开头。我对可用于其他语言的算法更感兴趣。