斯坦福 CoreNLP 错误的共指解析

【问题标题】：Stanford CoreNLP wrong coreference resolution斯坦福 CoreNLP 错误的共指解析
【发布时间】：2015-05-21 10:35:54
【问题描述】：

我仍在使用斯坦福大学的 CoreNLP，在一个非常简单的共指解析测试中遇到了奇怪的结果。

鉴于这两句话：

酒店有一个大浴室。很干净。

我希望第 2 句中的“它”被第 1 句的“浴室”或至少“一个大浴室”所指代。

不幸的是，它指向“酒店”，在我看来这是错误的。

有没有办法解决这个问题？我需要训练任何东西还是应该开箱即用？

    Annotation a = getPipeline().getAnnotation("The hotel had a big bathroom. It was very clean.");

    System.out.println(a.get(CorefChainAnnotation.class));

输出：

{1=CHAIN1-[第 1 句中的“酒店”，第 2 句中的“它”]，2=CHAIN2-[第 1 句中的“大浴室”]}

非常感谢您的帮助。

【问题讨论】：

标签： nlp stanford-nlp

【解决方案1】：

与 AI 中的许多组件一样，Stanford 共指系统仅在一定的准确度下是正确的。在共指的情况下，这个准确度实际上相对较低（在 0-100 范围内的标准基准上约为 60）。为了说明问题的难度，请考虑以下明显相似的句子，但具有不同的共指判断：

酒店有一个大浴缸。太贵了。

【讨论】：

再次感谢 Gabor 的帮助。在共指解析领域似乎还有很多工作要做。有没有其他库/算法可以在斯坦福 NLP 中以更好的方式做到这一点？
最好的共指系统似乎在斯坦福大学和伯克利分校之间来回切换 (nlp.cs.berkeley.edu/projects/coref.shtml) - 提示愤怒的研究人员插入我忽略的系统。真的，这只是一个难题。如此之多以至于将其用作更准确的图灵测试类型引起了相当大的兴趣：en.wikipedia.org/wiki/Winograd_Schemas_Challenge
好的...非常有趣。迫不及待地想开发出真正的人工智能，所以我会给伯克利一个机会。我也在研究 nltk 看看它是否有好处。再次感谢您的宝贵时间！