识别句子中单词的上下文答案

【问题标题】：Identifying the context of word in sentence识别句子中单词的上下文
【发布时间】：2015-01-12 00:14:33
【问题描述】：

我创建了分类器来分类给定句子中的名词、形容词、命名实体类。我使用大型维基百科数据集进行分类。

喜欢：

亚伯拉罕·林肯出生在哪里？

所以分类器会给出这个简短的结果 - word - class

泰坦尼克号什么时候上映？

有什么方法可以确定单词的确切上下文吗？

请看：

这里的单词bank 建议为financial institute 和slopping land。虽然就我而言，我已经得到了像Titanic 这样的预测，那么它可以是movie 或game。

我想知道除了Lesk algo、baseline algo、traditional word sense disambiguation 之外还有其他方法可以帮助我确定哪个类对于特定关键字是正确的吗？

泰坦尼克号 -

【问题讨论】：

如果第一个例子中的“born”被归类为“time”，为什么第二个例子中的“release”没有得到任何分类？
@ChthonicProject：感谢您的评论。这背后的原因是基于特征的分类系统。时间类已经使用上下文表达时间的实体（如when , how long, duration, born 等）进行了训练。将released 识别为基于时间的事件还不够智能。半超级和非超级学习系统可能已经识别它

【解决方案1】：

感谢您使用pywsd examples。关于 wsd，还有许多其他变体，我在空闲时间自己编写代码。因此，如果您想看到它有所改进，请加入我的开源工具代码 =)

同时，您会发现以下技术与您的任务更相关，例如：

知识库人群 (http://www.nist.gov/tac/2014/KBP/) 其中标记/文本片段被分配一个实体，任务是链接它们或解决简化的问答任务。
知识表示 (http://groups.csail.mit.edu/medg/ftp/psz/k-rep.html)
知识提取 (https://en.wikipedia.org/wiki/Knowledge_extraction)

上述技术通常包括几个子任务，例如：

本质上，您要求的是一种用于语言/文本处理的 NP 完全 AI 系统的工具，所以我认为目前还没有这样的工具。也许是 IBM Watson。

如果您正在寻找要调查的领域，该领域就在那里，但如果您正在寻找工具，很可能维基化工具最接近您可能需要的工具。 (http://nlp.cs.rpi.edu/paper/WikificationProposal.pdf)

【讨论】：

测试 simple_lesk() ...