【问题标题】:Improving entity naming with custom file/code in NLTK使用 NLTK 中的自定义文件/代码改进实体命名
【发布时间】:2010-09-23 06:57:57
【问题描述】:

在最近的一个项目中,我们一直在使用 NLTK 库 主要对命名实体部分感兴趣。

一般来说,使用 NEChunkParser 类我们会得到很好的结果。 但是,我们正在尝试找到一种方法来向 解析器,没有成功。

例如,我们有一个测试文档,其中我的名字 (Shay) 出现在 几个地方。图书馆发现我是 GPE,而我希望它找到 我作为人......

有没有办法提供某种自定义文件/ 代码,因此解析器将能够像我一样解释命名实体 想要吗?

谢谢!

【问题讨论】:

  • 嘿,Shay,你在这方面有什么进展吗?我很想看看你想出了什么,因为我遇到了类似的问题。

标签: nlp nltk


【解决方案1】:

简单的解决方案是编译一个您知道被错误分类的实体列表,然后在后处理模块中过滤NEChunkParser 输出,并将这些实体的标签替换为您希望它们拥有的标签。

正确的解决方案是重新训练 NE 标注器。如果您查看 NLTK 的 source code,您会看到 NEChunkParser 基于 MaxEnt 分类器,即机器学习算法。您必须编译和注释代表您要使用的数据类型的语料库(数据集),然后在此语料库上重新训练 NE 标记器。 (这很难、耗时且可能很昂贵。)

【讨论】:

    猜你喜欢
    • 2018-10-14
    • 1970-01-01
    • 2020-11-28
    • 1970-01-01
    • 2013-10-19
    • 2020-02-01
    • 1970-01-01
    • 1970-01-01
    • 2017-04-22
    相关资源
    最近更新 更多