【发布时间】:2018-06-06 12:08:51
【问题描述】:
我们正在使用斯坦福 NER 为法国报纸文本训练我们自己的 (CRF) 分类器。 我们在标点符号方面遇到问题,特别是斯坦福 NER 似乎用其他标点符号代替了一些标点符号。
这是一个示例,其中“aujourd'hui”中的' 被` 替换,而包围Ave-Maria 的« 和» 被替换为`` 和"。
输入原始文本:
" Aujourd'hui ... « Ave Maria » et ..."
斯坦福 NER 输出:
word | tag | begin-offset | end-offset
Aujourd | O | 31 | 38
` | O | 38 | 39
hui | O | 39 | 42
`` | O | 331 | 332
Ave | O | 333 | 336
Maria | O | 337 | 342
'' | O | 343 | 344
我们在创建分类器时测试了以下标志:
-outputFormatOptions includePunctuationDependencies
-inputEncoding utf-8
-outputEncoding utf-8
但没有一个有效。
我将不胜感激。
【问题讨论】:
标签: stanford-nlp