【发布时间】:2015-11-13 01:26:18
【问题描述】:
我知道我可以使用DocumentPreprocessor 将文本拆分为句子。但是如果想要将标记化的文本转换回原始文本,它并不能提供足够的信息。所以我必须使用PTBTokenizer,它有一个invertible 选项。
但是,PTBTokenizer 只是返回文档中所有标记 (CoreLabels) 的迭代器。它不会将文档拆分成句子。
PTBTokenizer 的输出可以进行后处理,将文本分成句子。
但这显然不是小事。
Stanford NLP 库中是否有一个类可以将CoreLabels 序列作为输入并输出句子?这就是我的意思:
List<List<CoreLabel>> split(List<CoreLabel> documentTokens);
【问题讨论】:
标签: stanford-nlp