【发布时间】:2017-12-22 12:35:26
【问题描述】:
我需要在 HTML 文档中标记部分文本。但是,它主要由日期、公司名称、地址等形式的文本组成。我打算使用 CRF (sklearn-crfsuite)
我的问题是很难将数据集分成句子。我们可以训练一个没有句子边界的 CRF 模型,将所有内容都视为一个序列吗? CRFSuite 或 sklearn-crfsuite 中的教程不讲这个。
如果不分句就无法做到,有没有关于如何将这些文本分成句子的提示?
【问题讨论】:
标签: machine-learning crf crfsuite python-crfsuite