训练没有句子边界的 CRF答案

【问题标题】：Training a CRF without sentence boundaries训练没有句子边界的 CRF
【发布时间】：2017-12-22 12:35:26
【问题描述】：

我需要在 HTML 文档中标记部分文本。但是，它主要由日期、公司名称、地址等形式的文本组成。我打算使用 CRF (sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们可以训练一个没有句子边界的 CRF 模型，将所有内容都视为一个序列吗？ CRFSuite 或 sklearn-crfsuite 中的教程不讲这个。

如果不分句就无法做到，有没有关于如何将这些文本分成句子的提示？

数据是这样的：（我无法分享实际数据）

【问题讨论】：

【解决方案1】：

是的，您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列即可。例如，https://github.com/scrapinghub/webstruct 对 HTML 页面执行此操作。

在句子中拆分序列提供了额外的信息（硬边界），但 CRF 可以在没有它的情况下工作。另见：https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf。

【讨论】：