【问题标题】:Training a CRF without sentence boundaries训练没有句子边界的 CRF
【发布时间】:2017-12-22 12:35:26
【问题描述】:

我需要在 HTML 文档中标记部分文本。但是,它主要由日期、公司名称、地址等形式的文本组成。我打算使用 CRF (sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们可以训练一个没有句子边界的 CRF 模型,将所有内容都视为一个序列吗? CRFSuite 或 sklearn-crfsuite 中的教程不讲这个。

如果不分句就无法做到,有没有关于如何将这些文本分成句子的提示?

数据是这样的:(我无法分享实际数据)

【问题讨论】:

    标签: machine-learning crf crfsuite python-crfsuite


    【解决方案1】:

    是的,您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列即可。例如,https://github.com/scrapinghub/webstruct 对 HTML 页面执行此操作。

    在句子中拆分序列提供了额外的信息(硬边界),但 CRF 可以在没有它的情况下工作。另见:https://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-12-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-11
      • 2020-05-16
      • 2022-10-14
      • 2017-12-17
      相关资源
      最近更新 更多