【问题标题】:Paragraph Segmentation using Machine Learning使用机器学习进行段落分割
【发布时间】:2017-06-07 16:36:34
【问题描述】:

我有大量 PDF 格式的文档。这些文件来自不同的来源,没有单一的风格。我使用Tika从文档中提取文本,现在我想将文本分割成段落。

我不能使用正则表达式,因为文档没有单一样式:

  • 段落之间\nl 的数量在 2 到 4 之间变化。
  • 在某些文档中,单个段落中的行由 2 个 \nl 分隔,有些则由单个 \nl 分隔。

所以我转向机器学习。在(伟大的)Python NLTK 书中,segmentation of sentences 的分类很好地使用了诸如“。”之前和之后的字符之类的属性。使用贝叶斯网络,但没有段落分割。

所以我的问题是:

  • 还有其他的段落分割方法吗?
  • 如果我使用机器学习,是否有可用于训练的分段段落的标记数据?

【问题讨论】:

  • 向 Apache Tika 询问文档的 HTML 版本,而不是纯文本版本,然后在 <p>...</p> 上拆分?
  • 已经试过了。它只是将\nl 替换为<p>,所以问题保持不变。
  • 我们也面临同样的问题。请通过 virenv@outlook.com 保持联系
  • @virusrocks,我终于使用了正则表达式,并且获得了大约 90% 的成功。你是怎么解决的?
  • @Gino:我还没有解决问题。我们有更高优先级的问题,因此暂时搁置。会及时通知您。

标签: python machine-learning nlp apache-tika text-segmentation


【解决方案1】:

令人惊讶的是,关于自动检测段落边界这一主题的研究很少。我找到了以下,所有这些都相当古老:

Sporleder 和拉帕塔 (2004):Automatic Paragraph Identification: A Study across Languages and Domains

Sporleder 和拉帕塔 (2005):Broad coverage paragraph segmentation across languages and domains

Filippova 和 Strube (2006):Using Linguistically Motivated Features for Paragraph Boundary Identification

根泽尔 (2005) A Paragraph Boundary Detection System

【讨论】:

    猜你喜欢
    • 2016-09-02
    • 2020-05-29
    • 1970-01-01
    • 2018-03-05
    • 2012-11-16
    • 1970-01-01
    • 2015-12-11
    • 2018-08-15
    • 2019-01-27
    相关资源
    最近更新 更多