使用机器学习进行段落分割

【问题标题】：Paragraph Segmentation using Machine Learning使用机器学习进行段落分割
【发布时间】：2017-06-07 16:36:34
【问题描述】：

我有大量 PDF 格式的文档。这些文件来自不同的来源，没有单一的风格。我使用Tika从文档中提取文本，现在我想将文本分割成段落。

我不能使用正则表达式，因为文档没有单一样式：

段落之间\nl 的数量在 2 到 4 之间变化。
在某些文档中，单个段落中的行由 2 个 \nl 分隔，有些则由单个 \nl 分隔。

所以我转向机器学习。在（伟大的）Python NLTK 书中，segmentation of sentences 的分类很好地使用了诸如“。”之前和之后的字符之类的属性。使用贝叶斯网络，但没有段落分割。

所以我的问题是：

还有其他的段落分割方法吗？
如果我使用机器学习，是否有可用于训练的分段段落的标记数据？

【问题讨论】：

向 Apache Tika 询问文档的 HTML 版本，而不是纯文本版本，然后在 <p>...</p> 上拆分？
已经试过了。它只是将\nl 替换为<p>，所以问题保持不变。
我们也面临同样的问题。请通过 virenv@outlook.com 保持联系
@virusrocks，我终于使用了正则表达式，并且获得了大约 90% 的成功。你是怎么解决的？
@Gino：我还没有解决问题。我们有更高优先级的问题，因此暂时搁置。会及时通知您。

标签： python machine-learning nlp apache-tika text-segmentation

【解决方案1】：

令人惊讶的是，关于自动检测段落边界这一主题的研究很少。我找到了以下，所有这些都相当古老：

Sporleder 和拉帕塔 (2004)：Automatic Paragraph Identification: A Study across Languages and Domains

Sporleder 和拉帕塔 (2005)：Broad coverage paragraph segmentation across languages and domains

Filippova 和 Strube (2006)：Using Linguistically Motivated Features for Paragraph Boundary Identification

根泽尔 (2005) A Paragraph Boundary Detection System

【讨论】：

猜你喜欢

2016-09-02
2020-05-29
1970-01-01
2018-03-05
2012-11-16
1970-01-01
2015-12-11
2018-08-15
2019-01-27

相关资源

下载 2023-01-24
下载 2021-07-09
下载 2023-03-12

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode