【发布时间】:2017-06-07 16:36:34
【问题描述】:
我有大量 PDF 格式的文档。这些文件来自不同的来源,没有单一的风格。我使用Tika从文档中提取文本,现在我想将文本分割成段落。
我不能使用正则表达式,因为文档没有单一样式:
- 段落之间
\nl的数量在 2 到 4 之间变化。 - 在某些文档中,单个段落中的行由 2 个
\nl分隔,有些则由单个\nl分隔。
所以我转向机器学习。在(伟大的)Python NLTK 书中,segmentation of sentences 的分类很好地使用了诸如“。”之前和之后的字符之类的属性。使用贝叶斯网络,但没有段落分割。
所以我的问题是:
- 还有其他的段落分割方法吗?
- 如果我使用机器学习,是否有可用于训练的分段段落的标记数据?
【问题讨论】:
-
向 Apache Tika 询问文档的 HTML 版本,而不是纯文本版本,然后在
<p>...</p>上拆分? -
已经试过了。它只是将
\nl替换为<p>,所以问题保持不变。 -
我们也面临同样的问题。请通过 virenv@outlook.com 保持联系
-
@virusrocks,我终于使用了正则表达式,并且获得了大约 90% 的成功。你是怎么解决的?
-
@Gino:我还没有解决问题。我们有更高优先级的问题,因此暂时搁置。会及时通知您。
标签: python machine-learning nlp apache-tika text-segmentation