【问题标题】:Looking for enterprise solution for breaking text into sentences寻找将文本分成句子的企业解决方案
【发布时间】:2023-04-28 22:26:01
【问题描述】:

很容易开发基于手动/正则表达式的算法来将文本拆分为句子。但是在处理大量文本时忽略语义最终会导致解析错误。

我正在寻找能够分析语义并提供准确结果的企业级解决方案。

目标语言是 EN。

【问题讨论】:

  • 谷歌 > 自然语言处理。检查是否有适合您的需求。
  • python 中的 Nltk 只要使用正确的函数,就可以提供良好的可靠结果。但从你的问题来看,我假设你没有考虑过那个。
  • @Einar 请将您的评论转换为答案。只是因为它是一个。

标签: php nlp linguistics


【解决方案1】:

我对不同句子分割工具的准确性进行了一些分析,您可以在README of my sentence segmentation Ruby gem 或此page 中找到这些工具。大多数人也注意到每种工具的编程语言。我没有遇到任何用 PHP 原生编写的分割工具。我的猜测是,如果你想要一个企业解决方案,你需要从另一种编程语言移植一个工具(或者找一个已经有的人)。

分句工具:

【讨论】:

  • 感谢您提供如此全面的列表。语言几乎不是问题,因为静态分析文本并将句子写入数据库。
【解决方案2】:

只要使用正确的函数,python 中的Nltk 就能提供良好的可靠结果。 还应该考虑Apaches open NLP

【讨论】: