【问题标题】:Sentence boundary detection in HTMLHTML中的句子边界检测
【发布时间】:2012-07-24 04:56:40
【问题描述】:

我需要检测 HTML 中的句子边界。那里有很多句子边界检测软件(java.text.BreakIterator 是我正在使用的软件),但所有这些软件都假设纯文本。 HTML 比这更丰富,并且包含一些关于句子中断位置的线索。

例如,<p>, <ul>/<li>, <td> 和其他标签标记句子边界,或者至少表明句子可能不会跨越它们。 <b>, <i>, <em>, <span>, <a> 和其他一些标签可以出现在一个句子中。

除了普通的 NLP 材料外,是否有人知道任何利用 HTML 标记来确定句子边界的软件?

【问题讨论】:

  • 你能解释一下句子边界是什么意思吗?您可以只制作这些标签的数组,然后使用它们的索引或拆分整个文档来查找。
  • 是否可以选择进行一些预处理?就像将所有容器标签 (

    ...) 替换为 .并去掉所有其他标签 ( ... regex: <.>) 以获得 almost 纯文本。
  • 句界消歧:en.wikipedia.org/wiki/Sentence_boundary_disambiguation 众所周知的问题。
  • 是的,我可以进行预处理。问题是,怎么做?哪些标签是什么意思? HTML 中是否还有其他我没有想到的语法注意事项?我正在寻找其他人已经考虑过的问题的解决方案。
  • stackoverflow.com/questions/11236328/… 中查看我的答案,然后在获得内容文本后,您可以继续使用通常的句子拆分器和分词器。

标签: java html nlp text-segmentation


【解决方案1】:

我实现的解决方案是 1. 在除内联标签(&lt;i&gt;&lt;b&gt;&lt;span&gt; 等)之外的所有 html 标签上将文档拆分为单独的块,2. 从每个块中去除内联标签, 3. 使用传统方法在每个块中查找句子。

【讨论】:

    猜你喜欢
    相关资源
    最近更新 更多
    热门标签