【发布时间】:2012-07-24 04:56:40
【问题描述】:
我需要检测 HTML 中的句子边界。那里有很多句子边界检测软件(java.text.BreakIterator 是我正在使用的软件),但所有这些软件都假设纯文本。 HTML 比这更丰富,并且包含一些关于句子中断位置的线索。
例如,<p>, <ul>/<li>, <td> 和其他标签标记句子边界,或者至少表明句子可能不会跨越它们。 <b>, <i>, <em>, <span>, <a> 和其他一些标签可以出现在一个句子中。
除了普通的 NLP 材料外,是否有人知道任何利用 HTML 标记来确定句子边界的软件?
【问题讨论】:
-
你能解释一下句子边界是什么意思吗?您可以只制作这些标签的数组,然后使用它们的索引或拆分整个文档来查找。
-
是否可以选择进行一些预处理?就像将所有容器标签 (...) 替换为 .并去掉所有其他标签 ( ... regex: <.>) 以获得 almost 纯文本。句界消歧:en.wikipedia.org/wiki/Sentence_boundary_disambiguation 众所周知的问题。是的,我可以进行预处理。问题是,怎么做?哪些标签是什么意思? HTML 中是否还有其他我没有想到的语法注意事项?我正在寻找其他人已经考虑过的问题的解决方案。在stackoverflow.com/questions/11236328/… 中查看我的答案,然后在获得内容文本后,您可以继续使用通常的句子拆分器和分词器。
标签: java html nlp text-segmentation