使用 Stanford CoreNLP/NER 提取标题（书籍、文章等）？答案

【问题标题】：Using Stanford CoreNLP/NER to extract titles (of books, articles, etc)?使用 Stanford CoreNLP/NER 提取标题（书籍、文章等）？
【发布时间】：2013-12-06 02:21:45
【问题描述】：

是否有一些标签序列可能指示网页中的标题？例如，从亚马逊页面中提取书名，其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基础的任务，但无法弄清楚如何使用斯坦福的 NER/CoreNLP 来完成。

提前致谢！

【问题讨论】：

标签： java nlp stanford-nlp named-entity-recognition named-entity-extraction

【解决方案1】：

不使用 CoreNLP 库的解决方案 - 如果您正在寻找网页上的标题，为什么不解析 <title> 标记？

例如，饥饿游戏 (http://www.amazon.com/Hunger-Games-Trilogy-Boxset/dp/0545626382/ref=sr_1_2?s=books&ie=UTF8&qid=1386299491&sr=1-2&keywords=hunger+games) 的亚马逊图书页面的标题是：

饥饿游戏三部曲套装：Suzanne Collins：9780545626385：Amazon.com：书籍

当然，标题标签取决于网站，它们可以与页面相关，也可以只是总体网站的标题。

【讨论】：

嗯。我更多地考虑能够将其扩展到从特定教授的网站中提取研究论文的标题，因此在此应用程序中效果不佳。如果 pdf 有一些版本的标题标签，这可能是合理的，但不幸的是，事实并非如此。

【解决方案2】：

检测一系列 html 标签并不是真正的 NLP 问题。见web scraping。您可以编写一组 regex / xquery / etc. 规则来检测特定语料库中的标题。 Pdfs 和其他文档也有一些可以利用的标记，请参阅tika parser。

对于科学文章，您可以轻松地将标题作为几个换行符之前的第一件事，或类似的东西。

【讨论】：