【发布时间】:2015-08-18 09:46:39
【问题描述】:
现在有一些软件,当提供一个文本或一个html文档页面时,会输出一个摘要。
我想知道是否有任何东西可以自动注释(或至少突出显示)相同的文档。
我们的想法是能够保留全文,但突出最有意义的部分(我猜想有点像摘要工具)。并且可能提供额外的推断见解 (?)
另外我想知道如果它存在的话它是如何工作的:) 总结真的会非常不同,还是只是相同的原理但“输出格式”不同?
我正在寻找一些可以注释 HTML 文档的东西,就像 AnnotatorJS 设计的那样,看起来像这样:
【问题讨论】:
-
寻找研究论文?图书馆?产品?
-
@matcheek 任何可以让我对此有所了解的东西。只是想知道我的公司是否值得投入任何时间,或者这对于一家小型初创公司来说是否太难解决。我想更多的研究论文,因为 SO 并不是真正讨论商业产品,而且大多数产品可能都有研究论文的支持,对吧?
-
除非您想进行自己的研究,否则我会首先检查该领域的当前进展。有大量已经编写好的库github.com/miso-belica/sumy 甚至是现成的框架gallery.azureml.net/Experiment/… 请参阅最后一个链接以获取快速描述整个过程的图表。简而言之,假设您之前没有接触过文本摘要,您将使用以下内容:向量空间模型、n-gram、特征向量。
-
谢谢@matcheek 我会在这些链接上搜刮。 Sumy 引用了令人印象深刻的现有工具列表。我根本不参与总结,但在机器学习和搜索引擎文本分析器方面有一些经验,所以希望我能够理解所有这些:)
标签: machine-learning nlp artificial-intelligence deep-learning summarization