【问题标题】:Automatic text / HTML annotation / highlighting自动文本/HTML注释/突出显示
【发布时间】:2015-08-18 09:46:39
【问题描述】:

现在有一些软件,当提供一个文本或一个html文档页面时,会输出一个摘要。

我想知道是否有任何东西可以自动注释(或至少突出显示)相同的文档。

我们的想法是能够保留全文,但突出最有意义的部分(我猜想有点像摘要工具)。并且可能提供额外的推断见解 (?)

另外我想知道如果它存在的话它是如何工作的:) 总结真的会非常不同,还是只是相同的原理但“输出格式”不同?

我正在寻找一些可以注释 HTML 文档的东西,就像 AnnotatorJS 设计的那样,看起来像这样:

【问题讨论】:

  • 寻找研究论文?图书馆?产品?
  • @matcheek 任何可以让我对此有所了解的东西。只是想知道我的公司是否值得投入任何时间,或者这对于一家小型初创公司来说是否太难解决。我想更多的研究论文,因为 SO 并不是真正讨论商业产品,而且大多数产品可能都有研究论文的支持,对吧?
  • 除非您想进行自己的研究,否则我会首先检查该领域的当前进展。有大量已经编写好的库github.com/miso-belica/sumy 甚至是现成的框架gallery.azureml.net/Experiment/… 请参阅最后一个链接以获取快速描述整个过程的图表。简而言之,假设您之前没有接触过文本摘要,您将使用以下内容:向量空间模型、n-gram、特征向量。
  • 谢谢@matcheek 我会在这些链接上搜刮。 Sumy 引用了令人印象深刻的现有工具列表。我根本不参与总结,但在机器学习和搜索引擎文本分析器方面有一些经验,所以希望我能够理解所有这些:)

标签: machine-learning nlp artificial-intelligence deep-learning summarization


【解决方案1】:

这不是一个完整的答案,但它可以导致你想要的。第一个建议是查看GATE。它提供了一个很棒的注释框架,只要你不想为它编写任何东西,它就很容易使用。第二件事是搜索GATE的摘要插件。 GATE 已经存在了很长时间,我相信有人已经为它实现了一个摘要插件。

【讨论】:

    猜你喜欢
    • 2010-10-18
    • 1970-01-01
    • 2014-06-14
    • 2012-05-15
    • 1970-01-01
    • 1970-01-01
    • 2019-07-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多