【问题标题】:What's a good natural language library to use for paraphrasing? [closed]什么是用于释义的好的自然语言库? [关闭]
【发布时间】:2008-08-24 20:57:33
【问题描述】:

我正在寻找一个现有的库来总结或解释内容(我的目标是博客文章) - 有使用现有自然语言处理库的经验吗?

我对多种语言持开放态度,因此我对能力和准确性更感兴趣。

【问题讨论】:

  • 这不是关闭 tpic

标签: language-agnostic nlp


【解决方案1】:

有一些关于 Grok 的讨论。这现在作为 OpenCCG 得到支持,并且也将在 OpenNLP 中重新实现。

您可以在http://openccg.sourceforge.net/ 找到 OpenCCG。我还建议在此处使用 Curran 和 Clark CCG 解析器:http://svn.ask.it.usyd.edu.au/trac/candc/wiki

基本上,对于释义,您需要做的是写一些东西,首先解析博客文章的句子,提取这些文章的语义,然后搜索词汇空间,这将组合创建相同的语义,然后选择一个与当前句子不匹配的句子。这将需要很长时间,并且可能没有多大意义。不要忘记,为了做到这一点,您将需要近乎完美的照应解析和获取话语级推理的能力。

如果您只是想制作没有机器可识别重复内容的博客文章,您可以随时使用主题和焦点转换以及 WordNet 同义词。以前肯定有一些网站通过 AdWords 赚钱。

【讨论】:

    【解决方案2】:

    我认为他想通过自动解释该系统正在监控的博客来生成博客文章。

    如果您可以将 2 到 10 篇相似但来自不同来源的博文合并起来,然后自动进行解释性“真实”摘要(一篇博文的大小),这将非常有趣。

    它对 Homeworks 也很有帮助。不幸的是,这并不容易做到。

    我能看到的唯一办法就是能够把每一个句子分解成“意义”,然后随机改变句子结构和一些保留意义的词。

    这些句子意思相同:

    • 我讨厌这个人,他太笨了。
    • 这家伙很蠢,我恨他。
    • 我鄙视这个笨蛋。
    • 他很笨,我恨他。

    编写一个程序将这些句子中的一个转换为其他句子并非易事,这些都是简单的句子,博客中的真实句子要复杂得多。

    【讨论】:

      【解决方案3】:

      您进入了非常遥远的 AI 类型领域。我主要使用 Attempto Controlled English(参见:http://attempto.ifi.uzh.ch/site/)在将文本转换为机器知识方面做了大量工作,它是一种自然语言(英语),可以完全由计算机处理成几种不同的本体,例如 OWLDL。

      看起来我们会有点矫枉过正......

      是否有理由不只取博文的前几句话,然后在摘要中添加一个省略号?

      【讨论】:

        【解决方案4】:

        感谢这些链接。看起来 GROK 已经死了 - 但它可能仍然适用于我的目的。

        还有 2 个链接:

        Attempto Controlled English 是一个有趣的概念:因为它是看待问题的完全相反的方式。对于我正在尝试做的事情来说并不实用。

        @mmattax 至于说几句话的建议——我不是想给出一个总结:否则这将是一个很好的judo 解决方案。我正在寻找实际总结的内容以用于其他评估目的。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2012-03-04
          • 1970-01-01
          • 2017-05-15
          • 1970-01-01
          相关资源
          最近更新 更多