【发布时间】:2011-01-19 19:17:27
【问题描述】:
我真的在寻找一个工具包或现成的工具,它可以解析给定的文档,然后生成一个简短的摘要,更好地为文档的思维导图。我知道 Python 有 ntlk,而 perl 有很多模块可以帮助进行自然语言解析等。 编写一个工具来做到这一点甚至是可行的,使用类似 ntlk 的工具包,但时间不够。如果您知道一些此类工具或有一些指向此类工具的指针,如果您可以将其发布在这里,将不胜感激,并提前致谢。
【问题讨论】:
我真的在寻找一个工具包或现成的工具,它可以解析给定的文档,然后生成一个简短的摘要,更好地为文档的思维导图。我知道 Python 有 ntlk,而 perl 有很多模块可以帮助进行自然语言解析等。 编写一个工具来做到这一点甚至是可行的,使用类似 ntlk 的工具包,但时间不够。如果您知道一些此类工具或有一些指向此类工具的指针,如果您可以将其发布在这里,将不胜感激,并提前致谢。
【问题讨论】:
某人(在这里)已经有written it for you(discussion)。另一个选项是TexLexAn(文本分析器分类器汇总器)。
【讨论】:
Google 的人可能已经在做这样的事情了。 ;-)
如果我说得对,您需要一个工具,它可以为您阅读一本书,然后为您简要总结其中的内容,这样您就可以抽出时间自己阅读。也许您对内容不感兴趣,而是想对材料进行分类,例如作为图书管理员。
对于非常结构化的文本,在非常专业的领域中包含许多非常相似的文档(例如论文的数学证明或实验结果或医学报告),这在技术上可能是可行的。当然,有一种工具可以区分小说和电话簿,从而对文学作品进行粗略分类。显然,提供页数或字数、识别书面语言等非常容易,因为这些参数可以明确定义。
不过,可以肯定的是,计算机在尝试掌握实际故事时会失败,无论是对话式的还是随意的。因此,要决定谁是好人,谁是坏人,或者手头的作品是一部以侦探为主角的爱情小说,还是一部侦探爱上某人的犯罪惊悚片,机器将没有机会决定什么是什么。可行的内存量、CPU 能力和知识数据库。
如果您能更具体地说明您想要使用此工具的实际目的,也许会有所帮助。
【讨论】: