【发布时间】:2013-12-13 13:44:54
【问题描述】:
我想实现一个应用程序来分析文本。它应该检查文本以获取我定义的信息,例如产品公告,关于某人或某事的评论,.... 然后只需要提取重要的文本而不进行任何更改。
我应该看什么来获取知识来做到这一点?你能推荐一种方法/算法来做到这一点吗?
感谢您的帮助 AVL
【问题讨论】:
我想实现一个应用程序来分析文本。它应该检查文本以获取我定义的信息,例如产品公告,关于某人或某事的评论,.... 然后只需要提取重要的文本而不进行任何更改。
我应该看什么来获取知识来做到这一点?你能推荐一种方法/算法来做到这一点吗?
感谢您的帮助 AVL
【问题讨论】:
取决于您的分析仪的智能程度。
最简单的方法是搜索关键字,也许是通过正则表达式。
您还可以考虑使用一些统计文本分析,例如垃圾邮件过滤器(参见例如http://bogofilter.org/ 或http://nasauber.de/opensource/b8/)来区分火腿和垃圾邮件。可以创建一个数据库,其中包含一个主题的典型“学习”文本,然后计算“垃圾邮件”,说明每个数据库的文本与该主题有关的概率。这可能会很好,但是编写代码来做这件事的工作量很大。
【讨论】: