【发布时间】:2010-11-07 06:05:43
【问题描述】:
我们有一个客户正在寻找一种方法来导入和分类大量文本数据。必须对这些数据进行分类,并且建议最简单的方法是查看描述字段并尝试匹配其中包含的单词,以查看是否可以为该特定记录派生类别。
人们认为最好的方法是将单词与针对每个类别的关键词进行匹配,如果不成功,则使用某种同义词查找以查看是否可以使用它。因此,例如,如果特定记录中包含“汽车”一词,则同义词查找可以将该词与“汽车”一词匹配,该词将与“车辆”类别相对应。
有没有人知道网络服务或其他查找字典以查找特定单词的同义词的方法?项目经理建议为此购买 Google Enterprise Search 许可证,但据我所知,这并不能提供这些人正在寻找的东西。
任何其他让客户得到他们正在寻找的东西的建议都将被欣然接受。
谢谢!我会研究 Wordnet。
您知道其他类型的文本分类软件产品吗?我看到有一些关于使用 Bayasian 算法的讨论,但我看不到任何真实世界的例子。
【问题讨论】: