【发布时间】:2011-06-10 15:37:06
【问题描述】:
我的大学项目有点问题。
我必须使用遗传算法实现文档分类。
我看过 this 示例并且(可以说)理解遗传算法的原理,但我不确定如何在文档分类中实现它们。无法计算适应度函数。
这是我到目前为止所想到的(可能完全错误......)
接受我有类别,并且每个类别都由一些关键字描述。
将文件拆分为单词。
从填充了文件中随机单词的数组(例如 100 个数组,但这取决于文件的大小)创建第一个填充。
1:
为总体中的每个孩子选择最佳类别(通过计算其中的关键字)。
交叉人口中的每 2 个孩子(包含每个孩子一半的新数组)-“交叉”
用文件中随机未使用的单词填充交叉留下的其余孩子 - “进化??”
用文件中的随机词替换新群体中随机子项中的随机词(使用或未使用)-“突变”
将最佳结果复制到新种群。
转到 1 直到达到某个人口限制或找到某个类别的次数足够多
我不确定这是否正确,并且很乐意得到一些建议,伙计们。
非常感谢!
【问题讨论】:
-
您能否更准确地了解系统需要实现的具体目标?像“给定 X 初始数据,输出 Y”之类的东西?
-
我们有X个类别。系统需要把我们给它的所有文件放到正确的类别中。
-
你需要训练系统——例如,如果你有一个预先分类文档的数据库,遗传算法可以使用它来进化分类规则。
标签: algorithm genetic-algorithm document-classification