【发布时间】:2011-04-05 19:41:57
【问题描述】:
我在 SVM 上训练了一个系统,系统给出了一个问题,该网页是否适合回答这个问题。
我选择的特征是“网页中的词频”,“词是否与网页标题匹配”,“网页中的图像数量”,“网页的长度”,“它是维基百科页面吗?”, "该网页在搜索引擎返回的列表中的位置"。
目前,我的系统将保持在 0.4 左右的精度和 1 的召回率。它有很大一部分误报错误(许多坏链接被我的分类器归类为好链接)。
由于准确性可以提高一点,我想在这里寻求一些帮助,以考虑改进我选择用于训练/测试的功能,可以删除一些或添加更多。
提前致谢。
【问题讨论】:
标签: artificial-intelligence data-mining