【问题标题】:need some suggestions on my SVM feature refinement需要一些关于我的 SVM 功能改进的建议
【发布时间】:2011-04-05 19:41:57
【问题描述】:

我在 SVM 上训练了一个系统,系统给出了一个问题,该网页是否适合回答这个问题。

我选择的特征是“网页中的词频”,“词是否与网页标题匹配”,“网页中的图像数量”,“网页的长度”,“它是维基百科页面吗?”, "该网页在搜索引擎返回的列表中的位置"。

目前,我的系统将保持在 0.4 左右的精度和 1 的召回率。它有很大一部分误报错误(许多坏链接被我的分类器归类为好链接)。

由于准确性可以提高一点,我想在这里寻求一些帮助,以考虑改进我选择用于训练/测试的功能,可以删除一些或添加更多。

提前致谢。

【问题讨论】:

    标签: artificial-intelligence data-mining


    【解决方案1】:

    嗯……

    • 您的训练集有多大?即,您使用了多少培训文档?
    • 您的测试集由什么组成?
    • 由于您获得的 FP 太多,我会尝试使用更多(和不同的)“糟糕”网页进行训练
    • 您能否详细说明您的不同功能,例如“网页中的 tf”等?

    【讨论】:

    • 是的,谢谢,词频是关键词在网页中出现的频率。这些关键词是我手动确定的,从原始问题中取出2或3个最重要和决定性的关键词,然后计算它在网页中的频率。
    • 好吧,没有更多细节,除了我最初的建议,我无能为力。您可能会想出更多的功能,例如: - 答案中的单词数量也在相关的维基百科条目中 - 答案的复杂性(通过阅读水平计算器;这可能只适用于非常技术或科学的问题) ,如果您使用短语作为推荐的基础,您可能会错过同义词。如果问题是关于医生而答案是关于医师,那么它可能不会被抓住。以某种方式集成 WordNet 可能是值得的。
    猜你喜欢
    • 2014-01-19
    • 1970-01-01
    • 2021-04-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-07-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多