【问题标题】:String attributes in .arff file for LibSVM, Weka.用于 LibSVM、Weka 的 .arff 文件中的字符串属性。
【发布时间】:2015-03-01 16:50:06
【问题描述】:

我正在尝试在 Weka 中使用 LibSVM。在我的 .arff 数据集中,我有 @attribute attr1 字符串。但是当我检查 LibSVM 功能时,我发现 LibSVM 不支持字符串属性。有没有办法将字符串转换为数值,所以我可以将它保存在我的数据集中。

【问题讨论】:

    标签: weka libsvm


    【解决方案1】:

    如果真的是字符串(而不是标称值),可以使用StringToWordVector

    将字符串属性转换为一组属性,这些属性表示来自字符串中包含的文本的单词出现(取决于标记器)信息。单词(属性)的集合由过滤的第一批(通常是训练数据)决定。

    这真的取决于你想从字符串中得到什么。如果它不是“普通”文本,而是像 DNA 序列这样的东西,你就需要完全不同的东西。

    【讨论】:

    • 谢谢。我决定从我的训练模型中删除文本特征。不过还是谢谢
    • 出于兴趣,它是什么字符串属性?我很好奇
    • 我正在从事开源项目,我想使用来自错误跟踪系统的错误描述作为训练模型的功能之一 :)
    • 那么 StringToWord 向量就可以解决问题了。或者,您可以手动构建重要术语的列表并提取它们,例如,术语“Linux”是否包含在二进制特征中
    猜你喜欢
    • 2011-08-26
    • 1970-01-01
    • 1970-01-01
    • 2016-08-21
    • 2012-03-03
    • 2013-06-15
    • 2012-06-23
    • 2014-01-05
    • 2019-05-19
    相关资源
    最近更新 更多