【发布时间】:2015-03-01 16:50:06
【问题描述】:
我正在尝试在 Weka 中使用 LibSVM。在我的 .arff 数据集中,我有 @attribute attr1 字符串。但是当我检查 LibSVM 功能时,我发现 LibSVM 不支持字符串属性。有没有办法将字符串转换为数值,所以我可以将它保存在我的数据集中。
【问题讨论】:
我正在尝试在 Weka 中使用 LibSVM。在我的 .arff 数据集中,我有 @attribute attr1 字符串。但是当我检查 LibSVM 功能时,我发现 LibSVM 不支持字符串属性。有没有办法将字符串转换为数值,所以我可以将它保存在我的数据集中。
【问题讨论】:
如果真的是字符串(而不是标称值),可以使用StringToWordVector
将字符串属性转换为一组属性,这些属性表示来自字符串中包含的文本的单词出现(取决于标记器)信息。单词(属性)的集合由过滤的第一批(通常是训练数据)决定。
这真的取决于你想从字符串中得到什么。如果它不是“普通”文本,而是像 DNA 序列这样的东西,你就需要完全不同的东西。
【讨论】: