【发布时间】:2016-04-13 09:37:11
【问题描述】:
我的目标是构建一个多类分类器。
我已经构建了一个用于特征提取的管道,它包括作为第一步的 StringIndexer 转换器,用于将每个类名映射到一个标签,这个标签将用于分类器训练步骤。
管道拟合训练集。
为了提取相同的特征向量,测试集必须经过拟合管道处理。
知道我的测试集文件具有与训练集相同的结构。这里可能的场景是在测试集中遇到一个看不见的类名,这样StringIndexer将无法找到标签,并引发异常。
这种情况有解决方案吗?或者我们怎样才能避免这种情况发生?
【问题讨论】:
-
请重新接受@queise 的回答。它比已经添加的解决方案要好得多。
标签: apache-spark apache-spark-ml