摘要 解决高光谱图像中样本不足的两种途径有主动学习和半监督学习。前者提高样本的质量,后者试图提高样本数量。 代表信息:有监督的聚类结果获取未标记样本的重要的结构信息。结合主动学习,结合判别信息(SVM分类器)。

介绍

主动学习:考察未标记数据,选择信息量最大的(most informative)的样本加入下一次迭代。选中的样本标记后加入L集(labeled),并从U集(unlabeled)中移除。主动学习需要人力去标记一些样本。
半监督学习:更关注未标记数据,以无监督的方式获取信息。
本文方法:DRDbSSAL: discovering representativeness and discriminativeness by semisupervised active learning. representativeness代表性试图捕捉未标记数据的整体分布,discriminativeness在给定的标记样本下提高分类准确率。两者之间有一个tradeoff。

相关工作

主动学习

选择最不确定的样本
1. entropy query-by-bagging(EQB)算法,考虑学习者中最不一致的样本
2. 基于后验概率的方法,度量候选样本的不确定性
3. 候选样本的不确定性通过衡量其与分类器的margin来表示,比如SVM
考虑uncertainty和diversity,用到的工具有SVM、kernel k means、SOM神经网络等

半监督学习

结合主动学习的方法,主动学习选择信息量最大的样本交给人类专家进行标记,剩余未标记的数据由分类器分类。但以往方法更多关注分类器,也就是判别(discriminative)信息,忽视了代表representative信息。本文方式就可以挖掘到未标记样本的代表信息。

本文方法

记总样本集为D,已知标签的样本集为L,未知的为U(主动学习的candidate pool)。U中的一些样本可以被分给伪标签来改进训练模型,记为T,剩余的不能分配给伪标签的记为S。

A. 主动学习的query function

query function是主动学习的关键,其选择最具信息量的样本交给人类专家做标记。本文提出的DRDbSSAL方法采用了MCLU这种衡量的方法,multiclass level uncertainty。
binary SVM分类器,one-against-all结构,每个样本xU 到每个hyperplane的距离表示为{f1(x),f2(x),...,fn(x)}。有以下计算:
结合主动学习和半监督的高光谱分类
根据c(x)大小来选择样本。
这里的intuition是:

B. 代表信息的挖掘和验证

聚类,一种常用的无监督分类方法,可以用来挖掘未标记样本的数据结构或者代表信息。在DRDbSSAL中,因为有标记样本太有限,引入一种有监督的聚类方法。
首先将数据集D通过k均值聚类分为C个簇,即

D=D1D2...DC

每个簇不停地再划分
Di=PunlabeledPlabeled

方法示意图
结合主动学习和半监督的高光谱分类
不断聚类,目的是最终所有小的簇要不全是未标记的,要不就是只有一种标记的样本。
算法过程:
结合主动学习和半监督的高光谱分类
由于有标记的样本是非常有限的,因为有很大可能会剩下完全不包含有标记样本的簇,这时候放弃。只保留最终带有标记样本的簇。

C. 判别信息的挖掘和验证

首先使用SVM1训练已标记的样本,然后使用MCLU从U中选择h个包含最多信息的样本给人类专家标记,更新L 和 U。
再以L训练SVM 2,。基于两个分类结果,如果一个未标记样本的两次结果一样,有很大信息将其归类,记它的标签为伪标签。第二次迭代中训练SVM1 2就可以采用伪标签的信息了。

D. 方法流程图

结合主动学习和半监督的高光谱分类
结合主动学习和半监督的高光谱分类
数据集D分为L和U
T是带有伪标签的样本,初始T为空
S是不能被分配伪标签的样本,初始S=U
迭代过程:将数据D基于L的标签使用有监督的聚类得到结果Z1;使用L和T训练SVM1;从S中使用MCLU选择h个样本标记,更新L和U;将数据D再次以L使用有监督的聚类得到结果Z2;使用L训练SVM2。将U输入SVM1和2中得到结果V1 V2
更新T,包含三种情况,除去四个分类结果都不相同的。
Intuition: 两个SVM分类器结果及有监督的聚类方法结果,综合判定。结果Z表示了无标记样本的代表信息,结果V表示了判别信息。在一次迭代中包含了主动学习选取的h个样本,h标签加入前后的两次SVM分类结果如果不相同,但是分别与结果Z一致,仍可以为其分配伪标签。如果四次结果都不相同,那表示完全无法确定,留到下一次迭代。

实验与分析

数据集:BOT来自NASA;肯尼迪航空中心;Pavia大学;IndianP;
实验设计:60%作为训练样本,40%测试。首先每类样本中随机选择10个作为初始的标记后的数据,剩下的作为主动学习的候选样本。每次迭代新加入20个样本。
结果与分析:前三个数据集直到1000个样本被标记后停止,第四个直到2000个样本被标记后停止迭代。
T-test 学生检验

文献
A Novel Semisupervised Active-Learning Algorithm for Hyperspectral Image Classification, TGRS 2017
Zengmao Wang, Bo Du, Senior Member, IEEE, Lefei Zhang, Member, IEEE, Liangpei Zhang, Senior Member, IEEE, and Xiuping Jia, Senior Member, IEEE

相关文章:

猜你喜欢
相关资源
相似解决方案