我们通常输入输出都是vector,但是实际是更加困难的。更复杂的是输入输出是objec t。
输入输出的例子:
结构化学习的统一框架,trian和test过程:trian过程:x数据,y是标签。R值越大代表越相似,test过程:输入x穷举所有y看看哪个与输入x最相似,就是R值最大的。之后输出预测结果y。
object detection task是给一张照片让机器寻找我们要找的object,input image output bounding box 。
找图片中女生的位置圈出来。红色框就是bounding box。
这是train的时候:输入不同的照片进行train,具体的object detection例子:输入与输出的表示。F(x,y)代表分数。越高圈的越对。
test的时候:输入从来没有看到过一张照片,穷举所有可能的bounding box,看得到的分数,分数最高的F(x,y)之后model output y即bounding box。
task为Summarization :输入long document;输出summary;
trian时:和正确的summary配成一对时值就很大,和不正确配成一对时值就很小;test时:穷举所有可能的summary,看哪个summary使你的F()最大,那就是model的output;
检索 Retrieval:输入时关键字,输出是网页列表;
train时:要让机器知道输入奥巴马输出应该是这个list,输入其他关键字应该是另一个列表,输入正确F()值就大错误就小;test时:输入一个关键字,穷举所有list看看哪个分数最高,最高的就是model的output。
统计学:统一框架转化为P()概率,train时:一起出现的概率在0,1之间;test时:输入x找一起出现概率最高的y;作为model的output。
解释上边的统计学:解释概率方法的缺陷:概率不能够解释一切。解释概率方法的优点:容易理解统一框架的F()长什么样,在不同的task中。如下图所示。
解决argmax问题Y空间是非常大的,穷举的时候做得到吗?
在训练的时候,正确的F(x,y)是否可以大于其他的值,
structure learning解决的三个问题。
还在哪里听到过这三个问题如下图。
与DNN的联系,之前讲的东西是structure learning的特殊例子,DNN的cross entropy(loss function)就是structure learning的F()。在classification时y只有几类太少了,可以穷举的,找max就是穷举的行为。与之前的讲的完美结合。获取以上文本PPT请点击这里
相关文章: