(一) 距离的多种度量
距离给我们直观感觉是两点间的长度,因为这是我们日常生活接触最多的。但距离不止是两点间的长度。例如,上次奥运会是2016年,今次奥运会本应2020年(新冠原因推迟),这是时间上的距离。例如你在操场跑步,跑了两圈半1000米,但这不是两点的距离。还有儿时的伙伴,你们小时候无话不谈,但长大后,你发现你们之间好多观点和认知都不一样,你发现你们之间的距离越来越远了,这也是一种距离。
(二) 一维空间的距离
一维空间上的距离是两点间数值的差,例如:A和B两点的坐标为x1,x2,则
(三) 欧氏距离
又称欧几里得距离,空间内两点间的直线距离。二维空间上两点A(x1,y1),B(x2,y2),则两点间的距离为:
可以推广到n维空间:
P和Q是n维空间的两个点,,
(四) 曼哈顿距离
假设有个街区的街道是井字形状,我们从A点走到B点,肯定是沿着街道走的,红色,蓝色,黄色代表的就是曼哈顿距离。绿色代表的就是欧几里得距离,是两点间的最短距离。
A和B两点的坐标为A(x1,y1),B(x2,y2), 则两点的曼哈顿距离为
(五) 余弦距离
余弦距离是另一种测量距离的方法,从某种意义上说,它不是我们传统上说的距离,它是比较两个样本之间的夹角,夹角越小,相似度越高。余弦夹角来源于向量点积的几何意义。上篇文章说过,向量的点积等于向量的模长乘以它们的夹角,即是:
如上图,夹角越小,a , b就越相似。
(六) 距离度量的作用
通常,我们将样本特征表示为向量的形式,通过分析这些向量的各种距离,可以判断样本的相似性。例如人脸识别,通常的做法是将人脸特征表示为128维的向量,然后计算两组向量的欧氏距离,来判断两组人脸数据是否为同一人。对于两段文本,可以使用词频或词向量作为特征,计算它们的余弦距离,可以判断这两段文本表述的内容是否相似。欧氏距离体现在数值上的绝对差异,余弦距离体现在方向上的相对差异。
下篇文章将会记述一下导数和梯度下降法。