欧氏距离

欧氏距离(Euclidean Distance)是常用的计算样本点之间距离的工具,即在欧几里得空间里,两点之间的距离。例如$x=(x_1,..,x_n)$, $y=(y_1,...,y_n)$,那么它们之间的距离为:

$$ \begin{align} d(x,y)&=\sqrt{(x_1-y_1)^2+(x_2-y_2)^2+..+(x_n-y_n)^2}\\ &=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \end{align} $$

马氏距离

马氏距离(Mahalanobis distance)点与一个分布之间的距离。马氏距离会它考虑到各种特性之间的联系。

介绍马氏距离前,需要先了解方差、协方差和协方差矩阵。

  • 方差:标准差的平方即数据集各个点到均值的平均值,代表数据的离散程度
  • 协方差:标准差和方差是一维的,当数据的维度是多为,通常需要知道每个维度的变量之间是否存在关联。协方差就是衡量多维数据集中,变量之间相关性的统计量。即第$i$个变量和第$j$个变量的相关性
  • 协方差矩阵:假设,数据集$X=(X_1,X_2,...,X_n)^T$有$N$个样本,每个样本有$n$维特征,$X_i$是全部样本的第$i$个特征的数据。

那么协方差矩阵的第$i$行第$j$列就等于:

$$ c_{ij}=cov(X_i,X_j),i,j=1,2,...,n $$

其中$cov(X_i,X_j)=E[X_i-E(X_j)]E[X_j-E(X_i)]$

可以看到,第$c_{ij}=c_{ji}$。

对于一个均值$\mu$,协方差矩阵为$\Sigma$,样本$x$与均值$\mu$之间的马氏距离为:

$$ (x-\mu)^T\Sigma^{-1}(x-\mu) $$

当协方差矩阵$\Sigma$是一个单位矩阵时,那么马氏距离就是欧式距离了。

最后修改:2021 年 06 月 01 日 02 : 06 PM
如果觉得我的文章对你有用,请随意赞赏