常用距离度量方法总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

常⽤距离度量⽅法总结
常⽤距离度量⽅法总结
⼀、总结
⼀句话总结:
1、欧⽒距离
2、马⽒距离
3、曼哈顿距离
4、闵可夫斯基距离
5、汉明距离
6、杰卡德相关系数
7、余弦相似度
8、切⽐雪夫距离
9、⽪尔逊相关系数
1、曼哈顿距离(Manhattan)?
> 表⽰两个点在标准坐标系上的【绝对轴距之和】,两点在南北⽅向上的距离加上在东西⽅向上的距离,即【d(i,j)=|xi-xj|+|yi-yj|】。

2、汉明距离?
> 汉明距离是⼀个概念,它表⽰【两个(相同长度)字对应位不同的数量】,⽐如:【1011101 与 1001001 之间的汉明距离是 2】
3、余弦相似度(cosine similarity)?
> ⽤向量空间中【两个向量夹⾓的余弦值】作为衡量两个个体间差异的⼤⼩。

4、切⽐雪夫距离(Chebyshev distance)?
> 切⽐雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的⼀种度量,⼆个点之间的距离定义为【其各座标数值差的最⼤值】。

设平⾯空间内存在两点,它们的坐标为(x1,y1),(x2,y2),则【dis=max(|x1−x2|,|y1−y2|)】,即【两点横纵坐标差的最⼤值】
⼆、常⽤距离度量⽅法⼤全
转⾃或参考:常⽤距离度量⽅法⼤全
https:///jimchen1218/p/11504545.html
有时候,我们需要度量两个向量之间的距离来决定他们的归属。

接下来列举⼀些常⽤的距离度量⽅法
1、欧⽒距离
2、马⽒距离
3、曼哈顿距离
4、闵可夫斯基距离
5、汉明距离
6、杰卡德相关系数
7、余弦相似度
8、切⽐雪夫距离
9、⽪尔逊相关系数
1、欧⽒距离:也叫欧⼏⾥得距离
两点之间或多点之间的距离表⽰法
⼆维空间的公式:
其中,
为点与点之间的欧⽒距离;为点到原点的欧⽒距离。

n维空间的公式:
其实就是应⽤勾股定理计算两个点的直线距离,它会受指标不同单位刻度影响,所以,在使⽤前⼀般要先标准化,距离越⼤,个体间差异越⼤改进⽅法1:
标准化欧⽒距离:针对各分量分布不⼀致,将各分量都标准化到均值,⽅差相等
标准化后值:(标准化前的值-分量的均值)/分量标准差
改进⽅法2:
2、马⽒距离(Mahalanobis):表⽰点与分布之间的距离,考虑到各种特性之间的联系,且尺度⽆关。

⽅差:⽅差是标准差的平⽅,标准差的意义是数据集中各个点到均值点距离的平均值,描述的是数据的离散程度。

协⽅差:标准差和⽅差是描述⼀维数据的,当存在多维数据时,需要知道每个维度之间的变量中间是否关联。

协⽅差是衡量多维数据集中,变量之间相关性的统计量。

⽐如:⼀个⼈的⾝⾼和体重的关系,就需要⽤协⽅差来衡量。

协⽅差矩阵:当变量超过两个,就需要使⽤协⽅差矩阵来衡量相关性。

ui是第i个元素的期望值,µi=E(Xi)。

协⽅差矩阵的第i,j项(第i,j 项是⼀个协⽅差)被定义为如下形式:
马⽒距离:马⽒距离(Mahalanobis)是由马哈拉诺⽐斯(P. C. Mahalanobis)提出的,表⽰数据的协⽅差距离。

与欧⽒距离不同的是它考虑到各种特性之间的联系。

对于均值为µ=(µ1,µ2,µ3,...,µp)T,协⽅差为Σ的多变量向量x=(x1,x2,x3,...,xp)T,
,马⽒距离为sqrt((x-µ)Σ^(-1)(x-µ))
如果S^(-1)是单位阵的时候,马⽒距离简化为欧⽒距离.
3、曼哈顿距离(Manhattan)
表⽰两个点在标准坐标系上的绝对轴距之和
图中红线代表曼哈顿距离,绿⾊代表,也就是,⽽蓝⾊和黄⾊代表等价的曼哈顿距离。

距离——两点在南北⽅向上的距离加上在东西⽅向上的距离,即d(i,j)=|xi-xj|+|yi-yj|。

4、闵可夫斯基距离
闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的⼀种⾮常常见的⽅法,假设数值点 P 和 Q 坐标如下:
那么,闵可夫斯基距离定义为:
当 p 趋近于⽆穷⼤时,闵可夫斯基距离转化成切⽐雪夫距离(Chebyshev distance):
5、汉明距离(Hammi)
汉明距离是⼀个概念,它表⽰两个(相同长度)字对应位不同的数量
⽐如:1011101 与 1001001 之间的汉明距离是 2
6、杰卡德相关系数
杰卡德相似系数是衡量两个集合相似度的⼀种指标
主要⽤于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此⽆法衡量差异具体值的⼤⼩,只能获得“是否相同”这个结果,所以Jaccard系数只关⼼个体间共同具有的特征是否⼀致这个问题。

7、余弦相似度(cosine similarity)
⽤向量空间中两个向量夹⾓的余弦值作为衡量两个个体间差异的⼤⼩。

cosine distance = 1 - cosine similarity
cos(seta) = (a^2+b^2-c^2)/(2ab)

cos(seta) =(a*b)/(||a||x||b||)

(x1,y1)*(x2,y2)/sqrt(x1^2+y1^2)xsqrt(x2^2+y2^2)
==
(x1x2,+y1y2)/sqrt(x1^2+y1^2)xsqrt(x2^2+y2^2)
余弦相似度的夹⾓相似度度量不会受指标刻度影响,余弦值在区间【-1,1】,值越⼤,越相似。

8、切⽐雪夫距离(Chebyshev distance)
切⽐雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的⼀种度量,⼆个点之间的距离定义为其各座标数值差的最⼤值。

设平⾯空间内存在两点,它们的坐标为(x1,y1),(x2,y2)
则dis=max(|x1−x2|,|y1−y2|)
即两点横纵坐标差的最⼤值
9、⽪尔逊相关系数
如果⽐较X与Y的Jaccard相似系数,只⽐较xn和yn中相同的个数,公式如下:
如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3;
相关系数的分类:
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或⽆相关。

相关文档
最新文档