距离与相似度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
匹配测度
其它匹配距离定义方法 Rao测度
p t
Kulzinsky系数
p q+r
2 (p + s ) 2 (p + s )+ q + r
p p + 2 (q + r ) p+s p + s + 2 (q + r )
等等
相似度量
余弦相似度函数
X TY S ( X ,Y ) = X *Y
该函数反映了两个向量之间夹角的余弦值,对 放大和缩小相对变换无影响。一般在使用前需 要对个元素进行无量纲化处理。
几种距离定义
明可夫斯基距离 公式:
m n DM ' ( xi , yi ) = ∑ xik y kj k =1 1 m
总结:L-p范数空间的距离定义,m=2:欧式距 离相等,m=1:曼哈顿距离,m为无穷大:切 比雪夫距离
几种距离定义
曼哈顿距离
D ( x, y ) = ( ∑ xk y k )
相似度量
指数相关系数
3 ( xi y i )2 1 n e ( X , Y ) = ∑ exp 4 n i =1 σ i2
σ i2 为相应分量的协方差,n为矢量维数,不受
量纲变化的影响
相似度量
Tanimoto测度
X TY ST ( X , Y ) = T = T T X X +Y Y X Y X X, Y中共有的特征 = X,Y占有特征总数 X TY
相似度量
皮尔逊相关系数(Pearson correlation coefficient)
S ( X ,Y ) = = cov ( X , Y )
E X X Y Y E X X
[(
[(
σ Xσ Y
=
E X X Y Y
[(
) ]E [(Y Y ) ]
2 2
)(
)]
σ Xσ Y
)(
)]
相关系数是中心化的夹角余弦
几种距离定义
欧几里德距离 定义点
X ( x1 , x2 ,..., xn )
Y(y1 , y 2 ,..., y n )
DE ( X , Y ) = ( x1 y1 ) 2 + ( x2 y 2 ) 2 + ... + ( xn y n ) 2 =
∑ (x
i =1
i
- yi )2
总结:X与Y的距离实质是(X-Y)的模:,计 算该距离之前要标准化模式向量单位
i i
i
S ( X ,Y ) =
∑ min(x , y )
i i i
i
∑ min(x , y ) S ( X ,Y ) = ∑ xy
i i i i i i
1 ∑ (xi + yi ) 2 i
容易证明,马氏距离对一切非奇异线性变换都 是不变的,这说明它不受特征量纲选择的影响。
匹配测度
特指二元向量的相似性测度 p:两个物体都为1的变量个数 q:i物体为1,j物体为0的变量个数 r:i物体为0,j物体为1的变量个数 s:两个物体都为0的变量个数 t:t=p+q+r+s,所有变量的个数
匹配测度
n k =1
切比雪夫距离
D ( x, y ) = max( xk y k )
Camberra距离(Lance距离,Williams距离)
D ( x, y ) = ( ∑
k =1 n
xk y k xk + y k
)
几种距离定义
Jffreys&Matusita距离
D ( x, y ) = ∑ k =1
简单匹配距离
D(i, j ) = q+r t p+s t
对应的相似度函数
S (i, j ) =
Jaccard系数(Tanimoto系数)
S (i, j ) = p p+q+r
匹配测度
Dice系数
p S (i, j ) = 2p + q + r
匹配测度
汉明距离
D (i, j ) = q + r
定义:汉明距离用于信息论中,它对应的是两个等长 的字符串在相同位置上不同字符的个数。汉明重量是 指一个字符串相对于与它等长的零字符串的汉明距离。 汉明距离是在信息误差检测和矫正码领域提出来的。 信号距离:在数据传输过程中信号数据位发生翻转的 次数; 编辑距离(Levenshtein):两个字符之间有一个转成 另一个所用的最少的编辑操作次数,操作包括:替换、 插入、删除一个字符
距离与相似度
——窦则胜
介绍
测度空间定义 几种距离测度定义 匹配测度 相似度量
测度空间
d(x, y) ≥ 0 (非负性) d(x, y) = 0 当且仅当 x = y (不可区分者 的同一性) d(x, y) = d(y, x) (对称性) d(x, z) ≤ d(x, y) + d(y, z) (三角不等式)
相似度量
直方图间的相似性
1 n ( X k Yk ) 2 χ ( X ,Y ) = ∑ 2 k =1 X k + Yk
2
χ 2 距离是最常用的直方图之间的距离。
相似度量
当各特征值非负时,还可见到下列几种相似系 数。 ∑ min(xi , yi )
S ( X ,Y ) =
∑ max(x , y )
n
(
xk y k
)
2
1/ 2
几种距离定义
马氏距离(Mahalanobis) 定义多变量向量,其均值为,协方差矩阵为
DM ( X ) = ( X M )T ∑ 1 ( X M )
定义服从同一分布,且协方差矩阵为的随机变 量,则 X , Y 差异度:
DM ( X ) = ( X Y ) T ∑ 1 ( X Y )
2
+Y
2
X TY
Tanimoto测度两个模式的共有特征和共占有特 征的比。广义Jaccard系数,在二元属性下归约 为Jaccard系数。
相似度量
广义Dice系数法
S ( X ,Y ) = 2 X TY X
2
+Y
2
Dice系数的广义应用推广,与夹角余弦有相似之 处,分母分别是两个向量长度的算术平均值与几 何平均值。