机器学习中距离和相似度度量专业知识讲座
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
列
行
标准化:对不同特征维度的伸缩变换的目的是使得不同度量之间 的特征具有可比性。同时不改变原始数据的分布。 特点:1、保持各个特征维度对目标函数的影响权重
2、对目标函数的影响体现在几何分布上 3、在已有样本足够多的情况下比较稳定。 归一化(区间缩放):基于边界值(最大值,最小值),将值的 区间缩放到某个特点的范围,如[0,1] 特点:1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影 响权重是一致的) 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式 。
性的不同,可以采用不同的度量方法。
一般而言,定义一个距离函数 d(x,y), 需要满足下面几个
基本准则:
1) d(x,x) = 0
// 到自己的距离为0
2) d(x,y) >= 0
// 距离非负
3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是a,那么
B 到 A 的距离也应该是 a
4) d(x,k)+ d(k,y) >= d(x,y)
// 三角形法则: (两边之和 大于第三边)
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
欧式距离 当之处,请联系本人或网站删除。
即:所有点的对应维度之差的 平方的求和再开方。 欧式距离相似度算法需要保证 各个维度指标在相同的刻度级 别,比如对身高、体重两个单 位不同的指标使用欧氏距离可 能使结果失效。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不 当之处,请联系本人或网站删除。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
在机器学习和数据当挖之掘处中,,请联我系们本经人常或需网站要删知除道。个体间差 异的大小,进而评价个体的相似性和类别。根据数据特
余弦相似度当之处,请联系本人或网站删除。
两个向量越相似,向量夹 角越小,余弦值的绝对值 越大;值为负,两向量负 相关。
应用:文本的相似度和推 荐系统等。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
举个简单栗子: 当之处,请联系本人或网站删除。
句子A:这只皮靴号码大了。那只号码合适 句子B:这只皮靴号码不小,那只更合适 怎样计算上面两句话的相似程度? 基本思路:如果这两句话的用词越相似,它们的内容就 应该越相似。因此,可以从词频入手,计算它们的相似 程度。 第一步,分词。 句子A:这只/皮靴/号码/大了。那只/号码/合适。 句子B:这只/皮靴/号码/不/小,那只/更/合适。 第二步,列出所有的词。 这只,皮靴,号码,大了。那只,合适,不,小,很
d
kn 1x1kskx2k2
n k1
x1kx2k sk2
2
如果将方差的倒数看成是一个权重,这个公式可以看成是 一种加权欧氏距离(Weighted Euclidean distance)。
本使文不档同所规提格供的的信数息据仅转当供换之参处考到,之同请用一联,规系不格能本作人为或科网学站依删据除,。请勿模仿。文档如有不
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
曼哈顿距离当之处,请联系本人或网站删除。
曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行 求和后的结果
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
切比雪夫距当之离处,请联系本人或网站删除。
切比雪夫距离(Chebyshev distance)是向量空间中的一种 度量,二个点之间的距离定义 为其各坐标数值差的最大值。 从一个位置走到其他位置需要 的步数恰为二个位置的切比雪 夫距离,因此切比雪夫距离也 称为棋盘距离。
马式距离 本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不 当之处,请联系本人或网站删除。
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布), 则公式就成了:
则Xi与Xj之间的马氏距离等于他们的欧氏距离。 即:若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
标准化欧氏距离是在假设数据各 个维度不相关的情况下,利用数 据分布的特性计算出不同的距离。 如果维度相互之间数据相关(例 如:身高较高的信息很有可能会 带来体重较重的信息,因为两者 是有关联的),就要用到马氏距 离
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
闵可夫斯基当距之处离,请联系本人或网站删除。
闵可夫斯基距离(Minkowski distance)不是一种距离, 而是一组距离的定义。
1
n
x1k x2k p p
k1
该距离最常用的 p 是 2 和 1, 无穷大 •P=2是欧几里得距离(Euclidean distance), •P=1是曼哈顿距离(Manhattan distance)。 •当 p 趋近于无穷大时,闵可夫斯基距离转化成切比雪 夫距离(Chebyshev distance)
简单说来,闵氏距离的缺点主要有两个: 1. 将各个分量的量纲(scale),也就是“单位”当作相 同的看待了。 2. 没有考虑各个分量的分布(期望,方差等)可能是不 同的。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
标准化欧氏当距之处离,请联系本人或网站删除。
引入标准化欧式距离的原因是一个数据xi的各个维度之间 的尺度不一样。 比如v1=(100,10,30),v2 = (500,40,10)。对所有维度分别 进行处理,使得各个维度分别满足标准正态分布。 即
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不 当之处,请联系本人或网站删除。
相似度度量
相似度度量(Similarity),即计算个体间的相似程度, 与距离度量相反,相似度度量的值越小,说明个体间 相似度越小,差异越大。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
百度文库
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
缺点:
当之处,请联系本人或网站删除。
举个栗子
二维样本(身高,体重),其中身高范围是150~190,体 重范围是50~60,有三个样本:a(180,50),b(190,50), c(180,60)。 那么a与b之间的闵氏距离(无论是曼哈顿距离、欧氏 距离或切比雪夫距离)等于a与c之间的闵氏距离, 但是身高的10cm等价于体重的10kg吗? 因此用闵氏距离来衡量这些样本间的相似度有问题。
行
标准化:对不同特征维度的伸缩变换的目的是使得不同度量之间 的特征具有可比性。同时不改变原始数据的分布。 特点:1、保持各个特征维度对目标函数的影响权重
2、对目标函数的影响体现在几何分布上 3、在已有样本足够多的情况下比较稳定。 归一化(区间缩放):基于边界值(最大值,最小值),将值的 区间缩放到某个特点的范围,如[0,1] 特点:1、对不同特征维度进行伸缩变换 2、改变原始数据的分布。使各个特征维度对目标函数的影 响权重是一致的) 3、对目标函数的影响体现在数值上 4、把有量纲表达式变为无量纲表达式 。
性的不同,可以采用不同的度量方法。
一般而言,定义一个距离函数 d(x,y), 需要满足下面几个
基本准则:
1) d(x,x) = 0
// 到自己的距离为0
2) d(x,y) >= 0
// 距离非负
3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是a,那么
B 到 A 的距离也应该是 a
4) d(x,k)+ d(k,y) >= d(x,y)
// 三角形法则: (两边之和 大于第三边)
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
欧式距离 当之处,请联系本人或网站删除。
即:所有点的对应维度之差的 平方的求和再开方。 欧式距离相似度算法需要保证 各个维度指标在相同的刻度级 别,比如对身高、体重两个单 位不同的指标使用欧氏距离可 能使结果失效。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不 当之处,请联系本人或网站删除。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
在机器学习和数据当挖之掘处中,,请联我系们本经人常或需网站要删知除道。个体间差 异的大小,进而评价个体的相似性和类别。根据数据特
余弦相似度当之处,请联系本人或网站删除。
两个向量越相似,向量夹 角越小,余弦值的绝对值 越大;值为负,两向量负 相关。
应用:文本的相似度和推 荐系统等。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
举个简单栗子: 当之处,请联系本人或网站删除。
句子A:这只皮靴号码大了。那只号码合适 句子B:这只皮靴号码不小,那只更合适 怎样计算上面两句话的相似程度? 基本思路:如果这两句话的用词越相似,它们的内容就 应该越相似。因此,可以从词频入手,计算它们的相似 程度。 第一步,分词。 句子A:这只/皮靴/号码/大了。那只/号码/合适。 句子B:这只/皮靴/号码/不/小,那只/更/合适。 第二步,列出所有的词。 这只,皮靴,号码,大了。那只,合适,不,小,很
d
kn 1x1kskx2k2
n k1
x1kx2k sk2
2
如果将方差的倒数看成是一个权重,这个公式可以看成是 一种加权欧氏距离(Weighted Euclidean distance)。
本使文不档同所规提格供的的信数息据仅转当供换之参处考到,之同请用一联,规系不格能本作人为或科网学站依删据除,。请勿模仿。文档如有不
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
曼哈顿距离当之处,请联系本人或网站删除。
曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行 求和后的结果
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
切比雪夫距当之离处,请联系本人或网站删除。
切比雪夫距离(Chebyshev distance)是向量空间中的一种 度量,二个点之间的距离定义 为其各坐标数值差的最大值。 从一个位置走到其他位置需要 的步数恰为二个位置的切比雪 夫距离,因此切比雪夫距离也 称为棋盘距离。
马式距离 本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不 当之处,请联系本人或网站删除。
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布), 则公式就成了:
则Xi与Xj之间的马氏距离等于他们的欧氏距离。 即:若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
标准化欧氏距离是在假设数据各 个维度不相关的情况下,利用数 据分布的特性计算出不同的距离。 如果维度相互之间数据相关(例 如:身高较高的信息很有可能会 带来体重较重的信息,因为两者 是有关联的),就要用到马氏距 离
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
闵可夫斯基当距之处离,请联系本人或网站删除。
闵可夫斯基距离(Minkowski distance)不是一种距离, 而是一组距离的定义。
1
n
x1k x2k p p
k1
该距离最常用的 p 是 2 和 1, 无穷大 •P=2是欧几里得距离(Euclidean distance), •P=1是曼哈顿距离(Manhattan distance)。 •当 p 趋近于无穷大时,闵可夫斯基距离转化成切比雪 夫距离(Chebyshev distance)
简单说来,闵氏距离的缺点主要有两个: 1. 将各个分量的量纲(scale),也就是“单位”当作相 同的看待了。 2. 没有考虑各个分量的分布(期望,方差等)可能是不 同的。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
标准化欧氏当距之处离,请联系本人或网站删除。
引入标准化欧式距离的原因是一个数据xi的各个维度之间 的尺度不一样。 比如v1=(100,10,30),v2 = (500,40,10)。对所有维度分别 进行处理,使得各个维度分别满足标准正态分布。 即
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不 当之处,请联系本人或网站删除。
相似度度量
相似度度量(Similarity),即计算个体间的相似程度, 与距离度量相反,相似度度量的值越小,说明个体间 相似度越小,差异越大。
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
百度文库
本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿。文档如有不
缺点:
当之处,请联系本人或网站删除。
举个栗子
二维样本(身高,体重),其中身高范围是150~190,体 重范围是50~60,有三个样本:a(180,50),b(190,50), c(180,60)。 那么a与b之间的闵氏距离(无论是曼哈顿距离、欧氏 距离或切比雪夫距离)等于a与c之间的闵氏距离, 但是身高的10cm等价于体重的10kg吗? 因此用闵氏距离来衡量这些样本间的相似度有问题。