机器学习_相似度度量页PPT文档
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习相似度概述
主要相似度算法
杰卡德相似系数 & 杰卡德距离
例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合, 1表示集合包含该元素,0表示集合不包含该元素。 p:样本A与B都是1的维度的个数 q:样本A是1而B是0的维度的个数 r:样本A是0而B是1的维度的个数 s:样本A与B都是0的维度的个数 那么样本A与B的杰卡德相似系数可以表示为:
主要相似度算法
加权欧式距离
加权欧式距离:在距离计算时,考虑各项具有不同的权 重。公式如下:
机器学习相似度概述
主要相似度算法
曼哈顿距离
曼哈顿距离,也称为城市街区距离,是一种使用 在几何度量空间的几何学用语,用以标明两个点在标准 坐标系上的绝对轴距总和:
X(2,4),Y(1,6) dist(X,Y)=|2-1|+|4-6|=3
马氏距离
汉明距离来自百度文库
夹角余弦
杰卡德距离 & 杰卡德相似系数
机器学习相似度概述
主要相似度算法
欧式距离
欧氏距离( Euclidean distance)也称欧几里得距离, 它是一个通常采用的距离定义,它是在m维空间中两个 点之间的真实距离。
也可以用表示成向量运算的形式:
机器学习相似度概述
主要相似度算法
标准欧式距离
主要相似度算法
切比雪夫距离
切比雪夫距离是由一致范数(或称为上确界范数) 所衍生的度量,也是超凸度量的一种。在数学中,切比 雪夫距离(L∞度量)是向量空间中的一种度量,二个点 之间的距离定义是其各坐标数值差的最大值。
X(2,4),Y(1,6) dist(X,Y)=max{|2-1|,|4-6|}=2 机器学习相似度概述
对数据记录和总结中常用到聚类算法。聚类算法就 是按照对象间的相似性进行分组,因此如何描述对象间相 似性是聚类的重要问题。
机器学习相似度概述
相似度度量
相似度度量
刻画数据样本点之间的亲疏远近程度主要有以下两 类函数:
(1)相似系数函数:两个样本点愈相似,则相似 系数值愈接近1;样本点愈不相似,则相似系数值愈接近0。 这样就可以使用相似系数值来刻画样本点性质的相似性。
主要相似度算法
马氏距离
表示数据的协方差距离。它是一种有效的计算两 个未知样本集的相似度的方法。与欧式距离不同的是它 考虑到各种特性之间的联系(例如:一条关于身高的信 息会带来一条关于体重的信息,因为两者是有关联的) 并且是尺度无关的),即独立于测量尺度。
C为X,Y的协方差矩阵,如果协方差矩阵为单位矩阵,那 么马氏距离就简化为欧式距离,如果协方差矩阵为对角 阵,则其也可称为正规化的欧氏距离。
机器学习相似度概述
主要相似度算法
调整余弦相似度
余弦相似度更多的是从方向上区分差异,而对绝 对的数值不敏感,因此没法衡量每个维度上数值的差异。 需要修正这种不合理性,就出现了调整余弦相似度,即 所有维度上的数值都减去一个均值。 用户对内容评分,按5分制,X和Y两个用户对两个内容 的评分分别为(1,2)和(4,5),使用余弦相似度得到 的结果是0.98,两者极为相似。但从评分上看X似乎不 喜欢两个这个内容,而Y则比较喜欢。比如X和Y的评分 均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦 相似度计算,得到-0.8,相似度为负值并且差异不小, 但显然更加符合现实。
(2)距离函数:可以把每个样本点看作高维空间 中的一个点,进而使用某种距离来表示样本点之间的相似 性,距离较近的样本点性质较相似,距离较远的样本点则 差异较大。
机器学习相似度概述
主要相似度算法
机器学习相似度概述
主要相似度算法
主要相似度算法
欧氏距离
标准化欧氏距离
闵可夫斯基距离
曼哈顿距离
切比雪夫距离
13计算机技术
Xxx xxxxxxxx
目录
相似性度量 主要相似度度量算法
度量学习 流形学习
部分算法实践 机器学习相似度概述
相似性度量
机器学习相似度概述
相似度度量
相似度度量
机器学习的目的就是让机器具有类似于人类的学习、 认识、理解事物的能力。计算机对大量的数据记录进行归 纳和总结,发现数据中潜在的规律,给人们的生活带来便 利。
机器学习相似度概述
主要相似度算法
汉明距离
两个等长字符串s1与s2之间的汉明距离定义为将 其中一个变为另外一个所需要作的最小替换次数。例如 字符串“1111”与“1001”之间的汉明距离为2。汉明 距离就是表示X,Y取值不同的分量数目。
只适用分量只取-1或1的情况。
机器学习相似度概述
主要相似度算法
杰卡德相似系数 & 杰卡德距离
卡德距离:是与杰卡德相似系数相反的概念,杰 卡德距离用两个集合中不同元素占所有元素的比例来衡 量两个集合的区分度。杰卡德距离可用如下公式表示:
杰卡德相似系数: 两个集合A和B的交集元素在A,B的 并集中所占的比例,称为两个集合的杰卡德相似系数, 用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的 相似度一种指标。
机器学习相似度概述
主要相似度算法
闵可夫斯基距离
闵可夫斯基距离(闵氏距离)不是一种距离,而 是一组距离的定义。闵氏距离是欧氏距离的推广,是对 多个距离度量公式的概括性的表述。公式如下:
其中p是一个变参数。 当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离; 当p→∞时,就是切比雪夫距离。 根据变参数的不同,闵氏距离可以表示一类的距离 机器学习相似度概述
由于特征向量的各分量的量纲不一致(比如说身高和体 重),通常需要先对各分量进行标准化,使其与单位无 关。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为: (160cm,60kg) (170cm,50kg) 标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差 机器学习相似度概述
此处分母之所以不加s的原因在于: 对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二 元变量。非对称的意思是指状态的两个输出不是同等重要的。
机器学习相似度概述
主要相似度算法
余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值 作为衡量两个个体间差异的大小。相比距离度量,余弦 相似度更加注重两个向量在方向上的差异,而非距离或 长度上。
主要相似度算法
杰卡德相似系数 & 杰卡德距离
例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合, 1表示集合包含该元素,0表示集合不包含该元素。 p:样本A与B都是1的维度的个数 q:样本A是1而B是0的维度的个数 r:样本A是0而B是1的维度的个数 s:样本A与B都是0的维度的个数 那么样本A与B的杰卡德相似系数可以表示为:
主要相似度算法
加权欧式距离
加权欧式距离:在距离计算时,考虑各项具有不同的权 重。公式如下:
机器学习相似度概述
主要相似度算法
曼哈顿距离
曼哈顿距离,也称为城市街区距离,是一种使用 在几何度量空间的几何学用语,用以标明两个点在标准 坐标系上的绝对轴距总和:
X(2,4),Y(1,6) dist(X,Y)=|2-1|+|4-6|=3
马氏距离
汉明距离来自百度文库
夹角余弦
杰卡德距离 & 杰卡德相似系数
机器学习相似度概述
主要相似度算法
欧式距离
欧氏距离( Euclidean distance)也称欧几里得距离, 它是一个通常采用的距离定义,它是在m维空间中两个 点之间的真实距离。
也可以用表示成向量运算的形式:
机器学习相似度概述
主要相似度算法
标准欧式距离
主要相似度算法
切比雪夫距离
切比雪夫距离是由一致范数(或称为上确界范数) 所衍生的度量,也是超凸度量的一种。在数学中,切比 雪夫距离(L∞度量)是向量空间中的一种度量,二个点 之间的距离定义是其各坐标数值差的最大值。
X(2,4),Y(1,6) dist(X,Y)=max{|2-1|,|4-6|}=2 机器学习相似度概述
对数据记录和总结中常用到聚类算法。聚类算法就 是按照对象间的相似性进行分组,因此如何描述对象间相 似性是聚类的重要问题。
机器学习相似度概述
相似度度量
相似度度量
刻画数据样本点之间的亲疏远近程度主要有以下两 类函数:
(1)相似系数函数:两个样本点愈相似,则相似 系数值愈接近1;样本点愈不相似,则相似系数值愈接近0。 这样就可以使用相似系数值来刻画样本点性质的相似性。
主要相似度算法
马氏距离
表示数据的协方差距离。它是一种有效的计算两 个未知样本集的相似度的方法。与欧式距离不同的是它 考虑到各种特性之间的联系(例如:一条关于身高的信 息会带来一条关于体重的信息,因为两者是有关联的) 并且是尺度无关的),即独立于测量尺度。
C为X,Y的协方差矩阵,如果协方差矩阵为单位矩阵,那 么马氏距离就简化为欧式距离,如果协方差矩阵为对角 阵,则其也可称为正规化的欧氏距离。
机器学习相似度概述
主要相似度算法
调整余弦相似度
余弦相似度更多的是从方向上区分差异,而对绝 对的数值不敏感,因此没法衡量每个维度上数值的差异。 需要修正这种不合理性,就出现了调整余弦相似度,即 所有维度上的数值都减去一个均值。 用户对内容评分,按5分制,X和Y两个用户对两个内容 的评分分别为(1,2)和(4,5),使用余弦相似度得到 的结果是0.98,两者极为相似。但从评分上看X似乎不 喜欢两个这个内容,而Y则比较喜欢。比如X和Y的评分 均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦 相似度计算,得到-0.8,相似度为负值并且差异不小, 但显然更加符合现实。
(2)距离函数:可以把每个样本点看作高维空间 中的一个点,进而使用某种距离来表示样本点之间的相似 性,距离较近的样本点性质较相似,距离较远的样本点则 差异较大。
机器学习相似度概述
主要相似度算法
机器学习相似度概述
主要相似度算法
主要相似度算法
欧氏距离
标准化欧氏距离
闵可夫斯基距离
曼哈顿距离
切比雪夫距离
13计算机技术
Xxx xxxxxxxx
目录
相似性度量 主要相似度度量算法
度量学习 流形学习
部分算法实践 机器学习相似度概述
相似性度量
机器学习相似度概述
相似度度量
相似度度量
机器学习的目的就是让机器具有类似于人类的学习、 认识、理解事物的能力。计算机对大量的数据记录进行归 纳和总结,发现数据中潜在的规律,给人们的生活带来便 利。
机器学习相似度概述
主要相似度算法
汉明距离
两个等长字符串s1与s2之间的汉明距离定义为将 其中一个变为另外一个所需要作的最小替换次数。例如 字符串“1111”与“1001”之间的汉明距离为2。汉明 距离就是表示X,Y取值不同的分量数目。
只适用分量只取-1或1的情况。
机器学习相似度概述
主要相似度算法
杰卡德相似系数 & 杰卡德距离
卡德距离:是与杰卡德相似系数相反的概念,杰 卡德距离用两个集合中不同元素占所有元素的比例来衡 量两个集合的区分度。杰卡德距离可用如下公式表示:
杰卡德相似系数: 两个集合A和B的交集元素在A,B的 并集中所占的比例,称为两个集合的杰卡德相似系数, 用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的 相似度一种指标。
机器学习相似度概述
主要相似度算法
闵可夫斯基距离
闵可夫斯基距离(闵氏距离)不是一种距离,而 是一组距离的定义。闵氏距离是欧氏距离的推广,是对 多个距离度量公式的概括性的表述。公式如下:
其中p是一个变参数。 当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离; 当p→∞时,就是切比雪夫距离。 根据变参数的不同,闵氏距离可以表示一类的距离 机器学习相似度概述
由于特征向量的各分量的量纲不一致(比如说身高和体 重),通常需要先对各分量进行标准化,使其与单位无 关。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,那么X的“标准化变量”表示为: (160cm,60kg) (170cm,50kg) 标准化后的值 = ( 标准化前的值 - 分量的均值 ) /分量的标准差 机器学习相似度概述
此处分母之所以不加s的原因在于: 对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二 元变量。非对称的意思是指状态的两个输出不是同等重要的。
机器学习相似度概述
主要相似度算法
余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值 作为衡量两个个体间差异的大小。相比距离度量,余弦 相似度更加注重两个向量在方向上的差异,而非距离或 长度上。