Bregman散度-参考

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.4.52.4.5 邻近性度量的例子邻近性度量的例子（（2）
如图2-16所示，余弦相似度实际上是x 和y 之间夹角（余弦）的度量。

这样，如果余弦相似度为1，则x 和y 之间夹角为0 ，并且除大小（长度）之外，x 和y 是相同的；如果余弦相似度为0，则x 和y 之间夹角为90 ，并且它们不包含任何相同的词（术语）。

图2-16 余弦度量的几何解释
公式（2-7）可以写成公式（2-8）的形式：
其中， = x / || x ||，而 = y / || y ||。

x 和y 被它们的长度除，将它们规范化成具有长度1。

这意味在计算相似度时，余弦相似度不考虑两个数据对象的量值。

（当量值是重要的时，欧几里得距离可能是一种更好的选择。

）对于长度为1的向量，余弦度量可以通过简单地取点积计算。

从而，在需要计算大量对象之间的余弦相似度时，将对象规范化，使之具有单位长度可以减少计算时间。

3. 3. 广义广义Jaccard 系数系数（（Tanimoto 系数系数））
广义Jaccard 系数可以用于文档数据，并在二元属性情况下归约为Jaccard 系数。

广义Jaccard 系数又称Tanimoto 系数。

（然而，还有一种系数也称Tanimoto 系数。

）该系数用EJ 表示，由下式定义：
4. 4. 相关性相关性
相关性
两个具有二元变量或连续变量的数据对象之间的相关性是对象属性之间线性联系的度量。

（更一般属性之间的相关性计算可以类似地定义。

）更准确地，两个数据对象x和y之间的皮尔森相关（Pearson's correlation）系数由下式定义：
这里我们使用标准的统计学记号和定义：
例2.19 完全相关相关度总是在 1到1之间取值。

相关度为1（ 1）意味x和y具有完全正（负）线性关系，即xk = ayk + b，其中a和b是常数。

下面两个x和y的值集分别给出相关度为 1和 1的情况。

为简单起见，第一组中取x和y的均值为0。

x = ( 3, 6, 0, 3, 6)
y = (1, 2, 0, 1, 2)
x = (3, 6, 0, 3, 6)
y = (1, 2, 0, 1, 2)
例2.20 非线性关系如果相关度为0，则两个数据对象的属性之间不存在线性关系。

然而，仍然可能存在非线性关系。

在下面的例子中，数据对象的属性之间存在非线性关系yk = ，但是它们的相关度为0。

x = ( 3, 2, 1, 0, 1, 2, 3)
y = (9, 4, 1, 0, 1, 4, 9)
例2.21 相关性可视化通过绘制对应属性值对可以很容易地判定两个数据对象x和y之间的相关性。

图2-17给出了一些这种图，x和y具有30个属性，这些属性的值随机地产生（服从正态分布），使得x和y的相关度从 1到1。

图中每个小圆圈代表30个属性中的一个，其x坐标是x的一个属性的值，而其y坐标是y的相同属性的值。

（点击查看大图）图2-17 解释相关度从 1到1的散布图
如果通过减去均值，然后规范化使其长度为1来变换x和y，则它们的相关度可以通过求点积来计算。

注意，这与其他情况下使用的标准化不同，在其他情况下，我们使用变换和。

Bregman散度* 本节，我们简略介绍Bregman散度（Bregman divergence），它是一族具有共同性质的邻近函数。

这样，可以构造使用Bregman发散函数的一般数据挖掘算法，如聚类算法，具体的例子是K均值聚类算法（8.2节）。

注意，本节需要向量计算方面的知识。

Bregman散度是损失或失真函数。

为了理解损失函数，考虑如下情况：设x和y是两个点，其中y是原来的点，而x是它的某个失真或近似，例如，x可能是由于添加了一些随机噪声
到y上而产生的。

损失函数的目的是度量用x近似y导致的失真或损失。

当然，x和y越类似，失真或损失就越小，因而Bregman散度可以用作相异性函数。

有如下正式定义。

定义2.6 Bregman散度给定一个严格凸函数（连同一些通常满足的适度限制），由该函数生成的Bregman散度（损失函数）D(x, y)通过下面的公式给出：
例2.22 我们使用平方欧几里得距离给出Bregman散度的一个具体例子。

为了简化数学计
算，我们仅限于一维。

设x和y是实数，而 (t) 是实数值函数，。

在此情况下，梯度归结为导数，而点积归结为乘积。

例如，公式（2-12）变成公式（2-13）。

该例的图形在图2-18中给出，其中y = 1。

在x = 2和x = 3上给出了Bregman散度。

（点击查看大图）图2-18 图示Bregman 散度
2.4.62.4.6 邻近度计算问题
邻近度计算问题本节讨论与邻近性度量有关的一些重要问题：(1)当属性具有不同的尺度（scale）或相关时如何处理；(2)当对象包含不同类型的属性（例如，定量属性和定性属性）时如何计算对象之间的邻近度；(3)当属性具有不同的权重（即并非所有的属性都对对象的邻近度具有相等的贡献）时，如何处理邻近度计算。

1. 1. 距离度量的标准化和相关性距离度量的标准化和相关性
距离度量的标准化和相关性距离度量的一个重要问题是当属性具有不同的值域时如何处理。

（这种情况通常称作"变量具有不同的尺度。

"）前面，使用欧几里得距离，基于年龄和收入两个属性来度量人之间的距离。

除非这两个属性是标准化的，否则两个人之间的距离将被收入所左右。

一个相关的问题是，除值域不同外，当某些属性之间还相关时，如何计算距离。

当属性相关、具有不同的值域（不同的方差）、并且数据分布近似于高斯（正态）分布时，欧几里得距离的拓广，Mahalanobis 距离是有用的。

具体地说，两个对象（向量）x 和y 之间的Mahalanobis 距离定义为：
其中是数据协方差矩阵的逆。

注意，协方差矩阵是这样的矩阵，它的第ij 个元素是第i 个和第j 个属性的协方差，由公式（2-11）定义。

例2.23 在图2-19中有1000个点，其x 属性和y 属性的相关度为0.6。

在椭圆长轴两端的两个大点之间的欧几里得距离为14.7，但Mahalanobis 距离仅为6。

实践中，计算Mahalanobis 距离的费用昂贵，但是对于其属性相关的对象来说是值得的。

如果属性相对来说不相关，只是具有不同的值域，则只需要对变量进行标准化就足够了。

图2-19 二维点的集合。

两个大点代表的点之间的Mahalanobis 距
离为6，它们的欧几里得距离为14.7
2. 2. 组合异种属性的相似度组合异种属性的相似度
组合异种属性的相似度前面的相似度定义所基于的方法都假定所有属性具有相同类型。

当属性具有不同类型时，就需要更一般的方法。

直截了当的方法是使用表2-7分别计算出每个属性之间的相似度，然后使用一种导致0和1之间相似度的方法组合这些相似度。

总相似度一般定义为所有属性相似度的平均值。

不幸的是，如果某些属性是非对称属性，这种方法效果不好。

例如，如果所有的属性都是非对称的二元属性，则相似性度量先归结为简单匹配系数--一种对于二元非对称属性并不合适的度量。

处理该问题的最简单方法是：如果两个对象在非对称属性上的值都是0，则在计算对象相似度时忽略它们。

类似的方法也能很好地处理遗漏值。

概括地说，算法2.1可以有效地计算具有不同类型属性的两个对象x 和y 之间的相似度。

修改该过程可以很轻松地处理相异度。

3. 3. 使用权值使用权值
使用权值在前面的大部分讨论中，所有的属性在计算邻近度时都会被同等对待。

但是，当某些属性对邻近度的定义比其他属性更重要时，我们并不希望这种同等对待的方式。

为了处理这种情况，可以通过对每个属性的贡献加权来修改邻近度公式。

如果权的和为1，则公式（2-15）变成
闵可夫斯基距离的定义也可以修改为：。