第10章-多维标度法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设 r 维空间中的 n 个点表示为 X1, X 2 , , X n ,用矩阵表示为
X ( X1, X 2 , , X n ) 。在多维标度法中,我们称 X 为距离
阵 D的一个拟合构图,求得的 n 个点之间的距离阵Dˆ 称为 D 的拟合距离阵,Dˆ 和 D 尽可能接近。如果Dˆ D ,则称 X 为 D 的一个构图。
表10.1 美国10城市间的飞行距离
1
2
3
4
5
6
7
8
9
10
10
587 1212 701 1936 604 748 2139 2182 543
2 587 0
920 940 1745 1188 713 1858 1737 597
3 1212 920 0
879 831 1726 1631 949 1021 1494
一、相似与距离的概念
在解决上述问题之前,我们首先明确与多维标度法相关的数 据概念。 1.相似数据与不相似数据 相似数据:如果用较大的数据表示非常相似,用较小的数据 表示非常不相似,则数据为相似数据。如用10表示两种饮 料非常相似,用1表示两种饮料非常不相似。 不相似数据:如果用较大的数值表示非常不相似,较小的数 值表示非常相似,则数据为不相似数据,也称距离数据。如 用10表示两种饮料非常不相似,用1表示两种饮料非常相似。 2.距离阵
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
di2j 为 i 城市与 j 城市之间的距离。那么,如果一个 n × n 的
距离阵 D是欧氏距离阵的充要条件是 B 0。 首先考虑必要性,设 D 是欧氏距离阵,则存在
X1, X 2 , , X n Rr ,使得
di2j ( Xi X j )( Xi X j )
第二节 古典多维标度法 (Classical MDS)
一 相似与距离的概念 二 古典多维标度分析的思想及方法 三 度量MDS的古典解 四 非度量MDS的古典解(nonmetric MDS)
首先我们提出这样一个问题,表10.1是美国十城市之间的飞行 距离,我们如何在平面坐标上据此标出这10城市之间的相对 位置,使之尽可能接近表中的距离数据呢?
Λ diag(1, 2, , r ) ,那么, B XX ΓΛΓ X ΓΛ1/2
(10.6) (10.7)
即 bij
X iX
。由于,
j
bij
1 2
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j ) ,
j 1
因此,
( Xi X j )( Xi X j ) XiXi X j X j 2 XiX j
这里需要特别注意,并非所有的距离阵都存在一个r维的欧氏 空间和n个点,使得n个点之间的距离等于D。因而,并不是所 有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。
当距离阵为欧氏时,可求得一个D的构图X,当距离阵不是欧氏 时,只能求得D的拟合构图。在实际应用中,即使D为欧氏,一 般也只求r =2或3的低维拟合构图。
一个构图,且 D 是欧氏型的。
记 1 2 r 为 B 的正特征根,1, 2 , , r 对应的单位
特征向量为 e1, e2 , , er ,Γ (e1, e2 , , er ) 是单位特征向量为
列组成的矩阵,则 X ( 1e1, 2 e2, , r er ) (xij )nr ,X
矩阵中每一行对应空间中的一个点,第 i 行即为 Xi 。令
我们假设有 n 个城市对应欧氏空间的 n 个点,其距离阵为
D,它们所对应的空间的维数为 r ,第 i 个城市对应的点记
为 X i ,则 X i 的坐标记作 X i ( X i1, X i2 , , X ir ) 。
设 B (bij )nn ,其中:
bij
1 2
(di2j
1 n
n j 1
j 1
(10.3)
1
n
n (1 j1 n
n i 1
di2j )
1 n2
n i 1
n
di2j
j 1
1 n
n i 1
X
iX i
1 n
n j 1
X
j X
j
2 n
n i 1
n
X iX j
j 1
由( 10.1)、( 10.2)、( 10.3)和( 10.4)式,得知
(10.4)
这里,我们称 B 为 X 的中心化内积阵。 再来考虑充分性,如果假设 B 0 ,我们欲指出 X 正好为D 的
4 701 940 879 0
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
第十章 多维标度法
第一节 引 言
第二节 古典多维标度法(Classical MDS)
第三节 权重多维标度(WMDS) 第四节 实例分析与计算实现
第一节 引 言
在实际中我们会经常遇到这些的问题,给你一组城市,你总能 从地图上测出任何一对城市之间的距离。但若给你若干城市 的距离,你能否确定这些城市之间的相对位置呢?假定你知道 只是哪两个城市最近,哪两个城市次近等等,你是否还能确定 它们之间的相对位置呢?假定通过调查了解了10种饮料产品 在消费者心中的相似程度,你能否确定这些产品在消费者心 理空间中的相对位置呢?在实际中我们常常会遇到类似这样 的问题。
(2)根据 bij 构造出内积矩阵 B;
(3)计算内积矩阵 B 的特征值 1 2 n 和 r 个最大
特征值 1 2 r 0 对应的单位特征向量。其中,r
的确定有两种方法:一是事先确定 r =1,2 或 3;二是通过计
算前 r 个大于零的特征值占全体特征值的比例 确定。
1 2 1 2
Shepard和Kruskal等人进一步加以发展完善。多维标度法 现在已经成为一种广泛用于心理学、市场调查、社会学、物 理学、政治科学及生物学等领域的数据分析方法。
多维标度法解决的问题是:当n个对象(object)中各对对象 之间的相似性(或距离)给定时,确定这些对象在低维空间 中的表示(感知图Perceptual Mapping),并使其尽可能与原 先的相似性(或距离)“大体匹配”,使得由降维所引起的 任何变形达到最小。多维空间中排列的每一个点代表一个对 象,因此点间的距离与对象间的相似性高度相关。也就是说, 两个相似的对象由多维空间中两个距离相近的点表示,而两 个不相似的对象则由多维空间两个距离较远的点表示。多维 空间通常为二维或三维的欧氏空间,但也可以是非欧氏三维 以上空间。
整数 r 和 Rr 中的 n 个点 X1, X 2 , , X n ,使得
di2j (Xi X j )(Xi X j )
i, j 1, 2, , n
则称 D 为欧氏距离阵
3.相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ,如果满足条件:
(1) C C
(2) cij cii i, j 1, 2, , n
定义10.1 一个n n阶的矩阵D=(dij ) n n ,如果满足条件:
(1) D D
(2) dij 0, dii 0, i, j 1, 2, , n
则矩阵 D 为广义距离阵, dij 称为第 i 点与第 j 点间的距离。
定义 10.2 对于一个 n n 的距离阵 D (dij )nn ,如果存在某个正
多维标度法(Multidimensional Scaling)就是解决这类问题 的一种方法,它是一种在低维空间展示“距离”数据结构的 多元数据分析技术,简称MDS。
多维标度法起源于心理测度学,用于理解人们判断的相似性。 Torgerson拓展了Richardson及Klingberg等人在三、四十年 代的研究,具有突破性地提出了多维标度法,后经
r n
0
0 预先给定的变差贡献比例。
(4)根据(10.7)式计算 Xˆ ,得到r维拟合构图(简称古典
解)。 这里需要注意,如果λi中有负值,表明D是非欧氏型的。
(一)已知距离矩阵的CMDS计算
以前述美国10城市间的飞行距离数据来说明古典度量多维标 度法的计算过程。
表10.1美国10城市间的飞行距离为比率测度。数值越大表明 距离越远,数值越小表明距离越短,符合广义距离阵的定义,又 只涉及一个距离阵,因此为度量CMDS。
696696.2 585085
-1005131 -580732
-1050183 -315384
656444.9 488486.2
-348122 -174029 235561.7 -92439.5 569636.6 -563061 -504420 681440.4 658370.2 -462937
198968.7 -134310 -92439.5 352200.4 B 29298.47 516284.3 -124221 -162952 -550030 -32799.4
则矩阵 C 为相似系数阵, cij 称为第 i 点与第 j 点间的相似系数。
在进行多维标度分析时,如果数据是多个分析变量的原始数 据,则要根据聚类分析中介绍的方法,计算分析对象间的相似 测度;如果数据不是广义距离阵,要通过一定的方法将其转换 成广义距离阵才能进行多维标度分析。
二、古典多维标度分析的思想及方 法
根据上述度量古典CMDS的计算方法,首先可求得内积矩阵, 结果见表10.2。
表10.2 美国10城市内积矩阵
537138 227674.7
227674.7 262780.5
-348122 -174029
198968.7 -134310
-808343 -593986
894857.1 234414.3
多维标度法内容丰富、方法较多。按相似性(距离)数据测 量尺度的不同MDS可分为:度量MDS和非度量MDS。当利用 原始相似性(距离)的实际数值为间隔尺度和比率尺度时称 为度量MDS(metric MDS),当利用原始相似性(距离)的等
级顺序(即有序尺度)而非实际数值时称为非度量 MDS(nonmetric MDS)。按相似性(距离)矩阵的个数和 MDS模型的性质MDS可分为:古典多维标度CMDS(一个矩 阵,无权重模型)、重复多维标度Replicated MDS(几个矩 阵,无权重模型)、权重多维标度WMDS(几个矩阵,权重模 型)。本章仅介绍常用的古典多维标度法和权重多维标度法。
XiXi X j X j X j Xi XiX j
(10.1)
XiXi X j X j 2XiX j
1
n
n i 1
di2j
X j X j
1 n
n i 1
源自文库
X iX i
2 n
n i 1
XiX j
(10.2)
1
n
n
di2j
j 1
X iX i
1 n
n
X j X j
j 1
2 n
n
X iX j
2571 2408 205
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles 6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
bii bjj 2bij di2j
这样说明 X 正好是 X 正好为 D 的一个构图,D 是欧氏型的。
通过上 面的讨论我们知道 ,只要按公式( 10.5)求出各 个点
对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应 的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列 向量或空间 n 个点的坐标。
值得注意的是,由于多维标度法求解的n个点仅仅要求它们的 相对欧氏距离与D相近,也就是说,只与相对位置相近而与绝 对位置无关,根据欧氏距离在正交变换和平移变换下的不变 性,显然所求得解并不唯一。
三、度量MDS的古典解
根据上述古典多维标度法的基本思想及方法,可给出求古典 解的一般步骤:
(1)根据距离阵数据,按照公式(10.5)计算出 bij ;