14849-数学建模-《应用多元统计分析》第10章_多维标度法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多维空间中排列的每一个点代表一个对象，因此点间的距离与对象间的相似性高度相关。也就是说，两个相似的对象由多维空间中两个距离相近的点表示，而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间，但也可以是非欧氏三维以上空间。
多维标度法内容丰富、方法较多。
按相似性（距离）数据测量尺度的不同MDS可分为：度量 MDS和非度量MDS。当利用原始相似性（距离）的实际数值为间隔尺度和比率尺度时称为度量MDS(metric MDS)，当利用原始相似性（距离）的等级顺序（即有序尺度）而非实际数值时称为非度量MDS(nonmetric MDS)。
在此基础上也可按对象点之间距离的远近实现对样品的分类，多维标度法能弥补聚类分析的不足之处，因为聚类分析将相似的样品归类，最后得到一个反映样品亲疏关系的谱系图。聚类分析比较简便易行，但是，聚类分析的缺点是将一些高维的样品强行纳入一个一维的谱系分类中，常常使原始样品之间的关系简单化，甚至有时失真。而多维标度法是将几个高维研究对象，在近似的意义下，从高维约简到一个较低维的空间内，并且寻求一个最佳的空间维数和空间位置如2 维或3维)而仍保持各研究对象数据的原始关系。
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1＝Atlanta , 2＝Chicago, 3＝Denver, 4＝Houston, 5＝Los Angeles 6＝Miami , 7＝New York, 8＝S an Francisco , 9＝Seattle, 10＝Washington. DC
整数 r 和 Rr 中的 n 个点 X1, X 2 , , X n ，使得
di2j (Xi X j )(Xi X j )
i, j 1, 2, , n
则称 D 为欧氏距离阵
3．相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ，如果满足条件：
（1） C C
（2） cij cii i, j 1, 2, , n
XiXi X j X j X j Xi XiX j
（10.1）
XiXi X j X j 2XiX j
1
n
n i 1
di2j
X j X j
1 n
n i 1
X iX i
2 n
n i 1
XiX j
（10.2）
1
n
n
di2j
j 1
X iX i
1 n
n
X j X j
j 1
2 n
n
X iX j
设 r 维空间中的 n 个点表示为 X1, X 2 , , X n ，用矩阵表示为
X ( X1, X 2 , , X n ) 。在多维标度法中，我们称 X 为距离
阵 D 的一个拟合构图，求得的 n 个点之间的距离阵 Dˆ 称为 D 的拟合距离阵，Dˆ 和 D 尽可能接近。如果 Dˆ D ，则称 X 为 D 的一个构图。
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
1 2
(2
X iX
j
2 n
n j 1
X iX
j
2 n
n i 1
X iX
j
2 n
n i 1
n
X iX j )
j 1
(XiX j XiX X X j X X )
(Xi X )(X j X )
一、相似与距离的概念
在解决上述问题之前，我们首先明确与多维标度法相关的数据概念。 1．相似数据与不相似数据相似数据：如果用较大的数据表示非常相似，用较小的数据表示非常不相似，则数据为相似数据。如用10表示两种饮料非常相似，用1表示两种饮料非常不相似。不相似数据：如果用较大的数值表示非常不相似，较小的数值表示非常相似，则数据为不相似数据，也称距离数据。如用10表示两种饮料非常不相似，用1表示两种饮料非常相似。 2．距离阵
其中， X
1 n
n i 1
Xi
。用矩阵表示为：
B
(bij
)nn
(X1
X
)
(
X1
X
,
( X n X )
, Xn X) 0
这里，我们称 B 为 X 的中心化内积阵。再来考虑充分性，如果假设 B 0，我们欲指出 X 正好为 D 的
一个构图，且 D 是欧氏型的。
记 1 2 r 为 B 的正特征根，1, 2 , , r 对应的单位
这样说明 X 正好是 X 正好为 D 的一个构图，D 是欧氏型的。
通过上面的讨论我们知道，只要按公式（ 10.5）求出各个点
对之间的内积，求得内积矩阵 B 的 r 个非零特征值及所对应的一组特征向量，据公式（10.7）即可求出 X 矩阵的 r 个列向量或空间 n 个点的坐标。
在市场营销调研中，多维标度法的用途十分广泛。被用于确定空间的级数(变量、指标)，以反映消费者对不同品牌的认知，并且在由这些维构筑的空间中，标明某关注品牌和消费者心目中理想品牌的位置。
多维标度法（Multidimensional Scaling）是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类，同时又保留对象间原始关系的数据分析方法。
定义10.1 一个n n阶的矩阵D=(dij ) n n ，如果满足条件：
（1） D D
（2） dij 0, dii 0, i, j 1, 2, , n
则矩阵 D 为广义距离阵， dij 称为第 i 点与第 j 点间的距离。
定义 10.2 对于一个 n n 的距离阵 D (dij )nn ，如果存在某个正
（10.6）
X ΓΛ1/2
（10.7）
即 bij
X iX
。由于，
j
bij
1 2
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j ) ，
j 1
因此，
( Xi X j )( Xi X j ) XiXi X j X j 2 XiX j
bii bjj 2bij di2j
j 1
（10.3）
1
n
n (1 j1 n
n i 1
di2j )
1 n2
n i 1
n
di2j
j 1
1 n
n i 1
X
iX i
1 n
n j 1
X
j X
j
2 n
n i 1
n
X iX j
j 1
由（ 10.1）、（ 10.2）、（ 10.3）和（ 10.4）式，得知
（10.4）
bij
1 2
通常，要通过两步来完成。
首先构造一个f 维坐标空间，并用该空间中的点分别表示各样品，此时点间的距离未必和原始输入次序相同，通常把这一步称为构造初步图形结构。
其次是逐步修改初步图形结构，以得到一个新图形结构，使得在新结构中，各样品的点间距离次序和原始输入次序尽量一致。
多维标度法解决的问题：当n个对象（object）中各对对象之间的相似性（或距离）给定时，确定这些对象在低维空间中的表示（感知图Perceptual Mapping），并使其尽可能与原先的相似性（或距离）“大体匹配”，使得由降维所引起的任何变形达到最小。
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
di2j 为 i 城市与 j 城市之间的距离。那么，如果一个 n × n 的
距离阵 D 是欧氏距离阵的充要条件是 B 0。首先考虑必要性，设 D 是欧氏距离阵，则存在
X1, X 2 , , X n Rr ，使得
di2j ( Xi X j )( Xi X j )
第十章多维标度法
第一节引言
第二节古典多维标度法(Classical MDS)
第三节权重多维标度(WMDS) 第四节实例分析与计算实现
第一节引言
在实际中我们会经常遇到这些的问题，给你一组城市，你总能从地图上测出任何一对城市之间的距离。但若给你若干城市的距离，你能否确定这些城市之间的相对位置呢？假定你知道只是哪两个城市最近，哪两个城市次近等等，你是否还能确定它们之间的相对位置呢？假定通过调查了解了10种饮料产品在消费者心中的相似程度，你能否确定这些产品在消费者心理空间中的相对位置呢？在实际中我们常常会遇到类似这样的问题。
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
2571 2408 205
我们假设有 n 个城市对应欧氏空间的 n 个点，其距离阵为
D ，它们所对应的空间的维数为 r ，第 i 个城市对应的点记
为 X i ，则 X i 的坐标记作 X i ( X i1, X i2 , , X ir ) 。
设 B (bij )nn ，其中：
bij
1 2
(di2j
1 n
n j 1
则矩阵 C 为相似系数阵， cij ห้องสมุดไป่ตู้为第 i 点与第 j 点间的相似系数。
在进行多维标度分析时，如果数据是多个分析变量的原始数据，则要根据聚类分析中介绍的方法，计算分析对象间的相似测度；如果数据不是广义距离阵，要通过一定的方法将其转换成广义距离阵才能进行多维标度分析。
二、古典多维标度分析的思想及方法
多维标度法的产生与发展，和它在心理学各个分支中的应用是分不开的，40年代是它的萌芽和准备时期，50年代是计量的多维标度法的发展时期，1952年Torgerson首先给出计量的多维标度法的数学模型，为以后的发展奠定了基础，60年代是非计量的多维标度法的发展时期，70年代以后上面提出的各种方法趋于成熟，出现了许多近似计算法，并且提出了许多新的方法和模型.
按相似性（距离）矩阵的个数和MDS模型的性质MDS可分为：古典多维标度CMDS（一个矩阵，无权重模型）、重复多维标度Replicated MDS（几个矩阵，无权重模型）、权重多维标度 WMDS（几个矩阵，权重模型）。
本章仅介绍常用的古典多维标度法和权重多维标度法。
第二节古典多维标度法 (Classical MDS)
1
2
3
4
5
6
7
8
9
10
10
587 1212 701 1936 604 748 2139 2182 543
2 587 0
920 940 1745 1188 713 1858 1737 597
3 1212 920 0
879 831 1726 1631 949 1021 1494
4 701 940 879 0
多维标度法是一种在低维空间展示“距离”数据结构的多元数据分析技术，简称MDS。
多维标度法是一类多元统计分析方法的总称，包含各种各样的模型和手段，其目的是通过各种途径把高维的研究对象转化成低维情形进行研究，具体地说，多维标度法是以多维研究对象之间某种亲近关系为依据(如距离、相似系数，亲疏程度的分类情况等)，合理地将研究对象(样品或变量)在低维空间中给出标度或位置，以便全面而又直观地再现原始各研究对象之间的关系。
一相似与距离的概念二古典多维标度分析的思想及方法三度量MDS的古典解四非度量MDS的古典解(nonmetric MDS)
首先我们提出这样一个问题，表10.1是美国十城市之间的飞行距离，我们如何在平面坐标上据此标出这10城市之间的相对位置，使之尽可能接近表中的距离数据呢？
表10.1 美国10城市间的飞行距离
特征向量为 e1, e2 , , er ，Γ (e1, e2 , , er ) 是单位特征向量为
列组成的矩阵，则 X ( 1e1, 2 e2, , r er ) (xij )nr ，X
矩阵中每一行对应空间中的一个点，第 i 行即为 Xi 。令
Λ diag(1, 2, , r ) ，那么， B XX ΓΛΓ
从应用角度来说，在50年代多维标度法仅应用于心理学，60 年代又应用于销售和消费领域中，从70年代以来，多维标度法的应用范围迅速扩大，已应用于交通、社会学、生态学及地质学等领域。
多维标度法的基本思想：用r维空间(r待定)中的点分别表示各样品，使得各样品间距离的次序能完全反映原始输入的相似次序(两样品间的距离越短，则越相似)。