14849-数学建模-《应用多元统计分析》第10章_多维标度法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通常,要通过两步来完成。
首先构造一个f 维坐标空间,并用该空间中的点分别表示各样 品,此时点间的距离未必和原始输入次序相同,通常把这一步 称为构造初步图形结构。
其次是逐步修改初步图形结构,以得到一个新图形结构,使得 在新结构中,各样品的点间距离次序和原始输入次序尽量一致 。
多维标度法解决的问题:当n个对象(object)中各对对象之 间的相似性(或距离)给定时,确定这些对象在低维空间中 的表示(感知图Perceptual Mapping),并使其尽可能与原 先的相似性(或距离)“大体匹配”,使得由降维所引起的 任何变形达到最小。
XiXi X j X j X j Xi XiX j
(10.1)
XiXi X j X j 2XiX j
1
n
n i 1
di2j
X j X j
1 n
n i 1
X iX i
2 n
n i 1
XiX j
(10.2)
1
n
n
di2j
j 1
X iX i
1 n
n
X j X j
j 1
2 n
n
X iX j
我们假设有 n 个城市对应欧氏空间的 n 个点,其距离阵为
D ,它们所对应的空间的维数为 r ,第 i 个城市对应的点记
为 X i ,则 X i 的坐标记作 X i ( X i1, X i2 , , X ir ) 。
设 B (bij )nn ,其中:
bij
1 2
(di2j
1 n
n j 1
这样说明 X 正好是 X 正好为 D 的一个构图,D 是欧氏型的。
通过上 面的讨论我们知道 ,只要按公式( 10.5)求出各 个点
对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应 的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列 向量或空间 n 个点的坐标。
多维标度法是一种在低维空间展示“距离”数据结构的多元 数据分析技术,简称MDS。
多维标度法是一类多元统计分析方法的总称,包含各种各样 的模型和手段,其目的是通过各种途径把高维的研究对象转 化成低维情形进行研究,具体地说,多维标度法是以多维研 究对象之间某种亲近关系为依据(如距离、相似系数,亲疏 程度的分类情况等),合理地将研究对象(样品或变量)在低维 空间中给出标度或位置,以便全面而又直观地再现原始各研 究对象之间的关系。
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
2571 2408 205
其中, X
1 n
n i 1
Xi
。用矩阵表示为:
B
(bij
)nn
(X1
X
)
(
X1
X
,
( X n X )
, Xn X) 0
这里,我们称 B 为 X 的中心化内积阵。 再来考虑充分性,如果假设 B 0,我们欲指出 X 正好为 D 的
一个构图,且 D 是欧氏型的。
记 1 2 r 为 B 的正特征根,1, 2 , , r 对应的单位
则矩阵 C 为相似系数阵, cij 称为第 i 点与第 j 点间的相似系数。
在进行多维标度分析时,如果数据是多个分析变量的原始数 据,则要根据聚类分析中介绍的方法,计算分析对象间的相 似测度;如果数据不是广义距离阵,要通过一定的方法将其 转换成广义距离阵才能进行多维标度分析。
二、古典多维标度分析的思想及方法
在此基础上也可按对象点之间距离的远近实现对样品的分类 ,多维标度法能弥补聚类分析的不足之处,因为聚类分析将 相似的样品归类,最后得到一个反映样品亲疏关系的谱系图 。聚类分析比较简便易行,但是,聚类分析的缺点是将一些 高维的样品强行纳入一个一维的谱系分类中,常常使原始样 品之间的关系简单化,甚至有时失真。而多维标度法是将几 个高维研究对象,在近似的意义下,从高维约简到一个较低 维的空间内,并且寻求一个最佳的空间维数和空间位置如2 维或3维)而仍保持各研究对象数据的原始关系。
一 相似与距离的概念 二 古典多维标度分析的思想及方法 三 度量MDS的古典解 四 非度量MDS的古典解(nonmetric MDS)
首先我们提出这样一个问题,表10.1是美国十城市之间的飞 行距离,我们如何在平面坐标上据此标出这10城市之间的相 对位置,使之尽可能接近表中的距离数据呢?
表10.1 美国10城市间的飞行距离
整数 r 和 Rr 中的 n 个点 X1, X 2 , , X n ,使得
di2j (Xi X j )(Xi X j )
i, j 1, 2, , n
则称 D 为欧氏距离阵
3.相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ,如果满足条件:
(1) C C
(2) cij cii i, j 1, 2, , n
第十章 多维标度法
第一节 引 言
第二节 古典多维标度法(Classical MDS)
第三节 权重多维标度(WMDS) 第四节 实例分析与计算实现
第一节 引 言
在实际中我们会经常遇到这些的问题,给你一组城市,你总 能从地图上测出任何一对城市之间的距离。但若给你若干城 市的距离,你能否确定这些城市之间的相对位置呢?假定你 知道只是哪两个城市最近,哪两个城市次近等等,你是否还 能确定它们之间的相对位置呢?假定通过调查了解了10种饮 料产品在消费者心中的相似程度,你能否确定这些产品在消 费者心理空间中的相对位置呢?在实际中我们常常会遇到类 似这样的问题。
多维空间中排列的每一个点代表一个对象,因此点间的距离 与对象间的相似性高度相关。也就是说,两个相似的对象由 多维空间中两个距离相近的点表示,而两个不相似的对象则 由多维空间两个距离较远的点表示。多维空间通常为二维或 三维的欧氏空间,但也可以是非欧氏三维以上空间。
多维标度法内容丰富、方法较多。
按相似性(距离)数据测量尺度的不同MDS可分为:度量 MDS和非度量MDS。当利用原始相似性(距离)的实际数值 为间隔尺度和比率尺度时称为度量MDS(metric MDS),当利用 原始相似性(距离)的等级顺序(即有序尺度)而非实际数值 时称为非度量MDS(nonmetric MDS)。
设 r 维空间中的 n 个点表示为 X1, X 2 , , X n ,用矩阵表示为
X ( X1, X 2 , , X n ) 。在多维标度法中,我们称 X 为距离
阵 D 的一个拟合构图,求得的 n 个点之间的距离阵 Dˆ 称为 D 的拟合距离阵,Dˆ 和 D 尽可能接近。如果 Dˆ D ,则称 X 为 D 的一个构图。
特征向量为 e1, e2 , , er ,Γ (e1, e2 , , er ) 是单位特征向量为
列组成的矩阵,则 X ( 1e1, 2 e2, , r er ) (xij )nr ,X
矩阵中每一行对应空间中的一个点,第 i 行即为 Xi 。令
Λ diag(1, 2, , r ) ,那么, B XX ΓΛΓ
在市场营销调研中,多维标度法的用途十分广泛。被用于确 定空间的级数(变量、指标),以反映消费者对不同品牌的认 知,并且在由这些维构筑的空间中,标明某关注品牌和消费 者心目中理想品牌的位置。
多维标度法(Multidimensional Scaling)是一种将多维空间 的研究对象(样本或变量)简化到低维空间进行定位、分析和 归类,同时又保留对象间原始关系的数据分析方法。
从应用角度来说,在50年代多维标度法仅应用于心理学,60 年代又应用于销售和消费领域中,从70年代以来,多维标度 法的应用范围迅速扩大,已应用于交通、社会学、生态学及 地质学等领域。
多维标度法的基本思想:用r维空间(r待定)中的点分别表示 各样品,使得各样品间距离的次序能完全反映原始输入的相 似次序(两样品间的距离越短,则越相似)。
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
di2j 为 i 城市与 j 城市之间的距离。那么,如果一个 n × n 的
距离阵 D 是欧氏距离阵的充要条件是 B 0。 首先考虑必要性,设 D 是欧氏距离阵,则存在
X1, X 2 , , X n Rr ,使得
di2j ( Xi X j )( Xi X j )
定义10.1 一个n n阶的矩阵D=(dij ) n n ,如果满足条件:
(1) D D
(2) dij 0, dii 0, i, j 1, 2, , n
则矩阵 D 为广义距离阵, dij 称为第 i 点与第 j 点间的距离。
定义 10.2 对于一个 n n 的距离阵 D (dij )nn ,如果存在某个正
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
1 2
(2
X iX
j
2 n
n j 1
X iX
j
2 n
n i 1
X iX
j
2 n
n i 1
n
X iX j )
j 1
(XiX j XiX X X j X X )
(Xi X )(X j X )
1
2
3
4
5
6
7
8
9
10
10
587 1212 701 1936 604 748 2139 2182 543
2 587 0
920 940 1745 1188 713 1858 1737 597
3 1212 920 0
879 831 1726 1631 949 1021 1494
4 701 940 879 0
按相似性(距离)矩阵的个数和MDS模型的性质MDS可分为: 古典多维标度CMDS(一个矩阵,无权重模型)、重复多维标 度Replicated MDS(几个矩阵,无权重模型)、权重多维标度 WMDS(几个矩阵,权重模型)。
本章仅介绍常用的古典多维标度法和权重多维标度法。
第二节 古典多维标度法 (Classical MDS)
j 1
(10.3)
1
n
n (1 j1 n
n i 1
di2j )
1 n2
n i 1
n
di2j
j 1
Biblioteka Baidu
1 n
n i 1
X
iX i
1 n
n j 1
X
j X
j
2 n
n i 1
n
X iX j
j 1
由( 10.1)、( 10.2)、( 10.3)和( 10.4)式,得知
(10.4)
bij
1 2
一、相似与距离的概念
在解决上述问题之前,我们首先明确与多维标度法相关的数 据概念。 1.相似数据与不相似数据 相似数据:如果用较大的数据表示非常相似,用较小的 数据表示非常不相似,则数据为相似数据。如用10表示 两种饮料非常相似,用1表示两种饮料非常不相似。 不相似数据:如果用较大的数值表示非常不相似,较小 的数值表示非常相似,则数据为不相似数据,也称距离 数据。如用10表示两种饮料非常不相似,用1表示两种饮 料非常相似。 2.距离阵
多维标度法的产生与发展,和它在心理学各个分支中的应用 是分不开的,40年代是它的萌芽和准备时期,50年代是计量 的多维标度法的发展时期,1952年Torgerson首先给出计量 的多维标度法的数学模型,为以后的发展奠定了基础,60年 代是非计量的多维标度法的发展时期,70年代以后上面提出 的各种方法趋于成熟,出现了许多近似计算法,并且提出了 许多新的方法和模型.
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles 6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
(10.6)
X ΓΛ1/2
(10.7)
即 bij
X iX
。由于,
j
bij
1 2
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j ) ,
j 1
因此,
( Xi X j )( Xi X j ) XiXi X j X j 2 XiX j
bii bjj 2bij di2j
首先构造一个f 维坐标空间,并用该空间中的点分别表示各样 品,此时点间的距离未必和原始输入次序相同,通常把这一步 称为构造初步图形结构。
其次是逐步修改初步图形结构,以得到一个新图形结构,使得 在新结构中,各样品的点间距离次序和原始输入次序尽量一致 。
多维标度法解决的问题:当n个对象(object)中各对对象之 间的相似性(或距离)给定时,确定这些对象在低维空间中 的表示(感知图Perceptual Mapping),并使其尽可能与原 先的相似性(或距离)“大体匹配”,使得由降维所引起的 任何变形达到最小。
XiXi X j X j X j Xi XiX j
(10.1)
XiXi X j X j 2XiX j
1
n
n i 1
di2j
X j X j
1 n
n i 1
X iX i
2 n
n i 1
XiX j
(10.2)
1
n
n
di2j
j 1
X iX i
1 n
n
X j X j
j 1
2 n
n
X iX j
我们假设有 n 个城市对应欧氏空间的 n 个点,其距离阵为
D ,它们所对应的空间的维数为 r ,第 i 个城市对应的点记
为 X i ,则 X i 的坐标记作 X i ( X i1, X i2 , , X ir ) 。
设 B (bij )nn ,其中:
bij
1 2
(di2j
1 n
n j 1
这样说明 X 正好是 X 正好为 D 的一个构图,D 是欧氏型的。
通过上 面的讨论我们知道 ,只要按公式( 10.5)求出各 个点
对之间的内积,求得内积矩阵 B 的 r 个非零特征值及所对应 的一组特征向量,据公式(10.7)即可求出 X 矩阵的 r 个列 向量或空间 n 个点的坐标。
多维标度法是一种在低维空间展示“距离”数据结构的多元 数据分析技术,简称MDS。
多维标度法是一类多元统计分析方法的总称,包含各种各样 的模型和手段,其目的是通过各种途径把高维的研究对象转 化成低维情形进行研究,具体地说,多维标度法是以多维研 究对象之间某种亲近关系为依据(如距离、相似系数,亲疏 程度的分类情况等),合理地将研究对象(样品或变量)在低维 空间中给出标度或位置,以便全面而又直观地再现原始各研 究对象之间的关系。
1374 968 1420 1645 1891 1220
5 1936 1745 831 1374 0
2339 2451 347 959 2300
6 604 1188 1726 968 2339 0
1092 2594 2734 923
7 748 713 1631 1420 2451 1092 0
2571 2408 205
其中, X
1 n
n i 1
Xi
。用矩阵表示为:
B
(bij
)nn
(X1
X
)
(
X1
X
,
( X n X )
, Xn X) 0
这里,我们称 B 为 X 的中心化内积阵。 再来考虑充分性,如果假设 B 0,我们欲指出 X 正好为 D 的
一个构图,且 D 是欧氏型的。
记 1 2 r 为 B 的正特征根,1, 2 , , r 对应的单位
则矩阵 C 为相似系数阵, cij 称为第 i 点与第 j 点间的相似系数。
在进行多维标度分析时,如果数据是多个分析变量的原始数 据,则要根据聚类分析中介绍的方法,计算分析对象间的相 似测度;如果数据不是广义距离阵,要通过一定的方法将其 转换成广义距离阵才能进行多维标度分析。
二、古典多维标度分析的思想及方法
在此基础上也可按对象点之间距离的远近实现对样品的分类 ,多维标度法能弥补聚类分析的不足之处,因为聚类分析将 相似的样品归类,最后得到一个反映样品亲疏关系的谱系图 。聚类分析比较简便易行,但是,聚类分析的缺点是将一些 高维的样品强行纳入一个一维的谱系分类中,常常使原始样 品之间的关系简单化,甚至有时失真。而多维标度法是将几 个高维研究对象,在近似的意义下,从高维约简到一个较低 维的空间内,并且寻求一个最佳的空间维数和空间位置如2 维或3维)而仍保持各研究对象数据的原始关系。
一 相似与距离的概念 二 古典多维标度分析的思想及方法 三 度量MDS的古典解 四 非度量MDS的古典解(nonmetric MDS)
首先我们提出这样一个问题,表10.1是美国十城市之间的飞 行距离,我们如何在平面坐标上据此标出这10城市之间的相 对位置,使之尽可能接近表中的距离数据呢?
表10.1 美国10城市间的飞行距离
整数 r 和 Rr 中的 n 个点 X1, X 2 , , X n ,使得
di2j (Xi X j )(Xi X j )
i, j 1, 2, , n
则称 D 为欧氏距离阵
3.相似系数阵
定义 10.3 一个 n n 阶的矩阵 C (cij )nn ,如果满足条件:
(1) C C
(2) cij cii i, j 1, 2, , n
第十章 多维标度法
第一节 引 言
第二节 古典多维标度法(Classical MDS)
第三节 权重多维标度(WMDS) 第四节 实例分析与计算实现
第一节 引 言
在实际中我们会经常遇到这些的问题,给你一组城市,你总 能从地图上测出任何一对城市之间的距离。但若给你若干城 市的距离,你能否确定这些城市之间的相对位置呢?假定你 知道只是哪两个城市最近,哪两个城市次近等等,你是否还 能确定它们之间的相对位置呢?假定通过调查了解了10种饮 料产品在消费者心中的相似程度,你能否确定这些产品在消 费者心理空间中的相对位置呢?在实际中我们常常会遇到类 似这样的问题。
多维空间中排列的每一个点代表一个对象,因此点间的距离 与对象间的相似性高度相关。也就是说,两个相似的对象由 多维空间中两个距离相近的点表示,而两个不相似的对象则 由多维空间两个距离较远的点表示。多维空间通常为二维或 三维的欧氏空间,但也可以是非欧氏三维以上空间。
多维标度法内容丰富、方法较多。
按相似性(距离)数据测量尺度的不同MDS可分为:度量 MDS和非度量MDS。当利用原始相似性(距离)的实际数值 为间隔尺度和比率尺度时称为度量MDS(metric MDS),当利用 原始相似性(距离)的等级顺序(即有序尺度)而非实际数值 时称为非度量MDS(nonmetric MDS)。
设 r 维空间中的 n 个点表示为 X1, X 2 , , X n ,用矩阵表示为
X ( X1, X 2 , , X n ) 。在多维标度法中,我们称 X 为距离
阵 D 的一个拟合构图,求得的 n 个点之间的距离阵 Dˆ 称为 D 的拟合距离阵,Dˆ 和 D 尽可能接近。如果 Dˆ D ,则称 X 为 D 的一个构图。
特征向量为 e1, e2 , , er ,Γ (e1, e2 , , er ) 是单位特征向量为
列组成的矩阵,则 X ( 1e1, 2 e2, , r er ) (xij )nr ,X
矩阵中每一行对应空间中的一个点,第 i 行即为 Xi 。令
Λ diag(1, 2, , r ) ,那么, B XX ΓΛΓ
在市场营销调研中,多维标度法的用途十分广泛。被用于确 定空间的级数(变量、指标),以反映消费者对不同品牌的认 知,并且在由这些维构筑的空间中,标明某关注品牌和消费 者心目中理想品牌的位置。
多维标度法(Multidimensional Scaling)是一种将多维空间 的研究对象(样本或变量)简化到低维空间进行定位、分析和 归类,同时又保留对象间原始关系的数据分析方法。
从应用角度来说,在50年代多维标度法仅应用于心理学,60 年代又应用于销售和消费领域中,从70年代以来,多维标度 法的应用范围迅速扩大,已应用于交通、社会学、生态学及 地质学等领域。
多维标度法的基本思想:用r维空间(r待定)中的点分别表示 各样品,使得各样品间距离的次序能完全反映原始输入的相 似次序(两样品间的距离越短,则越相似)。
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
di2j 为 i 城市与 j 城市之间的距离。那么,如果一个 n × n 的
距离阵 D 是欧氏距离阵的充要条件是 B 0。 首先考虑必要性,设 D 是欧氏距离阵,则存在
X1, X 2 , , X n Rr ,使得
di2j ( Xi X j )( Xi X j )
定义10.1 一个n n阶的矩阵D=(dij ) n n ,如果满足条件:
(1) D D
(2) dij 0, dii 0, i, j 1, 2, , n
则矩阵 D 为广义距离阵, dij 称为第 i 点与第 j 点间的距离。
定义 10.2 对于一个 n n 的距离阵 D (dij )nn ,如果存在某个正
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j )
j 1
1 2
(2
X iX
j
2 n
n j 1
X iX
j
2 n
n i 1
X iX
j
2 n
n i 1
n
X iX j )
j 1
(XiX j XiX X X j X X )
(Xi X )(X j X )
1
2
3
4
5
6
7
8
9
10
10
587 1212 701 1936 604 748 2139 2182 543
2 587 0
920 940 1745 1188 713 1858 1737 597
3 1212 920 0
879 831 1726 1631 949 1021 1494
4 701 940 879 0
按相似性(距离)矩阵的个数和MDS模型的性质MDS可分为: 古典多维标度CMDS(一个矩阵,无权重模型)、重复多维标 度Replicated MDS(几个矩阵,无权重模型)、权重多维标度 WMDS(几个矩阵,权重模型)。
本章仅介绍常用的古典多维标度法和权重多维标度法。
第二节 古典多维标度法 (Classical MDS)
j 1
(10.3)
1
n
n (1 j1 n
n i 1
di2j )
1 n2
n i 1
n
di2j
j 1
Biblioteka Baidu
1 n
n i 1
X
iX i
1 n
n j 1
X
j X
j
2 n
n i 1
n
X iX j
j 1
由( 10.1)、( 10.2)、( 10.3)和( 10.4)式,得知
(10.4)
bij
1 2
一、相似与距离的概念
在解决上述问题之前,我们首先明确与多维标度法相关的数 据概念。 1.相似数据与不相似数据 相似数据:如果用较大的数据表示非常相似,用较小的 数据表示非常不相似,则数据为相似数据。如用10表示 两种饮料非常相似,用1表示两种饮料非常不相似。 不相似数据:如果用较大的数值表示非常不相似,较小 的数值表示非常相似,则数据为不相似数据,也称距离 数据。如用10表示两种饮料非常不相似,用1表示两种饮 料非常相似。 2.距离阵
多维标度法的产生与发展,和它在心理学各个分支中的应用 是分不开的,40年代是它的萌芽和准备时期,50年代是计量 的多维标度法的发展时期,1952年Torgerson首先给出计量 的多维标度法的数学模型,为以后的发展奠定了基础,60年 代是非计量的多维标度法的发展时期,70年代以后上面提出 的各种方法趋于成熟,出现了许多近似计算法,并且提出了 许多新的方法和模型.
8 2139 1858 949 1645 347 2594 2571 0
678 2442
9 2182 1737 1021 1891 959 2734 2408 678 0
2329
10 543 597 1494 1220 2300 923 205 2442 2329 0
1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles 6=Miami , 7=New York, 8=S an Francisco , 9=Seattle, 10=Washington. DC
(10.6)
X ΓΛ1/2
(10.7)
即 bij
X iX
。由于,
j
bij
1 2
(di2j
1 n
n j 1
di2j
1 n
n i 1
di2j
1 n2
n i 1
n
di2j ) ,
j 1
因此,
( Xi X j )( Xi X j ) XiXi X j X j 2 XiX j
bii bjj 2bij di2j