第九讲 典型相关分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
天津商业大学 理学院 杨随根
2、不同组的典型变量之间相关性
i 0, Cov U i ,V j = Corr U i ,U j = 0 0 i j i 1,2 p i j i p
天津商业大学 理学院
杨随根
3、原始变量与典型变量之间的相关系数
GU = Cov X ,U = Cov X , a X = 11 a ,
天津商业大学 理学院 杨随根
典型相关分析 典型相 关系数 1 0.687948 调整典型 相关系数 0.687848 近似方差 典型相关系 数的平方 0.473272
0.005268
2
0.186865
0.186638
0.009651
0.034919
天津商业大学 理学院
杨随根
X1(就餐) X2(电影)
(2)
Σ12b1 - λΣ11a1 = 0 Σ21a1 - νΣ 22b1 = 0
(3)
将上面的3式分别左乘 a 和 b 1 1
a Σ b - λa Σ a = 0 1 12 1 1 11 1 b Σ 21a1 - νb Σ 22b1 = 0 1 1
天津商业大学 理学院 杨随根
考虑两组变量的向量
Z ( x1, x2 ,, x p , y1, y2 ,, yq )
其协方差阵为
Σ11 Σ Σ 21 p
Σ12 p Σ 22 q q
天津商业大学 理学院
杨随根
所求问题的数学模型
u ax v by u,v cov( , v) a12b u
INCLUDE 'C:\Program Files\SPSS\Canonical correlation.sps'. CANCORR SET1=v2 v3 v4 v5/ SET2=v6 v7 v8 v9/.
天津商业大学 理学院
杨随根
杨随根
五、案例分析
例题:康复俱乐部对20名中年人测量了三 个生理指标: weight,waist,pulse, 以及三个训练指标chins(单杠),situps (仰卧起坐)和jumps(跳高)。试分析生 理指标和训练指标的相关性。 数据文件见ex8.1.sav
天津商业大学 理学院
杨随根
Spss命令
X组典型变量的系数 U1 U2 0.7689 -1.4787 0.2721 1.6443
Y组典型变量的系数 V1 V2 Y1(年龄) 0.0491 1.0003 Y2(收入) 0.8975 -0.5837 Y3 ( 文 化 ) 0.1900 0.2956
u1 0.7689 x1 0.2721 x2
根据数学分析中条件极值的求法,引入
Lagrange乘数,求极值问题,则可以转化为求
(a1 , b1 ) a1 Σ12b1 (a1 Σ11a1 1) (b Σ 22b1 1) 1 2 2 (1)
的极大值,其中和是 Lagrange乘数。
天津商业大学 理学院
杨随根
a Σ12b1 - λΣ11a1 0 1 Σ 21a1 - νΣ 22b1 0 1
vk = b y k
k , i 1,2,, r; k i
因为特征向量之间是正交的。故 X组的典型变量之间是相互独立的: cov(uk , ui ) cov(a x,ax) a Σ11ai 0 k i k Y组的典型变量之间是相互独立的:
cov(vk , vi ) cov(b y,by) = b Σ11bi = 0 k i k
天津商业大学 理学院
杨随根
返回
问题描述及总结
主要问题是:如何确定一组变量和另外一组变 量的关系? 解决方法: 需要降维,即在每一组中分别找到一个具有代 表性的变量。 u a x a x a x 1 11 1 21 2 p1 p v1 b11 y1 b21 y2 bq1 yq
如果一个变量不具有代表性,可以再取其它变 量。
天津商业大学 理学院 杨随根
数据表示
x11 x21 Z xn1 EZ 11 12 D(Z ) 21 22
天津商业大学 理学院
x12 x22 xn 2
x1 p x2 p xnp
第八章 典型相关分析
主讲人:杨随根 课时安排:4+2 开课学院:理学院
天津商业大学 理学院
杨随根
主要内容
典型相关分析的基本思想 典型相关分析的数学表示 典型相关的求解 典型相关的性质
案例分析
天津商业大学 理学院 杨随根
一、典型相关分析的基本思想
例: 家庭特征与家庭消费之间的关系
a Σ b λ 1 12 1 b Σ 21a1 1
将 Σ12 Σ-1 左乘(3)的第二式,得 22
Σ12 Σ-1 Σ21a1 - νΣ12 Σ-1 Σ22b1 0 22 22 Σ12 Σ-1 Σ21a1 - νΣ12b1 0 22
并将第一式代入,得
1 11 12 1 21 的特征根 22
y11 y21 yn1
y12 y22 yn 2
X1 y1q y2 q X p X Y1 Y ynq Y q
例题
杨随根
二、典型相关分析的数学表示
1 p 2 p rxv ( X j ,Vk ) k 1 j 1
m
在第二组冗余而在第一组中存在的冗余测度为,
1 q 2 q r (Yj ,U k ) k 1 j 1
m
天津商业大学 理学院
杨随根
5、典型相关系数的显著性检验
H0 : j 0
H1 : j 0
天津商业大学 理学院
结论: 2 既是M1又是M2的特征根,a1 和 b1 是相应于 M1和M2的特征向量。
至此,典型相关分析转化为求M1和M2特征根和特 征向量的问题。 第一对典型变量提取了原始变量X与Y之间相关的
主要部分,如果这部分还不能足以解释原始变量,可
以在剩余的相关中再求出第二对典型变量和他们的典 型相关系数。
Σ12 Σ-1 Σ21a1 - λ 2 Σ11a1 0 量为 22 1
-1 Σ11Σ12 Σ-1 Σ21a1 - λ 2a1 0 22
天津商业大学 理学院 杨随根
是 2 ,相应的特征向
将 并将第二式代入,得
Baidu Nhomakorabea
1 1211 左乘(3)的第一式,
1 11211 21 的特征根 22
1 p 2 第一组典型变量U 提取的方差百分数为 r ( X j ,U k ) ; k 1 p j 1
m
1 q 2 第二组典型变量V 提取的方差百分数为 r (Y j ,Vk ) 。 k 1 q j 1
m
第一组典型变量提取的方差被第二组典型变量重复的百分数 (它称为在第一组冗余而在第二组存在的冗余测度) ,
v1 0.0491 y1 0.8975 y2 0.1900 y3
u2 1.4787 x1 1.6443 x2 v2 1.0003 y1 0.5837 y2 0.2956 y3
天津商业大学 理学院 杨随根
四、典型相关的性质
1、同一组的典型变量之间互不相关
uk a x k
GV = Cov Y,V = Cov Y , bY = 22 b ,
GXV Cov X ,V = Cov X , bY = 12 b GYU Cov Y,U = Cov Y , aX = 21 a
天津商业大学 理学院 杨随根
4、冗余度分析
为了了解家庭的特征与其消费模式之间的 关系。调查了70个家庭的下面两组变量:
x1:每年去餐馆就餐的频率 x2:每年外出看电影频率
y1:户主的年龄 y2:家庭的年收入 y :户主受教育程度 3
分析两组变量之间的关系。
天津商业大学 理学院 杨随根
变量间的相关系数矩阵
X1 X1 X2 y1 y2 y3 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 y1 0.26 0.33 1.00 0.37 0.21 y2 0.67 0.59 0.37 1.00 0.35 y3 0.34 0.34 0.21 0.35 1.00
是 2 ,相应的特征向 量为 1
-1 Σ-1 Σ21Σ11Σ12b1 - λ 2b1 0 22
-1 M1 = Σ11 Σ12 Σ-1 Σ 21 22 -1 M 2 = Σ-1 Σ 21 Σ11 Σ12 22
令
M1a = λ 2a M 2b = λ 2b
天津商业大学 理学院 杨随根
在约束条件:
Var (u ) aΣ11a 1
Var (v) bΣ22b 1
下,求a1和b1,使uv达到最大。令 1 α Σ1 2a Σ11 2α a αα 1 11
β Σ1 2b 22
Σ1 2β b 22
杨随根
ββ 1
天津商业大学 理学院
三、典型相关的求解
2、不同组的典型变量之间相关性
i 0, Cov U i ,V j = Corr U i ,U j = 0 0 i j i 1,2 p i j i p
天津商业大学 理学院
杨随根
3、原始变量与典型变量之间的相关系数
GU = Cov X ,U = Cov X , a X = 11 a ,
天津商业大学 理学院 杨随根
典型相关分析 典型相 关系数 1 0.687948 调整典型 相关系数 0.687848 近似方差 典型相关系 数的平方 0.473272
0.005268
2
0.186865
0.186638
0.009651
0.034919
天津商业大学 理学院
杨随根
X1(就餐) X2(电影)
(2)
Σ12b1 - λΣ11a1 = 0 Σ21a1 - νΣ 22b1 = 0
(3)
将上面的3式分别左乘 a 和 b 1 1
a Σ b - λa Σ a = 0 1 12 1 1 11 1 b Σ 21a1 - νb Σ 22b1 = 0 1 1
天津商业大学 理学院 杨随根
考虑两组变量的向量
Z ( x1, x2 ,, x p , y1, y2 ,, yq )
其协方差阵为
Σ11 Σ Σ 21 p
Σ12 p Σ 22 q q
天津商业大学 理学院
杨随根
所求问题的数学模型
u ax v by u,v cov( , v) a12b u
INCLUDE 'C:\Program Files\SPSS\Canonical correlation.sps'. CANCORR SET1=v2 v3 v4 v5/ SET2=v6 v7 v8 v9/.
天津商业大学 理学院
杨随根
杨随根
五、案例分析
例题:康复俱乐部对20名中年人测量了三 个生理指标: weight,waist,pulse, 以及三个训练指标chins(单杠),situps (仰卧起坐)和jumps(跳高)。试分析生 理指标和训练指标的相关性。 数据文件见ex8.1.sav
天津商业大学 理学院
杨随根
Spss命令
X组典型变量的系数 U1 U2 0.7689 -1.4787 0.2721 1.6443
Y组典型变量的系数 V1 V2 Y1(年龄) 0.0491 1.0003 Y2(收入) 0.8975 -0.5837 Y3 ( 文 化 ) 0.1900 0.2956
u1 0.7689 x1 0.2721 x2
根据数学分析中条件极值的求法,引入
Lagrange乘数,求极值问题,则可以转化为求
(a1 , b1 ) a1 Σ12b1 (a1 Σ11a1 1) (b Σ 22b1 1) 1 2 2 (1)
的极大值,其中和是 Lagrange乘数。
天津商业大学 理学院
杨随根
a Σ12b1 - λΣ11a1 0 1 Σ 21a1 - νΣ 22b1 0 1
vk = b y k
k , i 1,2,, r; k i
因为特征向量之间是正交的。故 X组的典型变量之间是相互独立的: cov(uk , ui ) cov(a x,ax) a Σ11ai 0 k i k Y组的典型变量之间是相互独立的:
cov(vk , vi ) cov(b y,by) = b Σ11bi = 0 k i k
天津商业大学 理学院
杨随根
返回
问题描述及总结
主要问题是:如何确定一组变量和另外一组变 量的关系? 解决方法: 需要降维,即在每一组中分别找到一个具有代 表性的变量。 u a x a x a x 1 11 1 21 2 p1 p v1 b11 y1 b21 y2 bq1 yq
如果一个变量不具有代表性,可以再取其它变 量。
天津商业大学 理学院 杨随根
数据表示
x11 x21 Z xn1 EZ 11 12 D(Z ) 21 22
天津商业大学 理学院
x12 x22 xn 2
x1 p x2 p xnp
第八章 典型相关分析
主讲人:杨随根 课时安排:4+2 开课学院:理学院
天津商业大学 理学院
杨随根
主要内容
典型相关分析的基本思想 典型相关分析的数学表示 典型相关的求解 典型相关的性质
案例分析
天津商业大学 理学院 杨随根
一、典型相关分析的基本思想
例: 家庭特征与家庭消费之间的关系
a Σ b λ 1 12 1 b Σ 21a1 1
将 Σ12 Σ-1 左乘(3)的第二式,得 22
Σ12 Σ-1 Σ21a1 - νΣ12 Σ-1 Σ22b1 0 22 22 Σ12 Σ-1 Σ21a1 - νΣ12b1 0 22
并将第一式代入,得
1 11 12 1 21 的特征根 22
y11 y21 yn1
y12 y22 yn 2
X1 y1q y2 q X p X Y1 Y ynq Y q
例题
杨随根
二、典型相关分析的数学表示
1 p 2 p rxv ( X j ,Vk ) k 1 j 1
m
在第二组冗余而在第一组中存在的冗余测度为,
1 q 2 q r (Yj ,U k ) k 1 j 1
m
天津商业大学 理学院
杨随根
5、典型相关系数的显著性检验
H0 : j 0
H1 : j 0
天津商业大学 理学院
结论: 2 既是M1又是M2的特征根,a1 和 b1 是相应于 M1和M2的特征向量。
至此,典型相关分析转化为求M1和M2特征根和特 征向量的问题。 第一对典型变量提取了原始变量X与Y之间相关的
主要部分,如果这部分还不能足以解释原始变量,可
以在剩余的相关中再求出第二对典型变量和他们的典 型相关系数。
Σ12 Σ-1 Σ21a1 - λ 2 Σ11a1 0 量为 22 1
-1 Σ11Σ12 Σ-1 Σ21a1 - λ 2a1 0 22
天津商业大学 理学院 杨随根
是 2 ,相应的特征向
将 并将第二式代入,得
Baidu Nhomakorabea
1 1211 左乘(3)的第一式,
1 11211 21 的特征根 22
1 p 2 第一组典型变量U 提取的方差百分数为 r ( X j ,U k ) ; k 1 p j 1
m
1 q 2 第二组典型变量V 提取的方差百分数为 r (Y j ,Vk ) 。 k 1 q j 1
m
第一组典型变量提取的方差被第二组典型变量重复的百分数 (它称为在第一组冗余而在第二组存在的冗余测度) ,
v1 0.0491 y1 0.8975 y2 0.1900 y3
u2 1.4787 x1 1.6443 x2 v2 1.0003 y1 0.5837 y2 0.2956 y3
天津商业大学 理学院 杨随根
四、典型相关的性质
1、同一组的典型变量之间互不相关
uk a x k
GV = Cov Y,V = Cov Y , bY = 22 b ,
GXV Cov X ,V = Cov X , bY = 12 b GYU Cov Y,U = Cov Y , aX = 21 a
天津商业大学 理学院 杨随根
4、冗余度分析
为了了解家庭的特征与其消费模式之间的 关系。调查了70个家庭的下面两组变量:
x1:每年去餐馆就餐的频率 x2:每年外出看电影频率
y1:户主的年龄 y2:家庭的年收入 y :户主受教育程度 3
分析两组变量之间的关系。
天津商业大学 理学院 杨随根
变量间的相关系数矩阵
X1 X1 X2 y1 y2 y3 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 y1 0.26 0.33 1.00 0.37 0.21 y2 0.67 0.59 0.37 1.00 0.35 y3 0.34 0.34 0.21 0.35 1.00
是 2 ,相应的特征向 量为 1
-1 Σ-1 Σ21Σ11Σ12b1 - λ 2b1 0 22
-1 M1 = Σ11 Σ12 Σ-1 Σ 21 22 -1 M 2 = Σ-1 Σ 21 Σ11 Σ12 22
令
M1a = λ 2a M 2b = λ 2b
天津商业大学 理学院 杨随根
在约束条件:
Var (u ) aΣ11a 1
Var (v) bΣ22b 1
下,求a1和b1,使uv达到最大。令 1 α Σ1 2a Σ11 2α a αα 1 11
β Σ1 2b 22
Σ1 2β b 22
杨随根
ββ 1
天津商业大学 理学院
三、典型相关的求解