第4章 典型相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

-1.4787
X2
0.2721
1.6443
Y组典型变量的系数
V1
V2
Y1
0.0491
1.0003
Y2
0.8975
-0.5837
Y3
0.1900
0.2956
u1 0.7689 x1 0.2721x2 v1 0.0491y1 0.8975 y2 0.1900 y3 u2 1.4787 x1 1.6443x2 v2 1.0003 y1 0.5837 y2 0.2956 y3
三、样本典型相关系数
在实际应用中,总体的协方差矩阵常常是未知的, 类似于其他的统计分析方法,需要从总体中抽出一个样 本,根据样本对总体的协方差阵或相关系数阵进行估计, 然后利用估计得到的协方差阵或相关系数阵进行分析。 由于估计中有抽样误差的存在,所以估计以后还需要进 行有关的假设检验。
23
1、假设有X组和Y组变量,样本容量为n。假设( X1, Y1), ( X2, Y2),…, ( Xn, Yn),观测值矩阵为:
所以,典型相关分析就是求1和1,使二者的相关系
数 u1达,v1到最大。
(二)典型相关系数和典型变量的求法
在约束条件 Var(u1) 1111 1 Var(v1) 1221 1 下,求1和1,使u1v1达到最大。
根据数学分析中条件极值的求法,引入Lagrange乘数, 求极值问题,则可以转化为求
U (u1,, ur ) V (v1,, vr )
从而达到降维的目的。
二、典型相关的数学描述
(一)想法 考虑两组变量的向量
Z (x1, x2,, xp , y1, y2,, yq )
其协方差阵为
Σ
Σ11 Σ21
p
Σ12 p Σ22 q
q
其中11是第一组变量的协方差矩阵;22是第二组变量的协方差 矩阵;12 和21是X和Y的其协方差矩阵。
将12111 左乘(3)的第一式,并将第二式代入,得
21111211 121 0
21111121 2221 0
21221111121 21 0

A1
B2
11112 221 21 221 2111112
1
1
22 12 11 21
的特征根
是 2 ,相应的特征向
量为 1

M1 M 2
例 家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的关系。 调查了70个家庭的下面两组变量:
xx12::每每年年去外餐出馆看就电餐影的频频率率
y1:户主的年龄
y2:家庭的年收入
y3:户主受教育程度
分析两组变量之间的关系。
变量间的相关系数矩阵
X1
X2
y1
y2
y3
X1
1.00 0.80 0.26 0.67 0.34
(一)整体检验 (H0 : xy 0; H1 : xy 0)
H0 : 1 r 0,即典型相关系数均为零; H1 : i (i 1,2,,r)中至少1不为零
检验的统计量:
0
|
| S xx
S ||
| S yy
|
27
因为
S
Sxx Syx
Sxy
Syy
I
0 S xx
Sxy I
S S 1 xx xy
(1,
1
)
1121
2
(1111
1)
2
(122
1
1)
(1)
的极大值,其中和是 Lagrange乘数。
1
121
111
0
1
211
221
0
(2)
121 111 0 211 221 0
(3)
将上面的3式分别左乘1 和 1
1121 1111 0 1 21 1 1221 0
11122111
y3
0.34 0.34 0.21 0.35 1.00
典型相 关系数
典型相关分析
调整典型 相关系数
近似方差
典型相关系 数的平方
1 0.687948 0.687848
0.005268
0.473272
2 0.186865 0.186638
0.009651
0.034919
X组典型变量的系数
U1
U2
X1
0.7689
2 2
引理:AB和BA有相同的非零特征根.A’和A有相同的非零 特征根.

M
1
M 2
1
1
11 12 22 21
1
1
22 21 11 12

N1
N2
1/ 2
1
1/ 2
11 12 22 21 11
1/ 2
1
1/ 2
22 21 11 12 22
有相同的非零特征根。
典型相关分析
一、什么是典型相关分析及基本思想
通常情况下,为了研究两组变量
(x1, x2,, xp ) ( y1, y2,, yq )
的相关关系,可以用最原始的方法,分别计 算两组变量之间的全部相关系数,一共有pq 个简单相关系数,这样又烦琐又不能抓住问 题的本质。如果能够采用类似于主成分的思 想,分别找出两组变量的各自的某个线性组 合,讨论线性组合之间的相关关系,则更简 捷。
xn1
x1
xnp xp
y11 y1 y21 y1 y31 y1 y41 y1
yn1 y1
y1q yq
y2q
yq
y3q yq
y4q
yq
ynq
yq
样本的协方差:ˆ
Hale Waihona Puke n1 1ZZ
n
1
1
S S
xx yx
S S
xy yy
25
2、计算特征根和特征向量
令:Mˆ 1
(
Sxx1S
两个反映消费的指标与第一对典型变量中u1的相关 系数分别为0.9866和0.8872,可以看出u1可以作为消 费特性的指标,第一对典型变量中v1与Y2之间的相关 系数为0.9822,可见典型变量v1主要代表了了家庭收入, u1和 v1的相关系数为0.6879,这就说明家庭的消费与 一个家庭的收入之间其关系是很密切的;第二对典型变 量中u2与x2的相关系数为0.4614,可以看出u2可以作 为文化消费特性的指标,第二对典型变量中v2与Y1和 Y3之间的分别相关系数为0.8464和0.3013,可见典型 变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和 受教育程度之间的有关。
15
结论:2 既是M1又是M2的特征根,1 和 1是相应于M1
和M2的特征向量。
至此,典型相关分析转化为求M1和M2特征根和特征 向量的问题。
第一对典型变量提取了原始变量X与Y之间相关的 主要部分,如果这部分还不足以解释原始变量,可以再 求第二对典型变量和他们的典型相关系数。
再求第二对典型变量和他们的典型相关系数。 设第二对典型变量为:
xy
S
S 1
yy
yx
)
令:Mˆ 2
(S
S 1
yy
yx
S xx1S
xy
)
求M1和 M2的特征根 12 22 ,2r 对应的特征向
量 i和i (i 1,2,, r)。则特征向量构成典型变量的系 数,特征根为典型变量相关系数的平方。
26
四、典型相关系数的检验
典型相关分析是否恰当,应该取决于两组原变量之间是 否相关,如果两组变量之间毫无相关性而言,则不应该作典 型相关分析。用样本来估计总体的典型相关系数是否有误, 需要进行检验。
可得:
0
|S| | Sxx || Syy |
I
S
S 1
xx
xy
S
S 1
yy
yx
I

(1
12
)(1
22
)(1
2p
)
p
(1
i1
i2
)
0越小,则拒绝原假设,支持备择假设。
30
在原假设为真的情况下,检验的统计量
Q1
n
1 2
(
p
q
3)
ln
1
近似服从自由度为pq的2分布。在给定的显著性
水平下,如果22 (pq),则拒绝原假设,认为至少
Syx
S1 xx
I
S
yx
Syy
0
I
Sxx
0
0
Syy
Syx
S
S 1
xx
xy
所以,两边同时求行列式,有
I
S
yx
S1 xx
0 Sxx I Syx
Sxy I Syy 0
S
S 1
xx
xy
Sxx
I
Syx
Sxy Syy
28
| S | Sxx S yx
S xy S yy
S yy
S xx
S
xy
S
S 1
yy
我们记两组变量的第一对线性组合为:u1 1X 1 (a11, a21,, ap1)
1 (11, 21,, q1)
v1 1Y
Var(u1) 1Var(X )1 1111 1 Var(v1) 1Var(Y )1 1221 1
u1,v1 Cov(u1, v1) 1Cov( X ,Y )1 1121
yx
Syy Sxx I Sxx1SxySyy1Syx
0
|
| Sxx
S| || Syy
|
I
Sxx1SxySyy1Syx
I Mˆ
29
由于 λˆI Mˆ λˆI I I Mˆ (1 λˆ )I (I Mˆ )
所以若M的特征根为 ,则(l-M)的特征根
为(1-)。根据矩阵行列式与特征根的关系,
第一对典型变量之间的相关性显著。再检验下一对典型
变量之间的相关性。直至相关性不显著为止。对两组变
量x和y进行典型相关分析,采用的也是一种降维技术。
我们希望使用尽可能少的典型变量对数,为此需要对一
些较小的典型相关系数是否为零进行假设检验。H0经检
验被拒绝,则应进一步检验假设。
31
(二)部分总体典型相关系数为零的检验
x11 x1p y11 y1q
x21
x2 p
y21
y2q
Z
x31
x41
x2 p x4 p
y31 y41
y3q
y4q
xn1
xnp
yn1
ynq
24
x11 x1 x1p xp
x21
x1
x2 p xp
Z
x31 x41
x1 x1
x2 p xp x4 p xp
u2 2 x v2 2 y
在约束条件:Var(u2 ) 2 112 1
Var(v2 ) 2222 1
cov(u1,u2 ) cov(1x,2 x) 1112 0 cov(v1,v2 ) cov(1y, 2 y) 1112 0
cov(u1,v2 ) cov(1x, 2y) 1122 0
y2:家庭的年收入
y3:户主受教育程度
分析两组变量之间的关系。
变量间的相关系数矩阵
X1
X2
y1
y2
y3
X1
1.00 0.80 0.26 0.67 0.34
X2
0.80 1.00 0.33 0.59 0.34
y1
0.26 0.33 1.00 0.37 0.21
y2
0.67 0.59 0.37 1.00 0.35
完为止。
u1 a11x1 a21x2 a p1xp
v1 b11 y1 b21 y2 bq1 yq
u2 a21x1 a22x2 a2pxp
v2 b21y1 b22y2 b2q yq
u2和v2与u1和v1相互独立,但u2和v2相关。 如此继续下去,直至进行到r步,rmin(p,q), 可以得到r组变量。
cov(u2,v1) cov(2x, 1y) 2121 0 求使 cov(u2,v2 ) 2122 达到最大的 2 和 2 。
例 家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的关系。 调查了70个家庭的下面两组变量:
xx12::每每年年去外餐出馆看就电餐影的频频率率
y1:户主的年龄
y1
x1
uv22
a12 x1 b12 y1
a22x2 b22 y2
b32
y3
y2
x2
(u2, v2 ) ?
y3
典型相关分析的思想:
首先分别在每组变量中找出第一对线性组合,使其具
有最大相关性,然后再在每组变量中找出第二对线性组合,
使其分别与本组内的第一线性组合无关,第二对本身具有
次大的相关性。如此下去,直至两组变量的相关性被提取
X2
0.80 1.00 0.33 0.59 0.34
y1
0.26 0.33 1.00 0.37 0.21
y2
0.67 0.59 0.37 1.00 0.35
y3
0.34 0.34 0.21 0.35 1.00
Vu11
a11x1 b11 y1
a21x2 b21 y2
b31 y3
(u1, v1) ?
在解决实际问题中,这种方法有广泛的应用。如, 在工厂里常常要研究产品的p个质量指标 (x1, x2,, xp ) q个原材料的指标 ( y1, y2,, yq ) 之间的相关关系;也可 以是采用典型相关分析来解决的问题。如果能够采用 类似于主成分的思想,分别找出两组变量的线性组合 既可以使变量个数简化,又可以达到分析相关性的目 的。
1111 1221
则: 1121,且是u1和v1之间的相关系数
将 12212左乘(3)的第二式,得
12212211 12212221 0
12212211 121 0 并将第一式代入,得
12212211 2111 0 11112212211 21 0
1111221221的特征根 是 2 ,相应的特征向 量为 1
H0:P2=…=Pr=0
Hl:P2,P3,Pr至少有一个不为零。若原假设H0被接 受,则认为只有第一对典型变量是有用的;若原假设 H0被拒绝,则认为第二对典型变量也是有用的,并进 一步检验假设:
相关文档
最新文档