第七章典型相关分析

合集下载

第7章 相关分析与回归分析(含SPSS)

第7章 相关分析与回归分析(含SPSS)



四、偏相关分析
(一) 偏相关分析和偏相关系数 偏相关分析也称净相关分析,它在控制其他变量 的线性影响的条件下分析两变量间的线性相关性, 所采用的工具是偏相关系数(净相关系数)。

偏相关分析的主要用途是根据观测资料应用偏相 关分析计算偏相关系数,可以判断哪些解释变量对 被解释变量的影响较大,而选择作为必须考虑的解 释变量。这样在计算多元回归分析时,只要保留起 主要作用的解释变量,用较少的解释变量描述被解 释变量的平均变动量。
(7.7)

偏相关系数的取值范围及大小含义与相关系数相 同。
2、对样本来自的两总体是否存在显著的偏相关 进行推断。
(1)提出原假设:两总体的偏相关系数与零无显 著差异。
(2)选择检验统计量。偏相关系数的检验统计量 为 t 统计量。 (3)计算检验统计量的观测值和相伴概率 p 。
(4)给定显著性水平 ,并作出决策。如果相 伴概率值小于或等于给定的显著性水平,则拒绝 原假设;如果相伴概率值大于给定的显著性水平, 则不能拒绝原假设。

(二)偏相关系数在SPSS中的实现

1、建立或打开数据文件后,进入Analyze→ Correlate →Partial主对话框,如图7-6所示。
图7-6 偏相关分析主对话框
2、选择分析变量送入Valiables框,选择控制变
量进入Controlling for框。
3、在Test of Significance 栏中选择输出偏相
图7-7 偏相关分析的选项对话框
(1)Statistics 统计量选择项,有两个选项: ①
Means and standard deviations 复选项,要求
SPSSZero-order correlations 复选项,要求显示零阶

第七章 研究两个场相互关系的SVD方法

第七章 研究两个场相互关系的SVD方法
典型相关分析个空间变量通过线性组合构成一个新变量u同时也将yy个空间变量通过线性组合构成一个新变量v使得新变量u与v之间的相关系数达到极大
第七章
研究两个场相互关系的SVD方法
数学上的SVD分解及其性质 SVD在气象学中的应用
前面学习的EOF(或PCA)方法,主要用于分析单个气象要素场的时空变化结构。 大气科学研究中,还经常需要分析两个气象要素场的时空变化之间的联系,可 采用什么方法来实现? x11 x12 ... x1n y11 y12 ... y1n 设任意两个气象要素场,记为X与 Y,分别有m1和m2个空间点。 方法一:多变量EOF (MV-EOF)
2 ( c )= = k k i 1 j 1 2 ij k 1 k 1 m1 m2 r r
SVD方法在气象学中的应用
通常在气象学中, SVD的用法是: 两个气象要素场,x和y,空间点数分别为m1和m2, 时间点数都为n,计算它们的 标准化资料阵如下:
x11 x 21 X = ( m1 n ) M xm11 x12 ... x1n x22 ... x2 n , M M M xm1 2 ... xm1n y11 y 21 Y = ( m2 n ) M ym2 1 y12 ... y1n y22 ... y2 n M M M ym2 2 ... ym2 n
Σ C = U ( m1 m2 ) ( m1 m1 ) 0
其中,
( m1m2 )
0 T V ( m 0 2 m2 )
u11 u21 U =[u1 , u2 , ..., um1 ] M um11
u12 ... u1m1 u22 ... u2 m1 M M M um1 2 ... um1m1

第七章-相关分析 ppt课件

第七章-相关分析  ppt课件

5
第一,按所涉及的自变量多少分, 有单相关和复相关
第二,按相关关系的表现形式分, 有直线相关和曲线相关
第三,按相关的方向分,有正相关 和负相关。
第四,按相关关系的程度分,有不 相关、完全相关和不完全相关
ppt课件
25
20
15
10
5
0
0
2
4
6
8
10
12
11.2

11
10.8
10.6
10.4
10.2
ቤተ መጻሕፍቲ ባይዱ10
528 340 1310
0.96
5397 41 2 5207 3 01 0 20
ppt课件
例1题5 4
已知:xy146.5 x 12.6 y 11.3 x2 164.2 y2 134.6
求: ?
解:
xyxy
x2
2
x
y2
2
y
14 .5 61.6 21.3 1 16 .2 41.6 22 13 .6 41.3 12
(四)衡量估计值的准确程度
(五)预测因变量
ppt课件
7
第一节完
一、相关图和相关表(P344)
(一)相关图(P344)
1、相关图的概念 2、相关图的作用
(二)相关表(P344-347)
1、相关表的概念 2、相关表的种类
简单相关表(P345)
单变量分组相关表(P346)
分组相关表
双变量分pp组t课相件 关表(P347)
n 1 x y nxy nyxxyn 1xy xyxyxy n 1xyxyxyxy…… (1)
δ xn 1
x x 21
n

第七章 相关分析

第七章 相关分析

(四)按变量多少划分可分为单相关、复相关
1.单相关:两个因素之间的相关关系叫单相关,即研究时只涉 及一个自变量和一个因变量。 2.复相关:二个以上因素的相关关系叫复相关,即研究时涉及 两个或两个以上的自变量和因变量。 偏相关:在某一现象与多种现象相关的场合,当假定其他变 量不边时,其中两个变量之间的相关关系称为偏相关。 在实际工作中,如存在多个自变量,可抓住其中主要的自变 量,研究其相关关系,而保持另一些因素不变,这时复相关为 偏相关。
第七章 直线相关与回 归分析
含秩相关
第一节
相关分析的概念
一、相关分析的概念: 相关分析是分析变量间是否有相关关系,确定相关关系是否 存在,描述相关关系呈现的形式和方向,以及变量间相关的密 切程度的方法。 二、函数关系和相关关系: 函数关系反映变量间的数量上,存在着确定的数量对应关系
,这种关系可用数学函数关系表达式,由一个变量精确计算出 另一个变量。见函数关系散点图和曲线。 相关关系反映变量间存在数量上的相关关系,但不具有确定 性的对应关系。见相关关系散点图和曲线。
三、相关分析内容
相关分析通常包括考察随机变量观测数据的散点图、 计算样本相关系数以及对总体相关系数的显著性检验 等内容。 散点图可以大致判断两个变量之间有无相关关系、 变量间的关系形态以及变量之间的关系密切程度,但 准确度量两个变量之间的关系密切程度,需要计算相 关系数。 一般情况下,总体相关系数ρ是未知的,通常是将 样本相关系数r作为ρ的估计值,于是常用样本相关系 数推断两变量间的相关关系.这一点要和相关系数的 显著性检验结合起来应用。

2.回归分析的种类
(1)根据所涉及变量的多少不同,回归分析可分为简单回归 和多元回归。 简单线性回归又称一元回归或直线回归,是指两个变量之 间的回归,研究一个自变量与另一个因变量的线性趋势数量 关系。 多元线性回归是研究多个自变量与一个因变量的线性趋势 数量关系。 (2)根据变量变化的表现形式不同,回归分析也可分为直线 回归和曲线回归。 对具有直线相关关系的现象,配之以直线方程进行回归分 析,即直线回归; 对具有曲线相关关系的现象,配之以曲线方程进行回归分 析,则称为曲线回归。

新编统计学原理 第七章 相关分析

新编统计学原理 第七章 相关分析
难以固定,难以用数学公式表示。
二、 相关关系的种类
(一) 按研究变量的个数多少,可以分成单 相关和复相关
(二) 按变量之间依存关系的形式,可以分 成线性相关和非线性相关
(三) 按变量变化的方向,可以分成正相关 和负相关
(四) 按相关程度,可以分为完全相关、不 完全相关和不相关
三、 相关分析的内容 (一) 确定现象之间有无相关关系 (二) 研究变量之间相关的密切程度 (三) 检验相关系数的有效性
现象之间的相互依存关系可以分成两种类 型: (一) 函数关系 函数关系具有以下特点:
(1) 变量之间存在着数量上的依存关系。
(2) 变量之间数量上的依存关系的具体关 系值是固定的,可以用数学公式表示。
(二) 相关关系 相关关系的特点: (1) 变量之间确实存在着数量上的依存关系。 (2) 变量之间数量上的依存关系的具体关系值
y y

yˆ ) 2 y)2
二、 复判定系数
(一) 概念
复判定系数是表明因变量y的变化有多少能用 所有的自变量x的联合变化来说明的指标,它 的含义与单判定系数相同(见下章)。复判定 系数用R2表示,它是一个反映整个回归模型 拟合优度的统计量。
(二) 计算公式
R2 1
( y yˆ)2 (y y)2
第三节 多元相关的测定
多元相关应用的范围十分广泛,尤在商务活 动中。例如,将销售额看作是因变量y,而将 与之相关的广告费、销售人员的数量、产品 价格等因素分别看作是影响y的自变量x,那 么,就可以开展一个有关一个因变量与多个 自变量之间多元相关关系的讨论。多元相关 关系分析的思路、原理及方法与一元相关分 析基本相同,只是需要计算一些特有的指标。
新世纪财经系列教科书

第七章 相关分析

第七章 相关分析
2

y
2

2
y
xf 1230 41 x 30 f yf 464 15 . 47 y 30 f xyf 18490 616 . 33 xy 30 f x y
2

x f
2
f

63100 30
2103 . 33
2

y f
2
f

20 20 15 10 5 0
30
40
50
80
相关图
三、相关系数的测定与应用
(一)相关系数的特点 相关系数是测定变量之间相关密切程度 和相关方向的代表性指标。 相关系数用符号“r”表示。
其特点表现在:
(1)参与相关分析的两个变量是对等 的,不分自变量和因变量,因此相关系 数只有一个。 (2)相关系数有正负号反映相关关系 的方向,正号反映正相关,负号反映负 相关。 (3)计算相关系数的两个变量都是随 机变量。
相关关系与函数关系的不同之处表现在:
(1)函数关系指变量之间的关系是确定的, 而相关关系的两变量的关系则是不确定的。可 以在一定范围内变动; (2)函数关系变量之间的依存可以用一定的 方程y=f(x)表现出来,可以给定自变量来推算 因变量,而相关关系则不能用一定的方程表示。 函数关系是相关关系的特例,即函数关系是完 全的相关关系,相关关系是不完全的相关关系。
函数关系和相关关系的联系表现在:
对具有相关关系的现象进行分析时, 则必须利用相应的函数关系数学表达式 来表明现象之间的相关方程式。 相关关系是相关分析的研究对象,函 数关系是相关分析的工具。
三、相关关系的种类
(1)按相关的程度划分,有完全相关、不完 全相关和不相关。 相关分析的主要对象是不完全的相关关系。 (2)按相关的方向来划分,有正相关和负相 关。 正相关指的是因素标志和结果标志变动的方向 一致,负相关指的是因素标志和结果标志变动 的方向相反。

(第七章 相关分析

(第七章 相关分析

统计学
STATISTICS
直线回归分析 第三节 直线回归分析
8 - 25
STAT
回归: 回归:退回 regression
平均身高
1877年 弗朗西斯 高尔顿爵士 年 弗朗西斯高尔顿爵士 学研究 回归线
遗传
STAT
回归分析(regression):通过一个 通过一个 回归分析 或几个变量的变化去解释另一变量的 变化。包括找出自变量与因变量、 变化。包括找出自变量与因变量、设 定数学模型、检验模型、 定数学模型、检验模型、估计预测等 环节。 SxS y
总体相关系数
样本相关系数
相关系数的常用算法: 相关系数的常用算法:
r=
n∑ xy ∑ x∑ y n∑ x (∑ x )
2 2
n ∑ y (∑ y )
2
2
相关系数取值在 -1 与 1 之间。 相关系数取值在 之间。 相关系数是一种对称测量。 相关系数是一种对称测量。 相关系数是一种对称测量 相关系数无量纲,可以进行比较。 相关系数无量纲,可以进行比较。 相关系数无量纲
STAT
二、一元线性回归模型 最小二乘法
STAT
求 a、b 的公式: 、 的公式:
∑ y = na + b∑ x ∑ xy = a∑ x + b∑ x n∑ xy ∑ x ∑ y b= n∑ x (∑ x)
2 2
2
a = y bx
学 身高 体重 生 x y
x2
y2
xy
估计值
残差
47.291 49.448 51.606 53.764 55.921 58.079 60.236 62.394 64.552 66.709
判定系数(Coefficient of determination): 判定系数 估计的回归方程拟合优度的度量, 估计的回归方程拟合优度的度量,表明 Y 的变异性能被估计的回归方程解释的 部分所占比例。 部分所占比例。

生物统计学:第七章 直线回归与相关分析

生物统计学:第七章  直线回归与相关分析

特别要指出的是:利用直线回归方程进行预 测或控制时,一般只适用于原来研究的范围,不 能随意把范围扩大,因为在研究的范围内两变量 是直线关系,这并不能保证在这研究范围之外仍 然是直线关系。若需要扩大预测和控制范围,则 要有充分的理论依据或进一步的实验依据。利用 直线回归方程进行预测或控制,一般只能内插, 不要轻易外延。
(三)、相关系数的显著性检验
统计学家已根据相关系数r显著性t检验法计算出了 临界r值并列出了表格。 所以可以直接采用查表法对相 关系数r进行显著性检验。
先根据自由度 n-2 查临界 r 值 ( 附表8 ), 得 r0.05(n2) ,r0.01(n2)。若|r|< r0.05(n2),P>0.05,则相 关系数r不显著,在r的右上方标记“ns”;若 r0.05(n2) ≤|r|< r0.01(n2) ,0.01<P≤0.05,则相关系数 r 显 著,在r的右上方标记“*”;若|r|≥ r0.01(n2) ,P ≤ 0.01, 则相关系数 r 极显著,在 r 的右上方标记 “**”。
第七章 直线回归与相关分析
在试验研究中常常要研究两个变量间的关系。 如:人的身高与体重、作物种植密度与产量、食品价格与需
求量的关系等。 两个关系 依存关系:依变量Y随自变量X变化而变化。
—— 回归分析 互依关系:依变量Y与自变量X间的彼此关系.
—— 相关分析
一 直线回归
(一)、直线回归方程的建立 对于两个相关变量x和y,如果通过试验或调查 获得它们的n对观测值: (x1,y1),(x2,y2),……,(xn,yn) 为了直观地看出x和y间的变化趋势,可将每一 对观测值在平面直角坐标系描点,作出散点图。
y)2 y)2
SPxy 2 SSxSS y
SPxy SS x

第七章相关分析

第七章相关分析

y 实际值;
y n
c 2
估计值;
自由度。例
Syx
y2aybxy
n2
Syx越小 观测值离回归直线越近,回归直线代表性越大; Syx越大 观测值离回归直线越远,回归直线代表性越小; Syx=0 所有相关点都落在回归直线上,估计结果完全准确。
2.判定系数R2——用来度量回归直线与样本 观察值拟合优劣的程度。
3)从中可以解出:
b

nxy x y nx2 (x)2
a y bx
这样就得到了直线回归方程: yc abx
举例
回归方程 链接开篇案例
回归方程的评价
回归直线或曲线是用来代表变量之间关系的一般水平。根 据回归线推测的因变量显然与实际值有差异,这种差异大小说 明推算的准确性以及回归线代表性的大小。
Q (y a b)2 xm,i分n 别求一阶偏导:
Q 0 a
Q 0 b
Q a2 (yab)x (1 )0 Q b2 [y ( a b)x (x)]0
整理得到二元一次方程:
yn ab x x y a x b x 2
一、相关表和相关图
相关表:是指将相关变量的数值,按标志值的大小 顺序一一对应而平行排列起来的统计表。
例(续前例1)
相关图:在平面直角坐标系中,以横轴表示变量X,纵轴
相关图 表示变量Y,将相关变量的资料数值在坐标图
例(续前例2)
中表示出来(能较直观地看出两个变量之间相 关关系的粗略形式),也称散点图、散布图。
y
回归线 ·· ·······
x
常用的评价回归方程的指标有:估计标准误差 和判定系数
1.估计标准误差——因变量实际值(观测值)y和估计值

统计学原理第七章_相关分析

统计学原理第七章_相关分析

各类相关关系的表现形态图
三、相关分析与回归分析
• (一)相关分析 • 是用一个指标(相关系数)来表明现象 之间相互依存的密切程度。 • (二)回归分析 • 是根据相关关系的具体形态,选择一个 合适的数学模型,来近似地表达变量之 间的平均变化关系。(高度相关)
• (三)相关分析与回归分析的联系
• 1. 它们有具有共同的研究对象。
n
(x x )(y y ) n
σx
(x x )
n
2

(x x ) n
(y y ) n
1
1
2
σy
(y y )
n
2

2
再代入到原公式中,得:
r σ
2 xy
σx y σ

( x x ) ( y y ) ( x x ) ( y y )
2
·· ·②
销售收入 (百万元)
40 30 20 10 0 0 20 40 60 80 100
广告费(万元)
钢材消费量与国民收入
2500
2000
1500
钢材消费量(万吨)
1000
500
0
(相关图)
0
500
1000
1500
2000
2500
3000
国民收入(亿元)
例子
表1 某企业产量与生产费用的关系
企业编号 1 2 3 4 5 6 7 8
量,哪个是因变量,变量都是随机的。
• 2. 回归分析是对具有相关关系的变量间
的数量联系进行测定,必须事先确定变
量的类型。通常因变量是随机的,自变
量可以是随机的,也可以是非随机的。
第二节 简单线性相关分析

统计学第7章相关与回归分析PPT课件

统计学第7章相关与回归分析PPT课件
预测GDP增长
利用回归分析,基于历史GDP数据和其他经济指标,预测未来GDP 的增长趋势。
预测通货膨胀率
通过分析通货膨胀率与货币供应量、利率等经济指标的关系,利用回 归分析预测未来通货膨胀率的变化。
市场研究
消费者行为研究
通过回归分析研究消费者购买决策的影响因素, 如价格、品牌、广告等。
市场细分
利用回归分析对市场进行细分,识别不同消费者 群体的特征和需求。
线性回归模型假设因变量和自变量之间 存在一种线性关系,即当一个自变量增 加时,因变量也以一种可预测的方式增
加或减少。
参数估计
参数估计是用样本数据来估计线性回 归模型的参数β0, β1, ..., βp。
最小二乘法的结果是通过解线性方程 组得到的,该方程组包含n个方程(n 是样本数量)和p+1个未知数(p是 自变量的数量,加上截距项)。
回归模型的评估
残差分析
分析残差与自变量之间的关系, 判断模型的拟合程度和是否存在
异常值。
R方值
用于衡量模型解释因变量变异的 比例,值越接近于1表示模型拟
合越好。
F检验和t检验
用于检验回归系数是否显著,判 断自变量对因变量的影响是否显
著。
05 回归分析的应用
经济预测
预测股票市场走势
通过分析历史股票数据,利用回归分析建立模型,预测未来股票价 格的走势。
回归模型的评估是通过各种统计 量来检验模型的拟合优度和预测 能力。
诊断检验(如Durbin Watson检 验)可用于检查残差是否存在自 相关或其他异常值。
03 非线性回归分析
非线性回归模型
线性回归模型的局限性
线性回归模型假设因变量和自变量之间的关系是线性的,但在实 际应用中,这种关系可能并非总是成立。

第七章 相关与回归分析

第七章  相关与回归分析

总体一元线性 回归方程:
Yˆ EY X
以样本统计量估计总体参数
(估计的回归方程)
样本一元线性回归方程: yˆ a bx
(一元线性回归方程)
截距 斜率(回归系数)
截距a 表示在没有自变量x的影响时,其它各 种因素对因变量y的平均影响;回归系数b 表
明自变量x每变动一个单位,因变量y平均变 动b个单位。
n x2 x2 n y2 ( y)2
1637887 916 625
0.9757
16 55086 9162 16 26175 6252
r 2 0.97572 0.9520
第七章 回归分析与相关分析
第七章 相关与回归分析
STAT
★ 第一节 相关分析概述 ★ 第二节 一元线性回归分析
第七章 回归分析与相关分析
yˆ a bx是理论模型,表明x与y变量 之间的平均变动关系,而变量y的实际
值应为yi (a bxi ) i yˆ i
X对y的线性影响而形 成的系统部分,反映两 变量的平均变动关系, 即本质特征。
随机干扰:各种偶然 因素、观察误差和其 他被忽视因素的影响
体重(Y)
75 70 65 60 55 50 45 40
b
n xy x y
n x2 x2
16 37887 916 625 16 55086 9162
0.7961
a y bx 625 0.7961 916 6.5142
16
16
即线性回归方程为:
yˆ 6.5142 0.7961x
计算结果表明,在其他条件不变时,能源消耗 量每增加一个单位(十万吨),工业总产值将 增加0.7961个单位(亿元)。
函数关系 相关关系

第七章相关分析与回归分析资料

第七章相关分析与回归分析资料
• 若相关系数是根据总体全部数据计算的,
称为总体相关系数,记为
• 若是根据样本数据计算的,则称为样本
相关系数,记为 r
15
总体相关系数的定义式是:
Cov( X ,Y )
ρ=
Var( X )Var(Y )
(7.1)
式中,Cov(X,Y)是变量 X 和 Y 的协方差;
Var(X)和 Var(Y)分别为变量 X 和 Y 的方差。
现象之间客观存在的不严格、不确定的数量 依存关系。
6
(相关关系)
(1)变量间关系不能用函数关 系精确表达;
(2)一个变量的取值不能由另 y 一个变量唯一确定;
(3)当变量 x 取某个值时, 变量 y 的取值可能有几个;
(4)各观测点分布在直线周围。
x
7
相关关系的例子
▪ 商品的消费量(y)与居民收入(x)之间的关系 ▪ 商品的消费量(y)与物价(x)之间的关系 ▪ 商品销售额(y)与广告费支出(x)之间的关系 ▪ 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、
(2)设有两个变量 x 和 y ,
变量 y 随变量 x 一起变化,y
并完全依赖于 x ,当变量 x 取某个数值时, y 依确定
的关系取相应的值,则称
y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y
称为因变量
x
(3)各观测点落在一条线上
4
函数关系的例子
▪ 某种商品的销售额(y)与销售量(x)之间的关 系可表示为 y = p x (p 为单价)
温度(x3)之间的关系 ▪ 收入水平(y)与受教育程度(x)之间的关系 ▪ 父亲身高(y)与子女身高(x)之间的关系
8
二、相关关系的种类

第7章相关分析

第7章相关分析

7.1.2 相关分析
1. 相关分析的作用 (1) 判断变量之间有无联系。 (2) 确定选择相关关系的表现形式及相关分析方法。 (3) 把握相关关系的方向与密切程度。 (4) 相关分析不但可以描述变量之间的关系状况,而且用来进行预 测。 (5) 相关分析还可以用来评价测量量具的信度、效度以及项目的区 分度等。 2. 相关系数 相关系数是在直线相关条件下,说明两个变量之间相关程度以及 相关方向的统计分析指标。 相关系数的数值范围是介于–1~+1之间(即–1≤r≤1),常用小数形式 表示,一般要取小数点后两位数字来表示,以便比较精确地描述 其相关程度。
n
(xi x)( yi y)
r
i 1
n
n
(xi x)2 ( yi y)2
i 1
i 1
7.2.1 简单相关分析的基本原理
2. 相关系数 (2) Spearman等级相关系数。
用来度量顺序水准变量间的线性相关关系。它是利用两变量的秩 次大小作线性相关分析,适用条件为: ①两个变量的变量值是以等级次序表示的资料; ②一个变量的变量值是等级数据,另一个变量的变量值是等距或 比率数据,且其两总体不要求是正态分布,样本容量n不一定大于 30。 从斯皮尔曼等级相关适用条件中可以看出,等级相关的应用范围 要比积差相关广泛,它的突出优点是对数据的总体分布、样本大 小都不做要求。但缺点是计算精度不高。斯皮尔曼等级相关系数 常用符号来表示。其基本公式为:
7.3.3 课堂练习:用偏相分析研究学生学习成 绩相关关系
3. 实例结果分析
(1) 描述性统计Байду номын сангаас表。
从下表中可以看出,参与偏相关两个变量的样本数是 20,体重的 平均值是 36.1,标准差是 6.5515,肺活量的平均值是 2.15,标准 差是 0.52815,身高的平均值是 151.08,标准差是 8.86588。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
T Var(U1 ) = Var(aT 1 X) = a1 Σ11 a1 , T Var(V1 ) = Var(bT 1 Y ) = b1 Σ22 b1 , T T Cov(U1 , V1 ) = Cov(aT 1 X, b1 Y ) = a1 Σ12 b1 ,
(7.3)
(7.4)
V1 = bT 1 Y.
a1 ,b1 T s.t. aT 1 Σ11 a1 = 1, b1 Σ22 b1 = 1.
(7.8)
如此确定的(U1 , V1 )称为X和Y的第一对典型变量,而相应的相关系数ρU1 ,V1 称为第一典 型相关系数。 如果(U1 , V1 )还不足以反映X和Y之间的相关性,可进一步构造第二对线性组合 U2 = aT 2 X, 54 V2 = bT 2 Y. (7.9)
来度量。 但在许多实际问题中,需要研究两组随机变量之间的相关性。 例如,工厂 质量管理人员需要了解原料的主要指标X1 , · · · , Xp 和产品的主要质量指标Y1 , · · · , Yq 之 间的相关性,以采取措施提高产品质量;在生物学中,常常需要了解某生物种群状 况(用一组变量X1 , · · · , Xp 描述)与其生活环境状况(用另一组变量Y1 , · · · , Yq 描述) 之间的相关性,这对于保持生态平衡具有指导意义;在流行病学研究中,需要了解 某种传染病情况(用一组变量X1 , · · · , Xp 刻画)和自然环境及社会环境(用另一组变 量Y1 , · · · , Yq 刻画)之间的相关性,一边制定有效的控防策略,等等。 总之,了解两组 变量的相关性有其广泛的应用背景。 虽然利用(7.1)式可以了解每对变量Xi 和Yj 之间 的相关性,但不能全面反映两组变量间的整体相关性,尤其当两组变量的维数均较大 时,只孤立地了解各对变量之间的相关性,也不利于实际问题的全面分析和解决。 受主成分分析思想的启发,我们可以分别构造各组变量的适当线性组合,将两组 变量的相关性转化为两个变量的相关性来考虑。具体地说,设X1 , · · · , Xp 和Y1 , · · · , Yq 是 感兴趣的两组变量,令 U = aT X, V = bT Y , (7.2)
ak ,bk T s.t. aT k Σ11 ak = 1, bk Σ22 bk = 1, T aT k Σ11 al = 0, bk Σ22 bl = 0, 1 ≤ l < k.
Vk = bT k Y,
(7.12)
(7.13)
如此确定的(Uk , Vk )称为X和Y的第k 对典型变量,而相应的相关系数ρUk ,Vk 称为第k 典型 相关系数。 7.2.2 总体典型变量与典型相关系数的求法
(7.5)
(7.6)
U1 和V1 的相关系数为 ρU1 ,V1 = √
aT 1 Σ12 b1 √ . T T a1 Σ11 a1 b1 Σ22 b1
(7.7)
典型相关分析即确定a1 和bb1 ,使得ρU1 ,V1 达到最大。由于a1 和b1 乘以常数时目标函数值 不变,因此得到优化问题: max aT 1 Σ12 b1 ,
其中X = (X1 , · · · , Xp )T , Y = (Y1 , · · · , Yq )T 。我们要确定向量a和b使得U, V 之间的相关 性最大。此时我们称(U, V )为一对典型变量。若只有一对典型变量还不足以提取所给两 组变量的相关性,则考虑构造第二对、第三对等等,并是个对典型变量所提取的相关 性不相重叠(即不同对典型变量之间互不相关) 。这样,我们就将两组变量间的相关性 凝结为少数几对典型变量之间的相关性,通过相关性较大的少数几对典型变量的研究 来了解原来的两组变量相关性,从而容易抓住问题的本质。 53
第七章 除要求U2 和V2 具有单位方差,即
典型相关分析T aT 2 Σ1 a2 = b2 Σ22 b2 = 1
(7.10)
外,还要求(U2 , V2 )反映的相关性与(U1 , V1 )的不重叠,即(U2 , V2 )与(U1 , V1 )不相关: Cov(U2 , U1 ) = Cov(V2 , V1 ) = 0. 因此得到优化问题 max aT 2 Σ12 b2 ,
a2 ,b2 T s.t. aT 2 Σ11 a2 = 1, b2 Σ22 b2 = 1, T aT 2 Σ11 a1 = 0, b2 Σ22 b1 = 0.
(7.11)
如此确定的(U2 , V2 )称为X和Y的第二对典型变量,而相应的相关系数ρU2 ,V2 称为第二典 型相关系数。 一般地,若前k − 1对典型变量还不足以反映X与Y的相关信息,则构造第k 对线性 组合: Uk = aT k X, 求解如下优化问题: max aT k Σ12 bk ,
第七章
典型相关分析
(本章内容选自[2]并更正了其中的重大错误)
7.1
引言 典型相关分析着眼于识别和量化两组随机变量之间的相关性,它是两个随机变量
之间的相关性在两组变量之下的推广。 我们知道,两个随机变量X 和Y 的相关性可用它们之间的相关系数 Cov(X, Y ) ρX,Y = √ Var(X )Var(Y ) (7.1)
智能科学系教材—— 数据分析基础 7.2 7.2.1 总体的典型变量与典型相关 总体的典型变量的定义
设有两组随机变量 X = (X1 , · · · , Xp )T , Y = (Y1 , · · · , Yq )T
(XT , YT )T = (X1 , · · · , Xp , Y1 , · · · , Yq )T 的协方差矩阵为 ) ( Σ11 Σ12 , Σ= Σ21 Σ22 其中 Σ11 = Cov(X), Σ22 = Cov(Y), Σ12 = ΣT 21 = Cov(X, Y ), 并假定Σ11 和Σ22 为满秩矩阵,且不失一般性可设p ≤ q . 根据典型相关分析的思想,分别考虑X和Y的线性组合 U1 = aT 1 X, 由于
利用推导主成分的类似方法,可以给出各典型变量对的具体表达式和相应的典型 相关系数。令
1/2 ˜k = Σ11 a a,
相关文档
最新文档