主成分估计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

p
∑ α^ 0 Ι - Zi1 α^ i1 - … - Zip α^ ip ) = Y'Y - nY2ቤተ መጻሕፍቲ ባይዱ-
λ -1 ij
Y'
Zij
Z
ij
'
Y.
j =1
令 Ci = Zi 'Y,则
数学学习与研究 2019. 12
高教视野
GAOJIAO SHIYE
13
p
∑ RSS( i1 ,…,iq ) = Y'Y - nY2 -
变异的最大方向、群点的散布范围等. 由于主成分对原变量
进行了综合,这样 就 可 以 克 服 多 重 共 线 性 所 造 成 的 信 息 重
叠的作用,从而消除多重共线性对回归建模的影响.
三、主成分回归的计算方法
主成分分析法可以保证数据信息损失最小的前提下,
经线性变换和舍弃 一 小 部 分 信 息,以 少 数 新 的 综 合 变 量 取
现在要求一个综合变量 F1 ,F1 是 x1 ,…,xp 的线性组合,即 F1 = Xa1 ,‖a1 ‖ = 1. 要使得 F1 能携带最多的变异信息,即要求 F1 的方差达
到最大值. 这里,我们不限定样本点集合一定是随机抽样得
到的,因此,F1 的方差为
Var( F1 )
=
1 n
‖F1 ‖2
=
1 n
高教视野
12
GAOJIAO SHIYE
主成分估计分析
◎孙嘉聪 沈 丹 王 飞 ( 渤海大学,辽宁 锦州 121000)
【摘要】主成分估计是另一种改进最小二乘估计的有偏 估计. 主成分分析是基于当人们在研究诸多的标识( 变量) 时,总不能穷尽所有的因素,从而假设能找到一些具有代表 性的因素,且这些因素尽可能多地保留原有自变量的信息. 采用这种思想将原来的回归变量变换为另一组变量( 主成 分) ,然后选择其中一部分重要的主成分作为新的变量,然 后用最小二乘估 计 方 法 对 所 选 的 主 成 分 进 行 估 计 ,最 后 转 回到原来的模型参数的估计.
λ -1 ij
C2ij

j =1
当 q 确定时,λi-j 1 Cij 保留较大的主成分,RSS 取较小值.
令 uij
=
λ -1 ij
C2i

i
= 1,…,p) .
( 一) Cp— 准则
若保留主成分 Zi1 ,…,Zip ,则相应的 Cp 统计量为:
q
∑ Cp
=
RSS σ^ 2

n
+ 2q
+2
=
Y'Y - σ^ 2
a1T XT Xa1
=
a1T Va1 .
其中,记 V =
1 n
XT X
是数据表的协方差矩阵.

X
中的
变量均是标准化变量时,V 就是 X 的相关系数矩阵.
四、选取主成分的准则
对主成分估计,有一个选择保留成分个数的问题. 应用
上也要通过数据来确定. 通常采用的方法有两种: 一种是略
去特征根接近于零的那些主成分; 另一种是选择 r,使得前 r
代原始采用的多维变量.
记 X 是一个有 n 个样本点和 p 个变量的数据表
e1T X = ( xij ) n×p = = [x1 ,…,xp ],
eTn
样本 点 ei = ( xi1 ,…,xip ) T ∈ RP ,变 量 xj = ( x1j ,…, xnj ) T ∈Rn .
为推导方便,且不 失 一 般 性,设 该 数 据 表 是 标 准 化 的.
nY2

uij
j =1
σ^ 2
- n + 2q + 2.
参数 β 的估计.
( ) ( ) ~
β
= Φ α^ 1 α^ 2
=
( Φ1
Φ2 ) α^ 1 0
= Φ1 Λ1-1 Z1 'Y
=
Φ1 Λ1-1 Φ1 'X'Y.
( 3)

β 就是 β 的主成分估计.
二、主成分估计方法
从上面分析我们 可 以 看 出,主 成 分 估 计 方 法 其 实 是 对
高维变量空间进行 了 降 维 处 理,当 然 在 降 低 多 变 量 数 据 系
统的维数外,主成 分 分 析 同 时 还 简 化 了 变 量 系 统 的 统 计 数
字特征. 对任意一个变量,描述它们自身及相互关系的数字
特征包括均值、方差、协方差等,经主成分分析后,每个新变
量的均值为零,协方差亦等于零,所以变量系统的数字特征
减少了,主成分分析在对多变量系统进行简化的同时,还可
以提供许多重要的系统信息,例如,群点的中心位置、数据
[ ] α = α1 . α2
对模型( 2) 应用最小二乘法,得到 α0 和 α1 的最小二乘
估计:
∑ α^ 0
=Y=
1 n
n
yi ,
i =1
α^ 1 = ( Z1 'Z1 ) -1 Z1 'Y = Λ1-1 Z1 'Y.
根据前面的分析从模型中剔除后面 p - r 个主成分,相
当于用 α^ 2 = 0 去估计 α2 . 因为 β = Φα,所以可得到原来的
个特征根之和在 p 个特征根总和中所占的比例达到预先给
定的值. 选择 r 的问题实际上是典则形式中选择自变量的
问题.
下面我们结合变量选择的准则做一些讨论.
在模型 Y = α0 Ι + Zα + e,E( e) = 0,cov( e) = σ2 I 下, 令 RSS( i1 ,…,iq ) = ( Y - α^ 0 Ι - Zi1 α^ i1 - … - Zip α^ ip ) '( Y -
【关键词】主成分估计; 主成分回归; 数理统计
一、主成分回归的原理
回归模型
Y = α0 Ι + Xβ + e,E( e) = 0,cov( e) = σ2 I, ( 1)
其中 X 已经中心化,记 λ1 ≥ λ2 ≥ … ≥ λp > 0,为 X'X
的特征根,φ1 ,φ2 ,…,φp 为对应的标准化特征向量. 记 Φ =
( φ1 ,φ2 ,…,φp ) ,那么模型( 1) 的典则形式为
Y = α0 Ι + Zα + e,E( e) = 0,cov( e) = σ2 I.
( 2)
典则形式就是把原回归变量的主成分为新的自变量的
回归模型. 如果设计矩阵 X 成病态,那么 X'X 的特征根 λ1 , λ2 ,…,λp 中有一部分很小,不妨设 p - r 个很小,即 λr+1 ,…, λp ≈ 0,这时 p - r 个新自变量( 主成分) zr+1 ,…,zp ,事实上, 当 λi 很小时,主成分 Zi ' = ( z1i ,z2i ,…,zpi ) 在 n 次试验中变 化很小. 应 用 中 通 常 将 特 征 值 较 小 的 主 成 分 剔 除. 设
相关文档
最新文档