ch 1 主成分分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节 主成分的几何意义及数 学推导
一 主成分的几何意义
二 主成分的数学推导
一、主成分的几何意义
主成分分析数学模型中的正交变换, 主成分分析数学模型中的正交变换,在几何上就是作一个坐 标旋转。因此,主成分分析在二维空间中有明显的几何意义。 标旋转。因此,主成分分析在二维空间中有明显的几何意义。 假设共有n个样品 每个样品都测量了两个指标( 个样品, 假设共有 个样品,每个样品都测量了两个指标(X1, X2),它们大致分布在一个椭圆内如图 所示。事实上, ),它们大致分布在一个椭圆内如图 所示。事实上, 它们大致分布在一个椭圆内如图6.1所示 散点的分布总有可能沿着某一个方向略显扩张, 散点的分布总有可能沿着某一个方向略显扩张,这个方向就 把它看作椭圆的长轴方向。显然,在坐标系x 把它看作椭圆的长轴方向。显然,在坐标系 1Ox2中,单独 看这n个点的分量 个点的分量X 它们沿着x 方向和x 看这 个点的分量 1和X2,它们沿着 1方向和 2方向都具有 较大的离散性,其离散的程度可以分别用的X 方差和X 较大的离散性,其离散的程度可以分别用的 1方差和 2的方 差测定。如果仅考虑X 中的任何一个分量, 差测定。如果仅考虑 1或X2中的任何一个分量,那么包含在 另一分量中的信息将会损失,因此, 另一分量中的信息将会损失,因此,直接舍弃某个分量不是 降维”的有效办法。 “降维”的有效办法。
i = 1, 2,L, m
Cov(Yi , Yk ) = Cov(Ti′ X, Tk ′ X) = Ti′Cov ( X, X)Tk ′′ = Ti′ ΣTk i, k = 1, 2,L, m 这样, 我们所要解决的问题就转化为, 这样, 我们所要解决的问题就转化为 , 在新的变量 Y1 ,L , Ym 相
考虑两种极端的情形: 考虑两种极端的情形:
一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆, 一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主 成分只含有二维空间点的约一半信息,若仅用这一个综合变量, 成分只含有二维空间点的约一半信息,若仅用这一个综合变量, 则将损失约50%的信息,这显然是不可取的。造成它的原因是, 则将损失约 %的信息,这显然是不可取的。造成它的原因是, 原始变量X 的相关程度几乎为零,也就是说, 原始变量 1和X2的相关程度几乎为零,也就是说,它们所包含 的信息几乎不重迭,因此无法用一个一维的综合变量来代替。 的信息几乎不重迭,因此无法用一个一维的综合变量来代替。 另一种是椭圆扁平到了极限,变成y 轴上的一条线, 另一种是椭圆扁平到了极限,变成 1轴上的一条线,第一主成 分包含有二维空间点的全部信息, 分包含有二维空间点的全部信息,仅用这一个综合变量代替原 始数据不会有任何的信息损失, 始数据不会有任何的信息损失,此时的主成分分析效果是非常 理想的,其原因是,第二主成分不包含任何信息, 理想的,其原因是,第二主成分不包含任何信息,舍弃它当然 没有信息损失。 没有信息损失。
(6.3)
(6. 4)
,这组新的变 我们希望寻找一组新的变量 Y1 ,L , Ym ( m ≤ p ) 这组新的变 , 量要求充分地反映原变量 X 1 ,L, X p 的信息,而且相互独立。 的信息,而且相互独立。 这里我们应该注意到, 这里我们应该注意到,对于 Y1 ,L , Ym 有
D (Yi ) = D (Ti′ X) = Ti′ D ( X)Ti′′ = Ti′ ΣTi
主成分分析也称主分量分析,是由 主成分分析也称主分量分析,是由Hotelling于1933年首先提 于 年首先提 出的。由于多个变量之间往往存在着一定程度的相关性。人 出的。由于多个变量之间往往存在着一定程度的相关性。 们自然希望通过线性组合的方式, 们自然希望通过线性组合的方式,从这些指标中尽可能快地 提取信息。当第一个线性组合不能提取更多的信息时, 提取信息。当第一个线性组合不能提取更多的信息时,再考 虑用第二个线性组合继续这个快速提取的过程, 虑用第二个线性组合继续这个快速提取的过程,……,直到 , 所提取的信息与原指标相差不多时为止。 所提取的信息与原指标相差不多时为止。这就是主成分分析 的思想。一般说来,在主成分分析适用的场合,用较少的主 的思想。一般说来,在主成分分析适用的场合, 成分就可以得到较多的信息量。以各个主成分为分量, 成分就可以得到较多的信息量。以各个主成分为分量,就得 到一个更低维的随机向量;因此, 到一个更低维的随机向量;因此,通过主成分既可以降低数 维数”又保留了原数据的大部分信息。 据“维数”又保留了原数据的大部分信息。
T1′ ΣT1 = λ
(6.5)
(6.6)
(6.7)
(6.8)
为非负定的,其特征方程(6.7)的根均大于零, 的根均大于零, 由于 X 的协差阵 Σ 为非负定的,其特征方程 的根均大于零 那么, 不妨设 λ1 ≥ λ2 ≥ L ≥ λp ≥ 0 。由 (6.8)知道 Y1 的方差为 λ 。那么, 知道
sin θ X 1 = T′X cos θ X 2
(6.2) )
其中, 为旋转变换矩阵,它是正交矩阵, 其中, T′ 为旋转变换矩阵,它是正交矩阵,即有 T′ = T −1 或 T′T = I 。
易见, 个点在新坐标系下的坐标 个点在新坐标系下的坐标Y 几乎不相关。 易见,n个点在新坐标系下的坐标 1和Y2几乎不相关。称它 们为原始变量X 的综合变量, 个点 个点y 们为原始变量 1和X2的综合变量,n个点 1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息 个样品的最大量信息。 到最大,即在此方向上包含了有关 个样品的最大量信息。 因此,欲将二维空间的点投影到某个一维方向上,则选择y 因此,欲将二维空间的点投影到某个一维方向上,则选择 1 轴方向能使信息的损失最小。我们称Y 为第一主成分, 轴方向能使信息的损失最小。我们称 1为第一主成分,称Y2 为第二主成分。 为第二主成分。第一主成分的效果与椭圆的形状有很大的关 椭圆越是扁平, 个点在 轴上的方差就相对越大, 个点在y 系,椭圆越是扁平,n个点在 1轴上的方差就相对越大,在y2 轴上的方差就相对越小,用第一主成分代替所有样品所造成 轴上的方差就相对越小, 的信息损失也就越小。 的信息损失也就越小。
图6.1 主成分的几何意义
如果我们将该坐标系按逆时针方向旋转某个角度 θ 变成新坐 是椭圆的长轴方向, 是椭圆的短轴方向。 y 这里 y1 是椭圆的长轴方向 , 2 是椭圆的短轴方向。 标系 y1Oy2 , 旋转公式为 Y1 = X 1 cos θ + X 2 sin θ (6.1) ) Y2 = − X 1 sin θ + X 2 cos θ 的线性组合, 我们看到新变量 Y1 和 Y2 是原变量 X 1 和 X 2 的线性组合,它的 矩阵表示形 式为: 式为: Y1 cos θ Y = − sin θ 2
互独立的条件下, 互独立的条件下,求 Ti 使得 D (Yi ) = Ti′ ΣTi ,i = 1, 2,L, m ,达到 达到 最大。 最大。
我们下面将借助投影寻踪( 我们下面将借助投影寻踪( Projection Pursuit)的思想来解决这 ) 达到最大的线性组合, 一问题。首先应该注意到, 一问题。首先应该注意到 ,使得 D (Yi ) 达到最大的线性组合,显 然用常数乘以 Ti 后, D (Yi ) 也随之增大,为了消除这种不确定性, 也随之增大,为了消除这种不确定性, 那么,问题可以更加明确。 不妨假设 Ti 满足 Ti′Ti = 1 或者 T = 1 。那么,问题可以更加明确。 第 一主成 分为 , 满足 T1′T1 = 1 , 使得 D (Y1 ) = T1′ ΣT1 达 到最大的 分为,
第六章 主成分分析
第一节 第二节 引言 主成分的几何意义及数学 推导 主成分的性质 主成分方法应用中应注意 的问题 实例分析与计算机实现
第三节 第四节
第五节
第一节 引言
多元统计分析处理的是多变量(多指标)问题。 多元统计分析处理的是多变量(多指标)问题。由于变量较 多,增加了分析问题的复杂性。但在实际问题中,变量之间 增加了分析问题的复杂性。但在实际问题中, 可能存在一定的相关性,因此, 可能存在一定的相关性,因此,多变量中可能存在信息的重 人们自然希望通过克服相关性、重叠性, 叠。人们自然希望通过克服相关性、重叠性,用较少的变量 来代替原来较多的变量, 来代替原来较多的变量,而这种代替可以反映原来多个变量 的大部分信息,这实际上是一种“降维”的思想。 的大部分信息,这实际上是一种“降维”的思想。
Y1 = T1′ X 。
第二主成分为, 第二主成分为,满足 T2′T2 = 1 ,且 Cov (Y2 , Y1 ) = Cov (T2′ X, T1′ X) = 0 , 使得 D (Y2 ) = T2′ ΣT2 达到最大的 Y2 = T2′ X 。 一般情形, 主成分为, 一般情形,第 k 主成分为,满足 Tk ′Tk = 1 , ,使得 且 Cov (Yk , Yi ) = Cov (Tk ′ X, Ti′ X) = 0 ( i < k ) 使得 D (Yk ) = Tk ′ ΣTk 达 , 到最大的 Yk = Tk ′ X 。
求第一主成分,构造目标函数为: 求第一主成分,构造目标函数为: ϕ1 (T1 , λ ) = T1′ ΣT1 − λ (T1′T1 − 1) 求导数有: 对目标函数 ϕ1 (T1 , λ ) 求导数有: ∂ϕ1 = 2 ΣT1 − 2λT1 = 0 ∂T1 即 ( Σ − λ I )T1 = 0 由 6.7 式两边左乘 T1′ 得到
二、主成分的数学推导
维随机向量, 设 X = ( X 1 ,L, X p )′ 为一个 p 维随机向量, 并假定存在二阶 矩,其均值向量与协差阵分别记为: 其均值向量与协差阵分别记为: µ = E ( X) , Σ = D ( X ) 考虑如下的线性变换 Y = t X + t X + L + t X = T ′X 1p p 1 1 11 1 12 2 Y = t X + t X + L + t X = T ′X 2 21 1 22 2 2p p 2 LLLL Yp = t p1 X 1 + t p 2 X 2 + L + t pp X p = Tp′ X 用矩阵表示为 Y = T′X 其中 Y = (Y1 , Y2 ,LYp )′ , T = (T1 , T2 ,L, Tp ) 。
我们知道,当一个变量只取一个数据时,这个变量(数据) 我们知道,当一个变量只取一个数据时,这个变量(数据) 提供的信息量是非常有限的,当这个变量取一系列不同数据 提供的信息量是非常有限的, 我们可以从中读出最大值、最小值、平均数等信息。 时,我们可以从中读出最大值、最小值、平均数等信息。变 量的变异性越大,说明它对各种场景的“遍历性”越强, 量的变异性越大,说明它对各种场景的“遍历性”越强,提 供的信息就更加充分,信息量就越大。主成分分析中的信息, 供的信息就更加充分,信息量就越大。主成分分析中的信息, 就是指标的变异性,用标准差或方差表示它。 就是指标的变异性,用标准差或方差表示它。 主成分分析的数学模型是, 个变量构成的p维随机向量为 主成分分析的数学模型是,设p个变量构成的 维随机向量为 个变量构成的 X = (X1,…,Xp)′。对X作正交变换,令Y = T′X,其中 作正交变换, 。 作正交变换 ,其中T 为正交阵,要求Y的各分量是不相关的 并且Y的第一个分 的各分量是不相关的, 为正交阵,要求 的各分量是不相关的,并且 的第一个分 量的方差是最大的,第二个分量的方差次之, 量的方差是最大的,第二个分量的方差次之,……,等等。 ,等等。 为了保持信息不丢失, 的各分量方差和与 的各分量方差和与X的各分量方差 为了保持信息不丢失,Y的各分量方差和与 的各分量方差 和相等。 和相等。