大数据数学基础 多元统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
含信息不够多,不足以代表原始的 p 个变量,则需要再考虑使用 y2 。为了使 y2 所含的信息与 y1 不重叠
,所以要求 cov y1, y2 0 。当 a2 t2 时,V ( y2 ) a2T Σa2 2 达到最大值,所求的 y2 t2T x 就是第二主
成分。类似地,可以再定义第三主成分,……,第 p 主成分。一般 x 的第 i 主成分是指在约束条件下
Car 情报局
2.主成分的性质
➢ 主成分向量的协方差矩阵 V ( y) Λ 。该性质表明主成分向量的协方差矩阵为对角矩阵, Λ diag(1, 2 , , p )
,即 V (yi ) i i 1, 2, , p ,且 y1, y2 , , yp 互不相关。
p
p
p
➢ 主成分的总方差 ii i,其中 ii 为原始变量 x1, x2 ,, xp 的总方差。该性质表明总方差可分解为
,再按照求总体主成分的方法,即可获得样本主成分。
p
m
p
➢ 类似总体主成分,称i / i 为样本主成分yi 的贡献率,称i / i 为样本主成分y1, y2 , , ym (m p) 的
i 1
i 1
i 1
累计贡献率。
13
目录
4
主成分分析
5
因子分析
6
典型相关分析
7
小结
Car 情报局
14
因子分析
Car 情报局
项目七:多元统计分析
目录
4
主成分分析
5
因子分析
6
典型相关分析
7
小结
Car 情报局
2
主成分分析
Car 情报局
➢ 数据分析中涉及的变量往往较多,且在高维空间中研究样本的分布规律,势必增加分析问题的复杂性。在 多数情况下,这些变量彼此之间存在着一定程度甚至是相当高的相关性,这就使包含在观测数据中的信息 ,在一定程度上有所重叠。这种变量间信息的重叠,增加了分析问题的复杂性。
➢ 主成分分析就是一种通过降维技术把多个原始变量重新组合成少数几个互不相关的主成分(综合变量)的 统计方法。这些主成分能够反映原始变量的绝大部分信息,通常表示为原始变量的某种线性组合。
3
总体主成分
Car 情报局
1.主成分的定义
➢ 设x (x1, x2,, xp )T 为一个 p 维随机向量,并假定二阶矩阵存在,记 μ E( x) ,Σ V (x) 。进行如(式
称为因子载
荷矩阵。
17
正交因子模型
➢ 一般模型满足(式6-54),则称该模型为正交因子模型。
E
f
0
VE
fI ε 0
V
ε
Λ diag
2 1
,
ቤተ መጻሕፍቲ ባይዱ
2 2
,
,
2 p
cov
f
,
ε
E
fεT
0
(式6-54)
Car 情报局
18
正交因子模型
Car 情报局
2.正交因子模型的性质
➢ x 的协方差矩阵 Σ 的分解如(式6-55)所示。
(i, k 1, 2,
, p) ,称为因子载荷量。
8
总体主成分
Car 情报局
➢
p
2 ( yk , xi )
k 1
p i1
ti2k k ii
1 (i, k 1, 2,
, p), 因 y1, y2 ,
, yp 互不相关,故 xi与 y1, y2 ,
平方等于1。
, y p的全相关系数的
p
Car 情报局
20
正交因子模型
(2) A的行元素平方和
Car 情报局
➢ 对(式6-52)各等式两边取方差,得到(式6-55)。
m
hi2 ai2j j 1
V (xi ) ai21V ( f1) ai22V ( f2 ) ai2mV ( fm ) V (i )
ai21 ai22
ai2m
正交单位特征向量。 x1, x2 ,, xp的主成分就是以 Σ的特征向量为系数的线性组合,它们互不相关,其方
差为 Σ 的特征值。
5
总体主成分
Car 情报局
➢ 定义6-3 当 a1 t1 时,V ( y1) a1T Σa1 1 达到最大值,所求的 y1 t1T x 就是第一主成分。当第一主成分所
发求主成分。
10
总体主成分
Car 情报局
➢
最常用的标准化变换是令 xi* 就是原随机向量 x 的相关矩阵
xi i (i 1, 2, , p) 。这时标准化的随机向量 R,i而i 从相关矩阵 R 出发求得的主成分记 y*
x* (x1*, x2*, ( y1*, y2*,
, x*p)T 的协方差矩阵 Σ* , y*p ),T 则 y*有以下
cov(x, f ) cov(Af ε, f ) AV ( f ) cov(ε, f ) A (式6-58)
cov xi , f j aij (i 1, 2, , p;j 1, 2, , m)
aij xi f j
是 与 之间的协方差。
x
aij
(式6-59)
xi f j
➢ 如果 为各变量已标准化的随机向量,则 是 与 之间的相关系数。
x为各变量已标准化的随机向量时, ii
1,即
有(式6-57)成立。
hi2
2 i
1
(式6-57)
21
正交因子模型
p
(3) A的列元素平方和
g
2 j
ai2j
p
p
i 1
V xi ai21V f1 ai22V f2
Σ V ( Af ) V (ε) AV ( f ) AT V (ε) AAT Λ (式6-55)
➢ 模型不受单位的影响。将 x 的单位作变化,若 x* Cx 且 C diag c1,c2, ,cp (ci 0,i 1, 2, , p),则有(式
6-56)成立。
x* Cμ CAf Cε μ* A* f ε*
Car 情报局
S
1 n 1
n
( xi
i 1
x)( xi
x)T
(sij ) p p
Rˆ (rij ) pp
(式6-49) (式6-50)
(式6-49)中,x
1 n
n
xi
i 1
为样本均值。(式6-50)中, rij
sij (i, j 1, sii s jj
, p) 。
➢ 用样本协方差矩阵 S 作为总体协方差矩阵 Σ 的估计,或用样本相关矩阵Rˆ 作为总体相关矩阵 R 的估计
xp p ap1 f1 ap2 f2
a1m fm 1 a2m fm 2
apm fm p
(式6-51)
Car 情报局
16
正交因子模型
➢ (式6-51)所示的模型可以用矩阵表示,如(式6-52)所示,可简记为(式6-53)。
Car 情报局
x1 1 a11 a12
x2
i 1
i 1
i 1
p
p
m
互不相关的主成分 y1, y2 , , yp 的方差之和 i ,且存在m (m p) 使 ii i ,即 p 个原始变量所提
i 1
i 1
i 1
供的总信息(总方差)的绝大部分信息只需用前 m 个主成分来代替。
➢
主成分 yk 与原始变量 xi 的相关系数
yk , xi
tik k ii
的 yi tiT x 。
➢ 记 y (y1, y2, , yp )T,主成分向量 y 与原始向量 x 的关系为 y T T x ,其中 T (t1, t2 , , t p ) 。
6
总体主成分
Car 情报局
➢
第
i 主成分
yi 在总方差
p
i
中的比例
i / p i,称为主成分
yi 的贡献率。第一主成分
➢ ii 2 ( yk , xi ) k (i, k 1, 2, , p),主成分 yk对应的每一列关于自变量相关系数的加权平方和为 k,即 k 1 为 V ( yi ) 。
9
总体主成分
3.从相关矩阵出发求主成分
Car 情报局
➢ 通常有两种情形不适合直接从协方差矩阵出发进行主成分分析。 • 一种是各变量的单位不全相同的情形。 • 另一种是各变量的单位虽相同,但其变量方差的差异甚大的情形 ➢ 对这两种情形,通常首先将原始变量作标准化处理,然后从标准化变量(一般已无单位)的协方差矩阵出
6-47)所示的线性变换。
y1
a11x1
a21x2
y2
a12 x1
a22 x2
yp a1p x1 a2 p x2
ap1xp a1T x ap2 xp a2T x
app xp
a
T p
x
(式6-47)
4
总体主成分
➢ (式6-73)有以下约束条件。
Car 情报局
•
。
aiTai a1i2 a2i2 api2 1 (i 1, 2, , p)
主成分称为样本主成分。
➢ 设 X ( x1, x2 , xn )T 为来自总体的样本,数据矩阵如(式6-48)所示。
x11 x12
X
x21
x22
xn1 xn2
x1p
x2
p
xnp
(式6-48)
12
样本主成分
➢ 相应的样本协方差矩阵如(式6-49)所示,样本相关矩阵如(式6-50)所示。
2
a21
a22
xp p ap1 ap2
a1m a2m
f1 f2
1
2
a pm
fm
p
(式6-52)
x μ Af ε (式6-53)
f
(式6-53)中,
( f1,
f2 ,,
fm )T
ε
为公共因子向量,
(1,
2
,
,
p
)T
为特殊因子向量,A aij
, ym的累计贡献率,它表明 y1, y2 ,
, ym
i 1
i 1
解释原始变量的能力。通常取(相对于 p)较小的 m,使得累计贡献率达到一个较高的百分比(如80%~
90%)。此时, y1, y2 , , ym 可代替 x1, x2 ,, xp ,从而达到降维的目的,而信息的损失却不多。
7
总体主成分
•
当 时,
i 1 cov yi , yj 0 ( j 1, 2,
,即 ,i 1)
yi与
y
不相关。
j
•
var yi
max var aT x aTa1,cov yi , y j 0
( j 1, 2,
,i 1)。
➢ 这里的 y1, y2 , yp在本章中应有实际意义。设 1≥2≥ ≥p≥0为 Σ 的特征值, t1, t2 , , t p为相应的一组
y1的贡献率最大
,表明它解释原始变量的能i1力最强,而
i 1
y2 ,
, y p 的解释能力依次减弱。主成分分析的目的就是为了减
少变量的个数,因而一般是不会使用所有 p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差
带来太大的影响。
➢
前 m 个主成分的贡献率之和为
m
i
/
p
,i 称为主成分
y1, y2 ,
15
正交因子模型
1.数学模型
➢ 设 x (x1, x2,, xp )T 为一个 p 维随机向量,其均值 μ (1, 2,, p )T,协方差矩阵 Σ ( ii ) 。
➢ 因子分析的一般模型如(式6-51)所示。
x1 x2
1 2
a11 f1 a12 f2 a21 f1 a22 f2
➢ 因子分析是主成分分析的推广和发展,是将具有错综复杂关系的变量综合为少数几个因子,以再现原始变 量与因子之间的相互关系,根据不同因子还可以对变量进行分类,也属于多元分析中处理降维的一种统计 方法。例如,一个学生的英语、数学、语文成绩都很好,那么潜在的共性因子可能是智力水平高。因此, 因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。
(式5-56)
mm
➢ 因子载荷不唯一。设 T 为任一
x μ ATT T f ε μ A* f * ε
正交矩阵,则模型(式6-53)可以表示为(式6-577)。
(式5-57)
19
正交因子模型
3.因子载荷矩阵的统计意义
(1) A的元素 aij
➢ 由(式6-53)可得(式6-58),也可表达为(式6-59)。
p
p
2 ( yk* , xi*) (ti*k )2 k* 1 (i, k 1, 2, , p)
•
k 1 p
i 1 p
。
2 ( yk* , xi*) (ti*k )2 k* k* (i, k 1, 2, , p)
k 1
i 1
•
。
11
样本主成分
Car 情报局
➢ 在实际问题中,总体的协方差矩阵 Σ 和相关矩阵 R 都是未知的,需要通过样本来进行估计,此时求出的
性质。
• V (y*) Λ* diag(1*,2*, ,p*,) 其中 1*≥2*≥ ≥p* 为相关矩阵 R 的特征值。
p
•
i*
i 1
p
。
•
yk*, xi* ti*k k* (i, k 1, 2,
,
p)
,其中
tk*
(t1*k ,t2*k ,
,t*pk )T 是相关矩阵 R 对应于 k*的单位正交特征向量。
2 i
令
hi2
m
ai2j
(i 1, 2,
,则可以得到(式6-56)。
, p)
j 1
ii
hi2
2 i
(式6-56)
(式6-55)
➢ (式6-56)中, hi2 反映了公共因子对 xi 的影响,可以看作是公共因子 f j 对 xi 的方差贡献,称为共性方差
;
2 i
是特殊因子
i对
xi
的方差贡献,称为特殊方差。当
,所以要求 cov y1, y2 0 。当 a2 t2 时,V ( y2 ) a2T Σa2 2 达到最大值,所求的 y2 t2T x 就是第二主
成分。类似地,可以再定义第三主成分,……,第 p 主成分。一般 x 的第 i 主成分是指在约束条件下
Car 情报局
2.主成分的性质
➢ 主成分向量的协方差矩阵 V ( y) Λ 。该性质表明主成分向量的协方差矩阵为对角矩阵, Λ diag(1, 2 , , p )
,即 V (yi ) i i 1, 2, , p ,且 y1, y2 , , yp 互不相关。
p
p
p
➢ 主成分的总方差 ii i,其中 ii 为原始变量 x1, x2 ,, xp 的总方差。该性质表明总方差可分解为
,再按照求总体主成分的方法,即可获得样本主成分。
p
m
p
➢ 类似总体主成分,称i / i 为样本主成分yi 的贡献率,称i / i 为样本主成分y1, y2 , , ym (m p) 的
i 1
i 1
i 1
累计贡献率。
13
目录
4
主成分分析
5
因子分析
6
典型相关分析
7
小结
Car 情报局
14
因子分析
Car 情报局
项目七:多元统计分析
目录
4
主成分分析
5
因子分析
6
典型相关分析
7
小结
Car 情报局
2
主成分分析
Car 情报局
➢ 数据分析中涉及的变量往往较多,且在高维空间中研究样本的分布规律,势必增加分析问题的复杂性。在 多数情况下,这些变量彼此之间存在着一定程度甚至是相当高的相关性,这就使包含在观测数据中的信息 ,在一定程度上有所重叠。这种变量间信息的重叠,增加了分析问题的复杂性。
➢ 主成分分析就是一种通过降维技术把多个原始变量重新组合成少数几个互不相关的主成分(综合变量)的 统计方法。这些主成分能够反映原始变量的绝大部分信息,通常表示为原始变量的某种线性组合。
3
总体主成分
Car 情报局
1.主成分的定义
➢ 设x (x1, x2,, xp )T 为一个 p 维随机向量,并假定二阶矩阵存在,记 μ E( x) ,Σ V (x) 。进行如(式
称为因子载
荷矩阵。
17
正交因子模型
➢ 一般模型满足(式6-54),则称该模型为正交因子模型。
E
f
0
VE
fI ε 0
V
ε
Λ diag
2 1
,
ቤተ መጻሕፍቲ ባይዱ
2 2
,
,
2 p
cov
f
,
ε
E
fεT
0
(式6-54)
Car 情报局
18
正交因子模型
Car 情报局
2.正交因子模型的性质
➢ x 的协方差矩阵 Σ 的分解如(式6-55)所示。
(i, k 1, 2,
, p) ,称为因子载荷量。
8
总体主成分
Car 情报局
➢
p
2 ( yk , xi )
k 1
p i1
ti2k k ii
1 (i, k 1, 2,
, p), 因 y1, y2 ,
, yp 互不相关,故 xi与 y1, y2 ,
平方等于1。
, y p的全相关系数的
p
Car 情报局
20
正交因子模型
(2) A的行元素平方和
Car 情报局
➢ 对(式6-52)各等式两边取方差,得到(式6-55)。
m
hi2 ai2j j 1
V (xi ) ai21V ( f1) ai22V ( f2 ) ai2mV ( fm ) V (i )
ai21 ai22
ai2m
正交单位特征向量。 x1, x2 ,, xp的主成分就是以 Σ的特征向量为系数的线性组合,它们互不相关,其方
差为 Σ 的特征值。
5
总体主成分
Car 情报局
➢ 定义6-3 当 a1 t1 时,V ( y1) a1T Σa1 1 达到最大值,所求的 y1 t1T x 就是第一主成分。当第一主成分所
发求主成分。
10
总体主成分
Car 情报局
➢
最常用的标准化变换是令 xi* 就是原随机向量 x 的相关矩阵
xi i (i 1, 2, , p) 。这时标准化的随机向量 R,i而i 从相关矩阵 R 出发求得的主成分记 y*
x* (x1*, x2*, ( y1*, y2*,
, x*p)T 的协方差矩阵 Σ* , y*p ),T 则 y*有以下
cov(x, f ) cov(Af ε, f ) AV ( f ) cov(ε, f ) A (式6-58)
cov xi , f j aij (i 1, 2, , p;j 1, 2, , m)
aij xi f j
是 与 之间的协方差。
x
aij
(式6-59)
xi f j
➢ 如果 为各变量已标准化的随机向量,则 是 与 之间的相关系数。
x为各变量已标准化的随机向量时, ii
1,即
有(式6-57)成立。
hi2
2 i
1
(式6-57)
21
正交因子模型
p
(3) A的列元素平方和
g
2 j
ai2j
p
p
i 1
V xi ai21V f1 ai22V f2
Σ V ( Af ) V (ε) AV ( f ) AT V (ε) AAT Λ (式6-55)
➢ 模型不受单位的影响。将 x 的单位作变化,若 x* Cx 且 C diag c1,c2, ,cp (ci 0,i 1, 2, , p),则有(式
6-56)成立。
x* Cμ CAf Cε μ* A* f ε*
Car 情报局
S
1 n 1
n
( xi
i 1
x)( xi
x)T
(sij ) p p
Rˆ (rij ) pp
(式6-49) (式6-50)
(式6-49)中,x
1 n
n
xi
i 1
为样本均值。(式6-50)中, rij
sij (i, j 1, sii s jj
, p) 。
➢ 用样本协方差矩阵 S 作为总体协方差矩阵 Σ 的估计,或用样本相关矩阵Rˆ 作为总体相关矩阵 R 的估计
xp p ap1 f1 ap2 f2
a1m fm 1 a2m fm 2
apm fm p
(式6-51)
Car 情报局
16
正交因子模型
➢ (式6-51)所示的模型可以用矩阵表示,如(式6-52)所示,可简记为(式6-53)。
Car 情报局
x1 1 a11 a12
x2
i 1
i 1
i 1
p
p
m
互不相关的主成分 y1, y2 , , yp 的方差之和 i ,且存在m (m p) 使 ii i ,即 p 个原始变量所提
i 1
i 1
i 1
供的总信息(总方差)的绝大部分信息只需用前 m 个主成分来代替。
➢
主成分 yk 与原始变量 xi 的相关系数
yk , xi
tik k ii
的 yi tiT x 。
➢ 记 y (y1, y2, , yp )T,主成分向量 y 与原始向量 x 的关系为 y T T x ,其中 T (t1, t2 , , t p ) 。
6
总体主成分
Car 情报局
➢
第
i 主成分
yi 在总方差
p
i
中的比例
i / p i,称为主成分
yi 的贡献率。第一主成分
➢ ii 2 ( yk , xi ) k (i, k 1, 2, , p),主成分 yk对应的每一列关于自变量相关系数的加权平方和为 k,即 k 1 为 V ( yi ) 。
9
总体主成分
3.从相关矩阵出发求主成分
Car 情报局
➢ 通常有两种情形不适合直接从协方差矩阵出发进行主成分分析。 • 一种是各变量的单位不全相同的情形。 • 另一种是各变量的单位虽相同,但其变量方差的差异甚大的情形 ➢ 对这两种情形,通常首先将原始变量作标准化处理,然后从标准化变量(一般已无单位)的协方差矩阵出
6-47)所示的线性变换。
y1
a11x1
a21x2
y2
a12 x1
a22 x2
yp a1p x1 a2 p x2
ap1xp a1T x ap2 xp a2T x
app xp
a
T p
x
(式6-47)
4
总体主成分
➢ (式6-73)有以下约束条件。
Car 情报局
•
。
aiTai a1i2 a2i2 api2 1 (i 1, 2, , p)
主成分称为样本主成分。
➢ 设 X ( x1, x2 , xn )T 为来自总体的样本,数据矩阵如(式6-48)所示。
x11 x12
X
x21
x22
xn1 xn2
x1p
x2
p
xnp
(式6-48)
12
样本主成分
➢ 相应的样本协方差矩阵如(式6-49)所示,样本相关矩阵如(式6-50)所示。
2
a21
a22
xp p ap1 ap2
a1m a2m
f1 f2
1
2
a pm
fm
p
(式6-52)
x μ Af ε (式6-53)
f
(式6-53)中,
( f1,
f2 ,,
fm )T
ε
为公共因子向量,
(1,
2
,
,
p
)T
为特殊因子向量,A aij
, ym的累计贡献率,它表明 y1, y2 ,
, ym
i 1
i 1
解释原始变量的能力。通常取(相对于 p)较小的 m,使得累计贡献率达到一个较高的百分比(如80%~
90%)。此时, y1, y2 , , ym 可代替 x1, x2 ,, xp ,从而达到降维的目的,而信息的损失却不多。
7
总体主成分
•
当 时,
i 1 cov yi , yj 0 ( j 1, 2,
,即 ,i 1)
yi与
y
不相关。
j
•
var yi
max var aT x aTa1,cov yi , y j 0
( j 1, 2,
,i 1)。
➢ 这里的 y1, y2 , yp在本章中应有实际意义。设 1≥2≥ ≥p≥0为 Σ 的特征值, t1, t2 , , t p为相应的一组
y1的贡献率最大
,表明它解释原始变量的能i1力最强,而
i 1
y2 ,
, y p 的解释能力依次减弱。主成分分析的目的就是为了减
少变量的个数,因而一般是不会使用所有 p 个主成分的,忽略一些带有较小方差的主成分将不会给总方差
带来太大的影响。
➢
前 m 个主成分的贡献率之和为
m
i
/
p
,i 称为主成分
y1, y2 ,
15
正交因子模型
1.数学模型
➢ 设 x (x1, x2,, xp )T 为一个 p 维随机向量,其均值 μ (1, 2,, p )T,协方差矩阵 Σ ( ii ) 。
➢ 因子分析的一般模型如(式6-51)所示。
x1 x2
1 2
a11 f1 a12 f2 a21 f1 a22 f2
➢ 因子分析是主成分分析的推广和发展,是将具有错综复杂关系的变量综合为少数几个因子,以再现原始变 量与因子之间的相互关系,根据不同因子还可以对变量进行分类,也属于多元分析中处理降维的一种统计 方法。例如,一个学生的英语、数学、语文成绩都很好,那么潜在的共性因子可能是智力水平高。因此, 因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。
(式5-56)
mm
➢ 因子载荷不唯一。设 T 为任一
x μ ATT T f ε μ A* f * ε
正交矩阵,则模型(式6-53)可以表示为(式6-577)。
(式5-57)
19
正交因子模型
3.因子载荷矩阵的统计意义
(1) A的元素 aij
➢ 由(式6-53)可得(式6-58),也可表达为(式6-59)。
p
p
2 ( yk* , xi*) (ti*k )2 k* 1 (i, k 1, 2, , p)
•
k 1 p
i 1 p
。
2 ( yk* , xi*) (ti*k )2 k* k* (i, k 1, 2, , p)
k 1
i 1
•
。
11
样本主成分
Car 情报局
➢ 在实际问题中,总体的协方差矩阵 Σ 和相关矩阵 R 都是未知的,需要通过样本来进行估计,此时求出的
性质。
• V (y*) Λ* diag(1*,2*, ,p*,) 其中 1*≥2*≥ ≥p* 为相关矩阵 R 的特征值。
p
•
i*
i 1
p
。
•
yk*, xi* ti*k k* (i, k 1, 2,
,
p)
,其中
tk*
(t1*k ,t2*k ,
,t*pk )T 是相关矩阵 R 对应于 k*的单位正交特征向量。
2 i
令
hi2
m
ai2j
(i 1, 2,
,则可以得到(式6-56)。
, p)
j 1
ii
hi2
2 i
(式6-56)
(式6-55)
➢ (式6-56)中, hi2 反映了公共因子对 xi 的影响,可以看作是公共因子 f j 对 xi 的方差贡献,称为共性方差
;
2 i
是特殊因子
i对
xi
的方差贡献,称为特殊方差。当