多元统计分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

称它为 p 维随机向量 X 的协方差阵,简称为 X 的协方差 阵,称 cov( X , X )为 X 的广义方差,是协差阵的行列式之值。
§1.1.4 随机向量的数字特征
3、随机向量X 和Y 的协差阵
设 X ( X 1 , X 2 , , X n )' 和 Y (Y1 , Y 2 , , Y p )' 分别为 n 维和 p 维随机向量,它们之间的协方差阵定义为一个 n p 矩 阵,其元素是 cov( X i , Y j ),即
j 1,
,p ,X p)
(1.12)
X ( X 1 , X 2 ,
于是 E ( X ) 0 1 R X / X n 1 D( X ) corr ( X) R 即标准化数据的协差阵正好是原指标的相关阵. (1.13)
§1.2 统计距离和马氏距离
欧氏距离 马氏距离
§1.1.1 随机向量
横看表1-1,记 X ( ) ( x 1 , x 2 , , x p )' , 1, 2 , n 它表示第 个样品的观测值。竖看表1-1,第 j 列的元素
X j ( x1 j , x 2 j , , x nj )' ,
j 1, 2 , p
描述随机变量的最基本工具是分布函数,类似地描述 随机向量的最基本工具还是分布函数。 定义1.2 设X (x1 , x2 , 函数是 式中:
, x p )是以随机向量,它的多元分布
F ( X ) F ( x1 , x 2 , , x p ) P ( X 1 x1 , , X p x p )
§1.1.4 随机向量的数字特征
(3)设X为n维随机向量,期望和协方差存在记
则 E ( X ) , D ( X ) , A 为 n n 常 数阵 ,
E ( X' AX ) tr ( A Σ ) μ ' A μ
对于任何随机向量 X ( X 1 , X 2 , , X p )' 来说, 其协差阵∑都是对称阵,同时总是非负定(也称 半正定)的。大多数情形下是正定的。
x ( x1, x2 , , xp ) R ,并记为X F。
P
多元分布函数的有关性质此处从略。
§1.1.2 分布函数与密度函数
定义1.3:设 X ~ F ( X ) = F ( x1 , x 2 , , x p ) ,若存在一个 非负的函数 f ,使得
F (x)

x1


§1.2 统计距离和马氏距离
下面先用一个一维的例子说明欧氏距离与马氏距离在概 率上的差异。
2 设有两个一维正态总体 G 1 : ( 1 , 12 ) 和 G 2 : ( 2 , 。若有 2 ) 一个样品,其值在A处,A点距离哪个总体近些呢?由 图1-2
§பைடு நூலகம்.2 统计距离和马氏距离
但就大部分统计问题而言,欧氏距离是不 能令人满意的。这里因为,每个坐标对欧氏距 离的贡献是同等的。当坐标轴表示测量值时, 它们往往带有大小不等的随机波动,在这种情 况下,合理的办法是对坐标加权,使得变化较 大的坐标比变化小的坐标有较小的权系数,这 就产生了各种距离。 欧氏距离还有一个缺点,这就是当各个分量 为不同性质的量时,“距离”的大小竟然与指 标的单位有关。
/ x (1) / x (2) ,xp) x/ (n)
若无特别说明,向量均指列向量. 定义1.1 设 x1 , x2 , , x p为p个随机变量,由它们组成 的向量 (x1, x2 , , x p ) 称为随机向量。
§1.1.2 分布函数与密度函数
多元统计分析
第一章 多元正态分布
§1.1 §1.2 §1.3 §1.4 多元分布的基本概念 统计距离和马氏距离 多元正态分布 均值向量和协方差阵的估计
§1.5
常用分布及抽样分布
第一章 多元正态分布



一元正态分布在统计学的理论和实际应用 中都有着重要的地位。同样,在多变量统 计学中,多元正态分布也占有相当重要的 位置。原因是: 许多随机向量确实遵从正态分布,或近似 遵从正态分布; 对于多元正态分布,已有一整套统计推断 方法,并且得到了许多完整的结果。

xp

f (t1 , t p ) d t1 dt p ,
p 对一切 x R 成立,则称 X (或 F X )有分布 密度 f 并称 X 为连续型随机向量。
一个p维变量的函数f(· )能作为 R 中某个随机向量 的分布密度,当且仅当
P
(i ) (ii )
f ( x) 0
§1.1.4 随机向量的数字特征
1、随机向量 X的均值
设 X ( X1, X 2 , , X p )有P个分量。若 E( X i ) i 存在,我们定义随机向量X的均值为:
E ( X 1 ) 1 E ( X ) 2 2 μ E ( X) E ( X P ) P
rij也称为分量 X i 与 X j之间的(线性)相关系数。
§1.1.4 随机向量的数字特征
在数据处理时,为了克服由于指标的量纲不同对统计分 析结果带来的影响,往往在使用某种统计分析方法之前,常 需将每个指标“标准化”,即做如下变换
X
j
X j E( X j ) (var X j )
1/ 2
第一章 多元正态分布
多元正态分布是最常用的一种多元 概率分布。除此之外,还有多元对数正 态分布,多项式分布,多元超几何分布, 2 χ 多元 分布、多元 分布、多元指数 分布等。本章从多维变量及多元分布的 基本概念开始,着重介绍多元正态分布 的定义及一些重要性质。
§1.1多元分布的基本概念
§1.1.1 §1.1.2 §1.1.3 §1.1.4 随机向量 分布函数与密度函数 多元变量的独立性 随机向量的数字特征
§1.1.1 随机向量
假定所讨论的是多个变量的总体,所研究的数 据是同时观测 p 个指标(即变量),又进行了 n 次 观测得到的,把这 p 个指标表示为 X 1 , X 2 , , X p 常 用向量
X ( X 1 , X 2 , , X p )'
表示对同一个体观测的 p 个变量。若观测了 n 个个体,则可得到如下表1-1的数据,称每一个个 体的 p 个变量为一个样品,而全体 n个样品形成一 个样本。
AB 50 2 10 2 2600 CD 100 2 12 10001
结果CD反而比AB长!这显然是不够合理的。
§1.2 统计距离和马氏距离
因此,有必要建立一种距离,这种距离要能够 体现各个变量在变差大小上的不同,以及有时存 在着的相关性,还要求距离与各变量所用的单位 无关。看来我们选择的距离要依赖于样本方差和 协方差。因此,采用“统计距离” 这个术语,以 区别通常习惯用的欧氏距离。最常用的一种统计 距离是印度统计学家马哈拉诺比斯(Mahalanobis )于1936年引入的距离,称为“马氏距离”。
表示对 j 第个变量 x j 的n次观测数值。下面为表1-1
变量 序号 1 2
x np

x11 x 21
x12 x22
… … …
x1 p x2 p

n
x n1

xn 2

xnp

§1.1.1 随机向量
因此,样本资料矩阵可用矩阵语言表示为:
x11 x21 X xn1 x12 x22 xn 2 x1 p x2 p ( x1 , x 2 , xnp
§1.2 统计距离和马氏距离
2 f a11x12 a22 x2 a pp x 2 p 2a12 x1 x2 2a13 x1 x3 2a p 1, p x p 1 x p
x1 x2

a11 a12 a a22 12 xp a1 p a2 p
§1.2 统计距离和马氏距离
欧氏距离
在多指标统计分析中,距离的概念十分重要,样品间的不 少特征都可用距离去描述。大部分多元方法是建立在简单 的距离概念基础上的。即平时人们熟悉的欧氏距离,或称 直线距离.如几何平面上的点P=(x1,x2)到原点O=(0,0)的 欧氏距离:
2 1/2 d(,P ) ( x12 x2 )
COV ( X 1 , X 2 ) COV ( X 1 , X P ) D( X 1 ) COV ( X 2 , X P ) COV ( X 2 , X 1 ) D ( X 2 ) COV ( X , X ) COV ( X , X ) D(X P ) P 1 P 2 ( ij )
x R p

R
p
f ( x ) dx 1
§1.1.3 多元变量的独立性
定义1.4:两个随机向量 X 和 Y 称为是相互独立的,若
P ( X x , Y y ) P ( X x ) P (Y y )
对一切( X , Y )成立。若 F ( x , y )为( X , Y )的联合分布函 数, G ( x ) 和 H ( y ) 分别为 X 和 Y 的分布函数,则 X 与 Y 独立 (x G (g x( )x H) ( 当且仅当 F f ( ,xy,)y ) hy ()y ) 若 ( X , Y ) 有密度 f ( x , y ),用g ( x ) 和 h ( y ) 分别表示 X 和 Y 的分布密度. 注意:在上述定义中, X 和 Y 的维数一般是不同的。
cov ( X , Y ) (cov ( X i , Y j )) , i 1, , n ; j 1, , p 若 cov( X , Y ) 0, 称 X 和 Y 是 不 相 关 的 。
当A、B为常数矩阵时,由定义可推出协差阵有如下性质:
D ( AX ) AD ( X ) A ' AA ' cov( AX , BY ) A cov( X , Y ) B '
§1.2 统计距离和马氏距离
例如,横轴 X 1代表重量(以kg为单位),纵轴 X 2 代表长度(以cm为单位)。有四个点A、B、C、D见 图1.1,它们的坐标如图1.1所示
x2
§1.2 统计距离和马氏距离
这时
AB 5 2 10 2 125 CD 10 2 12 101
显然AB比CD要长。 现在,如果 x2用mm作单位,x1 单位保持不变, 此时A坐标为(0,50),C坐标为(0,100),则

a1 p x1 x a2 p 2 a pp xp
x' Ax
g [a11 ( x1 y1 ) 2 a22 ( x2 y2 ) 2 a pp ( x p y p ) 2 2a12 ( x1 y1 )( x2 y2 ) 2a13 ( x1 y1 )( x3 y3 ) 2a p 1, p ( x p 1 y p 1 )( x p y p )]
§1.1.4 随机向量的数字特征
4、随机向量X 的相关阵 若随机向量 X ( X 1 , X 2 , , X p )' 的协差阵存在,且每 个分量的方差大于零,则X的相关阵定义为:
R (corr ( X i , X j )) ( rij ) PP rij COV ( X i , X j ) D ( X i) D ( X j ) , i, j 1,2, , p
( i 1, 2, p )
是一个p维向量,称为均值向量. 当A 、 B 为常数矩阵时,由定义可立即推出如下性质:
(1) E ( AX ) AE ( X ) ( 2) E ( AXB ) AE ( X ) B
§1.1.4 随机向量的数字特征
2、随机向量 X 自协方差阵
Σ COV ( X , X ) E ( X E X )( X E X ) / D ( X )
相关文档
最新文档