概率论与数理统计-协方差和相关系数01
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复习: 复习:方差
)定义: ( ) 数 (1)定义:D(X)= E (2)计算: )计算:
字 特 征 方法1: 方法 :由定义 方差是函数 g ( X ) = [ X − E ( X )] 2的期望 方法2: 方法
{ [Xห้องสมุดไป่ตู้
2
− E ( X )]
2
}
D X) = E( X (
[E(X)]2 )−
(3)性质: )性质:
1
3 2 3 + 0× + 1× = 0 8 8 8
同理 E(Y ) = 0
8
8
8
8
对称性) 3、性质ⅰ) Cov(X,Y)=Cov(Y,X);(对称性 对称性 是任意常数; ⅱ) Cov(aX,bY)=abCov(X,Y), a,b是任意常数; 是任意常数 数 ⅲ) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) 注: 协方差的大小在一定程度上反映了X和 相互间的关系 相互间的关系, 协方差的大小在一定程度上反映了 和Y相互间的关系, 字 但它还受X与 本身的系数影响 例如: 本身的系数影响. 但它还受 与Y本身的系数影响 例如: 特 征 Cov(10X, 10Y)=100Cov(X,Y) 标准化的协方差称为 X,Y的相关系数 , 的相关系数 实际上, 之间的关系和X与 之间的关系应一致 之间的关系应一致。 实际上,10X与10Y之间的关系和 与Y之间的关系应一致。 与 之间的关系和 为了克服这一缺点,将协方差标准化, 在计算协方差时, 为了克服这一缺点,将协方差标准化,即在计算协方差时, 先对X与 进行标准化 进行标准化.即 先对 与Y进行标准化 即:
=
σ2 σ2 P{ X − µ ≥ ε} ≤ 2 ⇔P{ X −µ < ε} ≥ 1− 2 . ε ε
2
P99T10: 设E(X),D(X)均存在 且D(X) ≠0 均存在,且 : 均存在
数 X − E(X ) , 令Y = D(X ) 证明E(Y)=0,D(Y)=1 证明
字 证明 根据数学期望与方差的性质: 证明:根据数学期望与方差的性质 根据数学期望与方差的性质 特 征
X∗ =
= =
X − E(X) ∗ Y − E(Y) ,Y = , E ( X ∗ ) = 0, E (Y ∗ ) = 0 , D(X) D(Y) ∗ ∗ ∗ Cov ( X , Y ) = E ( X Y ∗ ) − E ( X ∗ ) ⋅ E (Y ∗ ) = E ( X ∗Y ∗ )
X − E ( X ) Y − E (Y ) = E ⋅ = D( X ) D(Y )
= 0, Y与X无线性关系 无线性关系; 若 , 与 无线性关系 若0<| ρ|<1,
ρ
|ρ |的值越接近于 Y与X的线性相关程度越高 的值越接近于1, 与 的线性相关程度越高 的线性相关程度越高; 的值越接近于 |ρ |的值越接近于 Y与X的线性相关程度越弱 的值越接近于0, 与 的线性相关程度越弱 的线性相关程度越弱. 的值越接近于
= =
5
一、协方差
是一随机向量, 是一随机向量 1、定义: 设(X,Y)是一随机向量,称E{[X-E(X)][Y-E(Y)]} 定义: 的协方差,记作 为X与Y的协方差 记作 与 的协方差 记作Cov(X,Y)或σXY,即 ( , ) Cov(X,Y)= E{[X-E(X)][Y-E(Y)]} 说明 ①对于 vX,Y, D(X+Y)=D(X)+D(Y)+2Cov(X,Y) 对于r. , ②意义: 协方差是刻划 意义 协方差是刻划r.vX与Y间取值的相互关系的数 与 间取值的相互关系的数 字特征.显然 Cov(X,X)=D(X) 字特征 显然: 显然 若X、Y相互独立 相互独立
X与Y不相关 只说明 与Y之间没有线性关系,但可以有 与 不相关 只说明X与 之间没有线性关系 不相关,只说明 之间没有线性关系, 非线性关系; 非线性关系; 而X与Y独立是指 独立是指X,Y之间既无线性关系, 之间既无线性关系, 与 独立是指 之间既无线性关系 也无非线性关系, 也无非线性关系,故“独立”必然不相关,但反之不然。 独立”必然不相关,但反之不然。 不相关 但是,对于二维正态分布,独立与不相关等价。 但是,对于二维正态分布,独立与不相关等价。 与不相关等价 2 若二维r.v ( X , Y ) ~ N ( µ 1 , µ 2 ; σ 12 , σ 2 ; ρ ) 即:若二维 则X与Y相互独立 与 相互独立
证明:先求边缘概率密度函数 先求边缘概率密度函数
∂e ∂a = 2a + 2bE(X) − 2E(Y) = 0 ∂e = 2bE(X2 ) − 2E(XY) + 2aE(X) = 0 ∂b
C (X,Y) ov b = 0 D X) (
a 0 = E (Y ) − E ( X ) Cov ( X , Y ) D( X )
对应的误差平方为
相关系数刻划了X和 间 线性相关”的程度. =相关系数刻划了 和Y间“线性相关”的程度
=
9
证: 对任意的 对任意的a,b,令 令
刻画了Y与 刻画了 与a+bX的偏离程度 的偏离程度 e=E{[Y-(a+bX)]2}=E(Y2)+b2E(X2)+a2 -2bE(XY)+2abE(X)-2aE(Y)
要使 与 的某个线性函数 最为接近 就是要找a,b使得误差 最为接近 就是要找 数 要使Y与X的某个线性函数a+bX最为接近,就是要找 使得误差 视为关于a,b的二元函数 视为关于 的二元函数,求驻点: 平方e值最 值最小 平方 值最小. 将e视为关于 的二元函数,求驻点: 字 特 征 解得
Cov ( X , Y ) . D( X ) D(Y )
8
二、相关系数
数 字 特
(correlation coefficient)
1、定义:设(X,Y)是一随机向量,当D(X)>0, D(Y)>0,则称数值 是一随机向量, 是一随机向量 则称数值
记作 ρ XY
COV ( X , Y ) = 的线性相关系数, 相关系数. 为X,Y的线性相关系数,简称相关系数 的线性相关系数 简称相关系数 D( X ) D(Y )
D(X)=p (1-p ) D(X)=np(1-p) D(X)=
E(X) = µ
a +b E(X) = 2 1 E(X) =
D(X)= σ
λ
2
(b − a)2 D(X)= 12
(5) 切比雪夫不等式 =
θ
D X) = (
1
θ2
具有均值E(X)=µ ,方差 方差D(X)=σ2,则对∀ε >0 ,有不等式 则对∀ε 设r.vX具有均值 具有均值 方差 有不等式
X − E ( X ) E[ X − E ( X )] E( X) − E( X) E (Y ) = E = =0 = D( X ) D( X) (X D( X )
= =
X − E( X ) D[ X − E( X )] D ( X ) D(Y ) = D = =1 = D( X ) D( X ) D( X ) 构造r.v 的过程叫做对 的过程叫做对r.v 标准化。 通常把由 r.v X 构造 Y的过程叫做对 X 标准化。 注意:更重要的是要知道如何将一个随机变量标准化 更重要的是要知道如何将一个随机变量标准化. 注意 更重要的是要知道如何将一个随机变量标准化
= =
2 e = E{[Y − (a0 + b0 X )]2 } = (1 − ρ XY ) D (Y ) ≥ 0
(*) )
10
性质1)成立。 性质2)证明略。 性质 )成立。 性质 )证明略。
由 )式知, 说明: 说明: (*)式知, ρXY 的含义 数 字 特 征 若
, 与 存在线性关系; ρ = ±1 Y与X 存在线性关系
ρXY = 0 即X与Y不相关 且 ρ XY = ρ 与 不相关
设随机变量(X,Y)的概率密度函数为 例2 设随机变量 的概率密度函数为
1 , f ( x, y) = π 0, x2 + y2 ≤ 1 x2 + y2 > 1
1− x 2
验证X与 不相关 不相关, 验证 与Y不相关 且不相互独立。 且不相互独立。
ρ=0时,称X和Y不相关。 =0时 不相关。
= =
11
3、重要结论
1)对于随机变量X,Y,下面事实是等价的 )对于随机变量 , ① Cov(X,Y)=0; ③ E(XY)=E(X)E(Y); 2) X与Y相互独立 与 相互独立 不相关; ② X与Y不相关; 与 不相关 ④ D(X+Y)=D(X)+D(Y). X与Y不相关 与 不相关
3
§3 协方差和相关系数 Covariance and correlation coefficient
数 字 特 征
对于一个二维随机向量( , ), ),期望和方差只反 对于一个二维随机向量(X,Y),期望和方差只反 映了它们各自的平均取值与相对于其均值的偏离程度, 映了它们各自的平均取值与相对于其均值的偏离程度,没 有反映出X与 之间的相互关系 之间的相互关系。 有反映出 与Y之间的相互关系。 注意到公式 D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]} 相互独立 若X、Y相互独立 、 相互独立, E{[X-E(X)][Y-E(Y)]}=0, , D(X+Y)=D(X)+D(Y)。 。 可以发现 E{[X-E(X)][Y-E(Y)]} 这个数在一定程度上反 映了X与 之间的关系 称为X与 的协方差 之间的关系, 的协方差。 映了 与Y之间的关系,称为 与Y的协方差。
1. 设C是常数 则D(C)=0; 是常数,则 是常数 2. 若k是常数 则D(kX)=k2 D(X); 是常数,则 是常数 3. 若X1与X2 独立,则D(X1+X2)= D(X1)+D(X2); 独立, 一般地: 一般地: D(X1+X2)= D(X1)+D(X2) + 2 E{[X-E(X)] [Y-E(Y)]}。 。
X Y -1 -1 1 8 0 1 8
1 8
0
1 8
1
1 8 1 8 1 8
0
1 8
pk
-1 3/8
0 2/8
1 3/8
Y
pk
-1 3/8
0 2/8
1 3/8
E ( X ) = ( − 1) ×
说明:虽然Cov(X,Y)=0 = 说明( XY) = Cov(X,Y)=0,1 × 1P { X × 1 ,− 1 ×01 = 0 × 1 + ∑ xi y j pij ② E :虽然Cov(X,Y)=0,但 + 0 = 0 Y = } + 0 8 0} ⋅ P{8 = 0} = ( 2 ) 2 = 81 8 i,i=−1 P{ X = Y 16 1 1 1 1 8 0 × 0 + 0 × P{− 1= 0, Y = ×} ≠+ 1× = =}0P{Y = 0} X × + 0 0 P{ X 0 ⋅ ∴ Cov(X,Y)=0-0=0 即X与Y不独立。 不独立。 与 不独立
Cov(X,Y)=0,
2、计算方法
1)用定义式 Cov(X,Y)= E{[X-E(X)][Y-E(Y)]} 用定义式 2)用简单公式 Cov(X,Y)=E(XY)-E(X)E(Y) 用简单公式
例1 设r.vX和Y的联合分布律为 和 的联合分布律为
求Cov(X,Y) 解:用公式 Cov(X,Y)=E(XY)-E(X)E(Y) 1 可求出(X,Y)关于 ,Y的边缘分布律 关于X, 的边缘分布律 ①可求出 关于 X
= =
1
(4)常见分布的方差: )常见分布的方差:
(1)(0-1)分布 分布: 分布 数 字 特 (5)均匀分布 均匀分布: 均匀分布 征 (6) 指数分布 (2) 二项分布 二项分布: (3)泊松分布 泊松分布: 泊松分布 (4)正态分布 正态分布: 正态分布
E(X) = p E(X) = np E(X) = λ
注: 相关系数也就是标准化的随机变量 ,Y*的协方差。 的协方差。 ⑴ 相关系数也就是标准化的随机变量X*, 的协方差
⑵ ρXY 是没有单位的量,只与两个r.v有关,能更好地反映 是没有单位的量,只与两个 有关, 有关 X与Y之间的关系。 之间的关系。 与 之间的关系
2、性质: 性质: 征 1) XY ≤ 1; 2) ρ XY = 1 ⇔ ∃a, b(b ≠ 0), 使P{Y = a + bX } = 1 ρ
)定义: ( ) 数 (1)定义:D(X)= E (2)计算: )计算:
字 特 征 方法1: 方法 :由定义 方差是函数 g ( X ) = [ X − E ( X )] 2的期望 方法2: 方法
{ [Xห้องสมุดไป่ตู้
2
− E ( X )]
2
}
D X) = E( X (
[E(X)]2 )−
(3)性质: )性质:
1
3 2 3 + 0× + 1× = 0 8 8 8
同理 E(Y ) = 0
8
8
8
8
对称性) 3、性质ⅰ) Cov(X,Y)=Cov(Y,X);(对称性 对称性 是任意常数; ⅱ) Cov(aX,bY)=abCov(X,Y), a,b是任意常数; 是任意常数 数 ⅲ) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y) 注: 协方差的大小在一定程度上反映了X和 相互间的关系 相互间的关系, 协方差的大小在一定程度上反映了 和Y相互间的关系, 字 但它还受X与 本身的系数影响 例如: 本身的系数影响. 但它还受 与Y本身的系数影响 例如: 特 征 Cov(10X, 10Y)=100Cov(X,Y) 标准化的协方差称为 X,Y的相关系数 , 的相关系数 实际上, 之间的关系和X与 之间的关系应一致 之间的关系应一致。 实际上,10X与10Y之间的关系和 与Y之间的关系应一致。 与 之间的关系和 为了克服这一缺点,将协方差标准化, 在计算协方差时, 为了克服这一缺点,将协方差标准化,即在计算协方差时, 先对X与 进行标准化 进行标准化.即 先对 与Y进行标准化 即:
=
σ2 σ2 P{ X − µ ≥ ε} ≤ 2 ⇔P{ X −µ < ε} ≥ 1− 2 . ε ε
2
P99T10: 设E(X),D(X)均存在 且D(X) ≠0 均存在,且 : 均存在
数 X − E(X ) , 令Y = D(X ) 证明E(Y)=0,D(Y)=1 证明
字 证明 根据数学期望与方差的性质: 证明:根据数学期望与方差的性质 根据数学期望与方差的性质 特 征
X∗ =
= =
X − E(X) ∗ Y − E(Y) ,Y = , E ( X ∗ ) = 0, E (Y ∗ ) = 0 , D(X) D(Y) ∗ ∗ ∗ Cov ( X , Y ) = E ( X Y ∗ ) − E ( X ∗ ) ⋅ E (Y ∗ ) = E ( X ∗Y ∗ )
X − E ( X ) Y − E (Y ) = E ⋅ = D( X ) D(Y )
= 0, Y与X无线性关系 无线性关系; 若 , 与 无线性关系 若0<| ρ|<1,
ρ
|ρ |的值越接近于 Y与X的线性相关程度越高 的值越接近于1, 与 的线性相关程度越高 的线性相关程度越高; 的值越接近于 |ρ |的值越接近于 Y与X的线性相关程度越弱 的值越接近于0, 与 的线性相关程度越弱 的线性相关程度越弱. 的值越接近于
= =
5
一、协方差
是一随机向量, 是一随机向量 1、定义: 设(X,Y)是一随机向量,称E{[X-E(X)][Y-E(Y)]} 定义: 的协方差,记作 为X与Y的协方差 记作 与 的协方差 记作Cov(X,Y)或σXY,即 ( , ) Cov(X,Y)= E{[X-E(X)][Y-E(Y)]} 说明 ①对于 vX,Y, D(X+Y)=D(X)+D(Y)+2Cov(X,Y) 对于r. , ②意义: 协方差是刻划 意义 协方差是刻划r.vX与Y间取值的相互关系的数 与 间取值的相互关系的数 字特征.显然 Cov(X,X)=D(X) 字特征 显然: 显然 若X、Y相互独立 相互独立
X与Y不相关 只说明 与Y之间没有线性关系,但可以有 与 不相关 只说明X与 之间没有线性关系 不相关,只说明 之间没有线性关系, 非线性关系; 非线性关系; 而X与Y独立是指 独立是指X,Y之间既无线性关系, 之间既无线性关系, 与 独立是指 之间既无线性关系 也无非线性关系, 也无非线性关系,故“独立”必然不相关,但反之不然。 独立”必然不相关,但反之不然。 不相关 但是,对于二维正态分布,独立与不相关等价。 但是,对于二维正态分布,独立与不相关等价。 与不相关等价 2 若二维r.v ( X , Y ) ~ N ( µ 1 , µ 2 ; σ 12 , σ 2 ; ρ ) 即:若二维 则X与Y相互独立 与 相互独立
证明:先求边缘概率密度函数 先求边缘概率密度函数
∂e ∂a = 2a + 2bE(X) − 2E(Y) = 0 ∂e = 2bE(X2 ) − 2E(XY) + 2aE(X) = 0 ∂b
C (X,Y) ov b = 0 D X) (
a 0 = E (Y ) − E ( X ) Cov ( X , Y ) D( X )
对应的误差平方为
相关系数刻划了X和 间 线性相关”的程度. =相关系数刻划了 和Y间“线性相关”的程度
=
9
证: 对任意的 对任意的a,b,令 令
刻画了Y与 刻画了 与a+bX的偏离程度 的偏离程度 e=E{[Y-(a+bX)]2}=E(Y2)+b2E(X2)+a2 -2bE(XY)+2abE(X)-2aE(Y)
要使 与 的某个线性函数 最为接近 就是要找a,b使得误差 最为接近 就是要找 数 要使Y与X的某个线性函数a+bX最为接近,就是要找 使得误差 视为关于a,b的二元函数 视为关于 的二元函数,求驻点: 平方e值最 值最小 平方 值最小. 将e视为关于 的二元函数,求驻点: 字 特 征 解得
Cov ( X , Y ) . D( X ) D(Y )
8
二、相关系数
数 字 特
(correlation coefficient)
1、定义:设(X,Y)是一随机向量,当D(X)>0, D(Y)>0,则称数值 是一随机向量, 是一随机向量 则称数值
记作 ρ XY
COV ( X , Y ) = 的线性相关系数, 相关系数. 为X,Y的线性相关系数,简称相关系数 的线性相关系数 简称相关系数 D( X ) D(Y )
D(X)=p (1-p ) D(X)=np(1-p) D(X)=
E(X) = µ
a +b E(X) = 2 1 E(X) =
D(X)= σ
λ
2
(b − a)2 D(X)= 12
(5) 切比雪夫不等式 =
θ
D X) = (
1
θ2
具有均值E(X)=µ ,方差 方差D(X)=σ2,则对∀ε >0 ,有不等式 则对∀ε 设r.vX具有均值 具有均值 方差 有不等式
X − E ( X ) E[ X − E ( X )] E( X) − E( X) E (Y ) = E = =0 = D( X ) D( X) (X D( X )
= =
X − E( X ) D[ X − E( X )] D ( X ) D(Y ) = D = =1 = D( X ) D( X ) D( X ) 构造r.v 的过程叫做对 的过程叫做对r.v 标准化。 通常把由 r.v X 构造 Y的过程叫做对 X 标准化。 注意:更重要的是要知道如何将一个随机变量标准化 更重要的是要知道如何将一个随机变量标准化. 注意 更重要的是要知道如何将一个随机变量标准化
= =
2 e = E{[Y − (a0 + b0 X )]2 } = (1 − ρ XY ) D (Y ) ≥ 0
(*) )
10
性质1)成立。 性质2)证明略。 性质 )成立。 性质 )证明略。
由 )式知, 说明: 说明: (*)式知, ρXY 的含义 数 字 特 征 若
, 与 存在线性关系; ρ = ±1 Y与X 存在线性关系
ρXY = 0 即X与Y不相关 且 ρ XY = ρ 与 不相关
设随机变量(X,Y)的概率密度函数为 例2 设随机变量 的概率密度函数为
1 , f ( x, y) = π 0, x2 + y2 ≤ 1 x2 + y2 > 1
1− x 2
验证X与 不相关 不相关, 验证 与Y不相关 且不相互独立。 且不相互独立。
ρ=0时,称X和Y不相关。 =0时 不相关。
= =
11
3、重要结论
1)对于随机变量X,Y,下面事实是等价的 )对于随机变量 , ① Cov(X,Y)=0; ③ E(XY)=E(X)E(Y); 2) X与Y相互独立 与 相互独立 不相关; ② X与Y不相关; 与 不相关 ④ D(X+Y)=D(X)+D(Y). X与Y不相关 与 不相关
3
§3 协方差和相关系数 Covariance and correlation coefficient
数 字 特 征
对于一个二维随机向量( , ), ),期望和方差只反 对于一个二维随机向量(X,Y),期望和方差只反 映了它们各自的平均取值与相对于其均值的偏离程度, 映了它们各自的平均取值与相对于其均值的偏离程度,没 有反映出X与 之间的相互关系 之间的相互关系。 有反映出 与Y之间的相互关系。 注意到公式 D(X+Y)=D(X)+D(Y)+2E{[X-E(X)][Y-E(Y)]} 相互独立 若X、Y相互独立 、 相互独立, E{[X-E(X)][Y-E(Y)]}=0, , D(X+Y)=D(X)+D(Y)。 。 可以发现 E{[X-E(X)][Y-E(Y)]} 这个数在一定程度上反 映了X与 之间的关系 称为X与 的协方差 之间的关系, 的协方差。 映了 与Y之间的关系,称为 与Y的协方差。
1. 设C是常数 则D(C)=0; 是常数,则 是常数 2. 若k是常数 则D(kX)=k2 D(X); 是常数,则 是常数 3. 若X1与X2 独立,则D(X1+X2)= D(X1)+D(X2); 独立, 一般地: 一般地: D(X1+X2)= D(X1)+D(X2) + 2 E{[X-E(X)] [Y-E(Y)]}。 。
X Y -1 -1 1 8 0 1 8
1 8
0
1 8
1
1 8 1 8 1 8
0
1 8
pk
-1 3/8
0 2/8
1 3/8
Y
pk
-1 3/8
0 2/8
1 3/8
E ( X ) = ( − 1) ×
说明:虽然Cov(X,Y)=0 = 说明( XY) = Cov(X,Y)=0,1 × 1P { X × 1 ,− 1 ×01 = 0 × 1 + ∑ xi y j pij ② E :虽然Cov(X,Y)=0,但 + 0 = 0 Y = } + 0 8 0} ⋅ P{8 = 0} = ( 2 ) 2 = 81 8 i,i=−1 P{ X = Y 16 1 1 1 1 8 0 × 0 + 0 × P{− 1= 0, Y = ×} ≠+ 1× = =}0P{Y = 0} X × + 0 0 P{ X 0 ⋅ ∴ Cov(X,Y)=0-0=0 即X与Y不独立。 不独立。 与 不独立
Cov(X,Y)=0,
2、计算方法
1)用定义式 Cov(X,Y)= E{[X-E(X)][Y-E(Y)]} 用定义式 2)用简单公式 Cov(X,Y)=E(XY)-E(X)E(Y) 用简单公式
例1 设r.vX和Y的联合分布律为 和 的联合分布律为
求Cov(X,Y) 解:用公式 Cov(X,Y)=E(XY)-E(X)E(Y) 1 可求出(X,Y)关于 ,Y的边缘分布律 关于X, 的边缘分布律 ①可求出 关于 X
= =
1
(4)常见分布的方差: )常见分布的方差:
(1)(0-1)分布 分布: 分布 数 字 特 (5)均匀分布 均匀分布: 均匀分布 征 (6) 指数分布 (2) 二项分布 二项分布: (3)泊松分布 泊松分布: 泊松分布 (4)正态分布 正态分布: 正态分布
E(X) = p E(X) = np E(X) = λ
注: 相关系数也就是标准化的随机变量 ,Y*的协方差。 的协方差。 ⑴ 相关系数也就是标准化的随机变量X*, 的协方差
⑵ ρXY 是没有单位的量,只与两个r.v有关,能更好地反映 是没有单位的量,只与两个 有关, 有关 X与Y之间的关系。 之间的关系。 与 之间的关系
2、性质: 性质: 征 1) XY ≤ 1; 2) ρ XY = 1 ⇔ ∃a, b(b ≠ 0), 使P{Y = a + bX } = 1 ρ