概率3_二元随机变量与相关性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i1 i
y N
i1 i
2
20 3534 256 265
20 3498 2562 20 3713 2652
0.672
正值,且接近于1。
山西大学数学科学学院
15
二维随机变量与相关性
斯皮尔曼等级相关系数
适应于顺序样本,首先计算出样本的相应等级。
计算公式:
rs
1
d
17 18
17 19.5 -1.5 15 14.5 15 12.5
2
13 11
14 9.5 1.5 12 9.5 15 12.5 -3
8
2
12 6.5
10 5.5
7 1.5
15 14.5 17 19.5
18 19
16 16.5
15 14.5 16 16.5
15 14.5 12 6.5
7
1
7 1.5
山西大学数学科学学院
7
二维随机变量与相关性
不相关与独立
一般场合,独立必然导致不相关,但不相关推不出独 立。但在正态场合下两者等价。
TH.
在二维正态分布
N
(1,
2
,12
,
2 2
,
)
场合,不相关与
独立是等价的。
山西大学数学科学学院
8
二维随机变量与相关性
相关与因果
两变量有较强的相关关系(相关系数较大),并不意 味着两者之间有因果关系。例如某年的降雨量与出生率有 很强的相关性,但不能说高降雨量导致了高出生率,也不 能说高出生率导致了高降雨量。
概率论基础
(Ⅲ) 2009年3月
山西大学数学科学学院
1
二维随机变量与相关性
二维随机变量与相关性
一、多维随机变量(随机向量) 二、二维随机变量的特征数
协方差 相关系数 三、样本相关系数的计算 皮尔逊积矩相关系数 斯皮尔曼等级相关系数
山西大学数学科学学院
2
二维随机变量与相关性
相关概念
根据线性相关的强弱又可分为强相关和弱相关。 相关但不线性相关称为非线性相关。没有任何相关关
系称为不相关。 只有线性相关的两变量我们才能做线性回归。
山西大学数学科学学院
10
二维随机变量与相关性
相关性的量化
前面所讲的协方差和相关系数是两个基本的相关性指标。
以下讲: 1、皮尔逊积矩相关系数 Pearson product-moment correlation coefficient 2、斯皮尔曼等级相关系数 Spearman rank correlation coefficient
• 协方差 > 0,称X与Y正相关,即同增同减; • 协方差 < 0,称X与Y负相关,即增减相反; • 协方差 = 0,称X与Y不(线性)相关。
山西大学数学科学学院
4
二维随机变量与相关性
二维随机变量的协方差
协方差的性质: 1. Cov(X,Y)=E(XY)-E(X)E(Y); 2. 若X与Y独立,则Cov(X,Y)=0,反之亦然; 3. Cov(X,Y)=Cov(Y,X); 4. Cov(X,a)=0,a为常数; 5. Cov(aX,bY)=abCov(Y,X),a,b为常数; 6. Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z); 7. Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y),
xy
F (x, y)
p(u, v)dvdu
山西大学数学科学学院
3
二维随机变量与相关性
二维随机变量的协方差
设(X,Y)是一个二维随机变量,如果 E[(X E(X ))(Y E(Y ))] 存在,则称其为X与Y的协方差,或称为X与Y的相关(中心)
矩,并记为 Cov(X ,Y ) E[(X E(X ))(Y E(Y ))] 特别地: Cov(X , X ) Var(X )
16 17
16 16.5
10 5.5 14 9.5
10 5.5 16 16.5
12 9.5 10 4.5
10 5.5 10 4.5
11
8
15 12.5
19 20
15 12.5
14 12
13
8
9
3
8
3
山西大学数学科学学院
18
二维随机变量与相关性
斯皮尔曼等级相关系数示例(续)
计算相关系数:
rs
1
Var( X ) Var(Y ) XY
为X与Y的相关系数。
相关系数与协方差是同符号的,即同正同负,所以从 相关系数的取值也可以反映X与Y的(线性)相关性。
相关系数可以看做是X与Y标准化后的协方差。
施瓦兹不等式:
[Cov( X
,Y )]2
2 2
XY
(Schwarz inequality)
where,
x N
i1 i
2
N
y N 2
i1 i
y N
i1 i
2
其中,z
xi
和z
y
j
分别表示xi
和y
的标准分。
j
显然,两样本容量应该相同。
山西大学数学科学学院
12
二维随机变量与相关性
皮尔逊积矩相关系数的假设检验
1、陈述原假设与备择假设:H0 : 0 H1 : 0, H0 : 0 H1 : 0, H0 : 0 H1 : 0
即使两者有因果关系,也要特别注意:导致一件事情 发生的原因很多,不能说完全由它引起,所以要进一步考 虑多元线性回归问题。
山西大学数学科学学院
9
二维随机变量与相关性
相关性的描述与表示
变量间的两类基本关系:确定性关系与相关关系。 前者可以用函数关系表示出来,但后者没有确切的函
数关系。例如身高与体重的关系,相关但不确定。 相关关系又分为线性相关与非线性相关。(图略) 根据两变量变化的同向性,可以分为正相关与负相关;
斯皮尔曼等级相关系数的假设检验
1、陈述原假设与备择假设:H0 : r 0 H1 : r 0, H0 : r 0 H1 : r 0, H0 : r 0 H1 : r 0
2、设定显著性水平alpha;
3、计算检验统计量 rs(如两变量服从正态分布);
4、查“检验表”,的临界值C;
6
d N 2
i1 i
N (N 2 1)
, di为相应等级之差。
等级的确定:从小到大升序排列,最小的数等级为1,
依次递增,如遇并列数据则取他们所在等级的平均数。
注意:过多的并列数据可能导致过高估计相关系数。
此时,一种更精确的方法是——计算等级序列的Pearson
相关系数。
山西大学数学科学学院
16
二维随机变量与相关性
2、设定显著性水平alpha;
3、计算检验统计量r(如两变量服从正态分布);
4、查“检验表”,的临界值C;
5、拒绝域为:W { r C 2} W {r C } W {r C }
因为原假设中选用 总体分布的相关系 数,因此属于参数 假设检验。
山西大学数学科学学院
13
二维随机变量与相关性
皮尔逊积矩相关系数示例
考察两位教师的判分标准是否一致。(P127) 两位教师对20个学生的英语作文判分给出,通过计算
两组分数的相关系数,来考察之间的相关性。
作文编号 教师甲的分数 教师乙的分数
1-20
……
…… 相应分数 相乘后求和 (3534)
总分1 (256)
总分2 (265)
平方和1 (3498)
Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)。
山西大学数学科学学院
5
二维随机变量与相关性
二维随机变量的相关系数
设(X,Y)是一个二维随机变量,且 Var(X ) 0,Var(Y ) 0。
则wk.baidu.com Corr( X ,Y ) Cov( X ,Y ) Cov( X ,Y )
n维随机变量(随机向量)的形式:
X () ( X1(), X 2 (),L , X n ())
n维随机变量的联合分布函数: F (x1, x2 ,L , xn ) P( X1 x1, X 2 x2 ,L , X n xn )
二维离散型随机变量的联合分布列:
pij P( X xi ,Y y j ),i, j 1, 2,L 二维连续型随机变量的联合分布函数:
山西大学数学科学学院
11
二维随机变量与相关性
皮尔逊积矩相关系数
适应于正态样本,满足相关系数的一般性质。
计算公式:
r
z z N
i1 xi yi
N 1
N
N i 1
xi yi
x N
i1 i
y N
j1 j
N
x N 2
i1 i
6
d N 2
i1 i
N (N 2 1)
6 409 1 20(202 1) 0.69
两者比较非常接近,说明同样的问题。 前者更准确。
山西大学数学科学学院
19
二维随机变量与相关性
平方和2 (3713)
山西大学数学科学学院
14
二维随机变量与相关性
皮尔逊积矩相关系数示例(续)
相关系数计算式为:
r
N
N i 1
xi yi
x N
i1 i
y N
j1 j
N
x N 2
i1 i
x N
i1 i
2
N
y N 2
5、拒绝域为:W { rs C 2} W {rs C } W {rs C }
因为不涉及总体分 布和总体分布参数, 因此属于非参数假 设检验。
山西大学数学科学学院
17
二维随机变量与相关性
斯皮尔曼等级相关系数示例
同前例(P130)。数据如下:
T甲 R1 T乙 R2
d T甲 R1 T乙 R2
2 X
Var
(
X
),
2 Y
Var(Y )
山西大学数学科学学院
6
二维随机变量与相关性
二维随机变量的相关系数
相关系数的性质:
1. 有界:1 Corr(X ,Y ) 1;
2. 相关系数大于(小于)0表示两变量正(负)相关,等 于0说明不线性相关;
3. 相关系数为 1 的充分必要条件是X与Y几乎处处有线性 关系,即存在a(不为0)和b,使得P(Y=aX+b)=1。其中 当Corr(X,Y)=1时,有a>0 ;当Corr(X,Y)=1,有a<0。
y N
i1 i
2
20 3534 256 265
20 3498 2562 20 3713 2652
0.672
正值,且接近于1。
山西大学数学科学学院
15
二维随机变量与相关性
斯皮尔曼等级相关系数
适应于顺序样本,首先计算出样本的相应等级。
计算公式:
rs
1
d
17 18
17 19.5 -1.5 15 14.5 15 12.5
2
13 11
14 9.5 1.5 12 9.5 15 12.5 -3
8
2
12 6.5
10 5.5
7 1.5
15 14.5 17 19.5
18 19
16 16.5
15 14.5 16 16.5
15 14.5 12 6.5
7
1
7 1.5
山西大学数学科学学院
7
二维随机变量与相关性
不相关与独立
一般场合,独立必然导致不相关,但不相关推不出独 立。但在正态场合下两者等价。
TH.
在二维正态分布
N
(1,
2
,12
,
2 2
,
)
场合,不相关与
独立是等价的。
山西大学数学科学学院
8
二维随机变量与相关性
相关与因果
两变量有较强的相关关系(相关系数较大),并不意 味着两者之间有因果关系。例如某年的降雨量与出生率有 很强的相关性,但不能说高降雨量导致了高出生率,也不 能说高出生率导致了高降雨量。
概率论基础
(Ⅲ) 2009年3月
山西大学数学科学学院
1
二维随机变量与相关性
二维随机变量与相关性
一、多维随机变量(随机向量) 二、二维随机变量的特征数
协方差 相关系数 三、样本相关系数的计算 皮尔逊积矩相关系数 斯皮尔曼等级相关系数
山西大学数学科学学院
2
二维随机变量与相关性
相关概念
根据线性相关的强弱又可分为强相关和弱相关。 相关但不线性相关称为非线性相关。没有任何相关关
系称为不相关。 只有线性相关的两变量我们才能做线性回归。
山西大学数学科学学院
10
二维随机变量与相关性
相关性的量化
前面所讲的协方差和相关系数是两个基本的相关性指标。
以下讲: 1、皮尔逊积矩相关系数 Pearson product-moment correlation coefficient 2、斯皮尔曼等级相关系数 Spearman rank correlation coefficient
• 协方差 > 0,称X与Y正相关,即同增同减; • 协方差 < 0,称X与Y负相关,即增减相反; • 协方差 = 0,称X与Y不(线性)相关。
山西大学数学科学学院
4
二维随机变量与相关性
二维随机变量的协方差
协方差的性质: 1. Cov(X,Y)=E(XY)-E(X)E(Y); 2. 若X与Y独立,则Cov(X,Y)=0,反之亦然; 3. Cov(X,Y)=Cov(Y,X); 4. Cov(X,a)=0,a为常数; 5. Cov(aX,bY)=abCov(Y,X),a,b为常数; 6. Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z); 7. Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y),
xy
F (x, y)
p(u, v)dvdu
山西大学数学科学学院
3
二维随机变量与相关性
二维随机变量的协方差
设(X,Y)是一个二维随机变量,如果 E[(X E(X ))(Y E(Y ))] 存在,则称其为X与Y的协方差,或称为X与Y的相关(中心)
矩,并记为 Cov(X ,Y ) E[(X E(X ))(Y E(Y ))] 特别地: Cov(X , X ) Var(X )
16 17
16 16.5
10 5.5 14 9.5
10 5.5 16 16.5
12 9.5 10 4.5
10 5.5 10 4.5
11
8
15 12.5
19 20
15 12.5
14 12
13
8
9
3
8
3
山西大学数学科学学院
18
二维随机变量与相关性
斯皮尔曼等级相关系数示例(续)
计算相关系数:
rs
1
Var( X ) Var(Y ) XY
为X与Y的相关系数。
相关系数与协方差是同符号的,即同正同负,所以从 相关系数的取值也可以反映X与Y的(线性)相关性。
相关系数可以看做是X与Y标准化后的协方差。
施瓦兹不等式:
[Cov( X
,Y )]2
2 2
XY
(Schwarz inequality)
where,
x N
i1 i
2
N
y N 2
i1 i
y N
i1 i
2
其中,z
xi
和z
y
j
分别表示xi
和y
的标准分。
j
显然,两样本容量应该相同。
山西大学数学科学学院
12
二维随机变量与相关性
皮尔逊积矩相关系数的假设检验
1、陈述原假设与备择假设:H0 : 0 H1 : 0, H0 : 0 H1 : 0, H0 : 0 H1 : 0
即使两者有因果关系,也要特别注意:导致一件事情 发生的原因很多,不能说完全由它引起,所以要进一步考 虑多元线性回归问题。
山西大学数学科学学院
9
二维随机变量与相关性
相关性的描述与表示
变量间的两类基本关系:确定性关系与相关关系。 前者可以用函数关系表示出来,但后者没有确切的函
数关系。例如身高与体重的关系,相关但不确定。 相关关系又分为线性相关与非线性相关。(图略) 根据两变量变化的同向性,可以分为正相关与负相关;
斯皮尔曼等级相关系数的假设检验
1、陈述原假设与备择假设:H0 : r 0 H1 : r 0, H0 : r 0 H1 : r 0, H0 : r 0 H1 : r 0
2、设定显著性水平alpha;
3、计算检验统计量 rs(如两变量服从正态分布);
4、查“检验表”,的临界值C;
6
d N 2
i1 i
N (N 2 1)
, di为相应等级之差。
等级的确定:从小到大升序排列,最小的数等级为1,
依次递增,如遇并列数据则取他们所在等级的平均数。
注意:过多的并列数据可能导致过高估计相关系数。
此时,一种更精确的方法是——计算等级序列的Pearson
相关系数。
山西大学数学科学学院
16
二维随机变量与相关性
2、设定显著性水平alpha;
3、计算检验统计量r(如两变量服从正态分布);
4、查“检验表”,的临界值C;
5、拒绝域为:W { r C 2} W {r C } W {r C }
因为原假设中选用 总体分布的相关系 数,因此属于参数 假设检验。
山西大学数学科学学院
13
二维随机变量与相关性
皮尔逊积矩相关系数示例
考察两位教师的判分标准是否一致。(P127) 两位教师对20个学生的英语作文判分给出,通过计算
两组分数的相关系数,来考察之间的相关性。
作文编号 教师甲的分数 教师乙的分数
1-20
……
…… 相应分数 相乘后求和 (3534)
总分1 (256)
总分2 (265)
平方和1 (3498)
Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)。
山西大学数学科学学院
5
二维随机变量与相关性
二维随机变量的相关系数
设(X,Y)是一个二维随机变量,且 Var(X ) 0,Var(Y ) 0。
则wk.baidu.com Corr( X ,Y ) Cov( X ,Y ) Cov( X ,Y )
n维随机变量(随机向量)的形式:
X () ( X1(), X 2 (),L , X n ())
n维随机变量的联合分布函数: F (x1, x2 ,L , xn ) P( X1 x1, X 2 x2 ,L , X n xn )
二维离散型随机变量的联合分布列:
pij P( X xi ,Y y j ),i, j 1, 2,L 二维连续型随机变量的联合分布函数:
山西大学数学科学学院
11
二维随机变量与相关性
皮尔逊积矩相关系数
适应于正态样本,满足相关系数的一般性质。
计算公式:
r
z z N
i1 xi yi
N 1
N
N i 1
xi yi
x N
i1 i
y N
j1 j
N
x N 2
i1 i
6
d N 2
i1 i
N (N 2 1)
6 409 1 20(202 1) 0.69
两者比较非常接近,说明同样的问题。 前者更准确。
山西大学数学科学学院
19
二维随机变量与相关性
平方和2 (3713)
山西大学数学科学学院
14
二维随机变量与相关性
皮尔逊积矩相关系数示例(续)
相关系数计算式为:
r
N
N i 1
xi yi
x N
i1 i
y N
j1 j
N
x N 2
i1 i
x N
i1 i
2
N
y N 2
5、拒绝域为:W { rs C 2} W {rs C } W {rs C }
因为不涉及总体分 布和总体分布参数, 因此属于非参数假 设检验。
山西大学数学科学学院
17
二维随机变量与相关性
斯皮尔曼等级相关系数示例
同前例(P130)。数据如下:
T甲 R1 T乙 R2
d T甲 R1 T乙 R2
2 X
Var
(
X
),
2 Y
Var(Y )
山西大学数学科学学院
6
二维随机变量与相关性
二维随机变量的相关系数
相关系数的性质:
1. 有界:1 Corr(X ,Y ) 1;
2. 相关系数大于(小于)0表示两变量正(负)相关,等 于0说明不线性相关;
3. 相关系数为 1 的充分必要条件是X与Y几乎处处有线性 关系,即存在a(不为0)和b,使得P(Y=aX+b)=1。其中 当Corr(X,Y)=1时,有a>0 ;当Corr(X,Y)=1,有a<0。