均值、方差、标准差、协方差
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本中的个体是随机抽取的 因此 (YB YB 1,…, n) B B 的取值是随机的 (YB YB 的函数, 如 Y , 也是随机的: 抽到了不同的样本 1,…, n) B B 则得到不同的值 在所有可能的容量为 n 的不同样本上Y 的分布称为Y 的抽 样分布. Y 的均值和方差即为其抽样分布的均值和方差 E(Y ) 和 var(Y ). 抽样分布的概念是整个计量经济学的基础.
25
当Y 服从 p = 0.78的 Bernoulli分布时, Y的抽样分布 :
26
相同例子:
Y E (Y ) var(Y )
的抽样分布:
27
总结:
Y 的抽样分布
2 当 Y1,…,Yn i.i.d. 满足 0 < Y < 时, Y 的精确(有限样本)分布均值为Y (“Y 是Y 的无偏估 2 计量”) 方差为 Y /n 除了其均值和方差, Y 的精确分布非常复杂取决于 Y 的分 布 (总体分布) 当 n 较大时, 抽样分布简化了:
16
Y 的抽样分布(续)
例: 设 Y 取 0 或 1 ( Bernoulli 随机变量),服从概率分布,
Pr[Y = 0] = .22, Pr(Y =1) = .78 则 E(Y) = p1 + (1 – p)0 = p = .78 2 = E[Y – E(Y)]2 = p(1 – p) Y = .78(1–.78) = 0.1716
5
6
(3)2个随机变量: 联合分布与协方差
随机变量 X 和 Z 服从某一 联合分布 joint distribution X 和 Z 之间的协方差定义为 cov(X,Z) = E[(X – B X)( Z)] XZB B Z – B B = B 协方差是 X 和 Z 线性关联程度的度量; 其单位为 X 的单位 Z 的单位 cov(X,Z) > 0 表明 X 和 Z 正相关 若 X 和 Z 独立分布, 则 cov(X,Z) = 0 (反之不成立!!) r.v.与其自身的协方差就是它的方差 : 2P 2 cov(X,X) = E[(X – B )( X – B )] = E [( X – B ) P ] = XB XB XB X
1 = E Yi Y n i 1
n 2
1 = E (Yi Y ) n i 1
n
2
20
于是
1 var(Y ) = E (Yi Y ) n i 1
n
2
1 n 1 n = E (Yi Y ) (Y j Y ) n j 1 n i 1 1 n n = 2 E (Yi Y )(Y j Y ) n i 1 j 1
2
(1)总体、随机变量和分布
总体(Population)
感兴趣的所有可能个体的集合 (学区)
我们将总体视为无限大 (∞近似于“非常大”)
随机变量(Random variable) Y
一个随机结果的数值概括 (地区平均测试成绩、学生教师比)
Y 的总体分布
Y 离散时:总体中出现的不同Y取值的概率,如Pr[Y = 650] Y 连续时:这些取值集合的概率,如Pr[640≤Y ≤660]
p
p
24
中心极限定理 (CLT):
2 若 (Y1,…,Yn) i.i.d. 且 0 < Y < , 则当 n 较大时, Y 的分 布较好地近似于正态分布 Y2 2 Y 近似服从 N(Y, ) (“均值Y 方差 Y /n 的正态分布”) n n (Y – Y)/Y 近似服从 N(0,1) (标准正态) Y E (Y ) Y Y 即, “标准化的” Y = = 近似服从 N(0,1) var(Y ) Y / n n 越大, 近似效果越好.
条件均值 = 条件分布的均值 = E(Y|X = x) (重要概念和符号) 条件方差 = 条件分布的方差 例: E(Test scores|STR < 20) = 小班规模的学区的平均测试 成绩
11
条件均值(续)
均值之差为两个条件分布的均值的差: = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
22
当n较大时,Y 的抽样分布
当样本容量较小时, Y 的分布很复杂,但当 n 较大时, 抽样分 布很简单! 1. 当 n 增大时, Y 的分布越来越紧密的聚集于 Y 周围(大数 定律 Law of Large Numbers) 2. 此外, Y – Y 的分布变为正态 (中心极限定理 Central Limit Theorem)
distributed
于是, 简单随机抽样下, Y1 和 Y2 独立同分布 (i.i.d.). 更一般地, 简单随机抽样下, {Yi}, i = 1,…, n, i.i.d.
这一框架允许我们能利用从总体中取出的样本进行有关总体 矩的严格统计推断
14
△ 估计 Estimation
Y 是均值的一个自然估计. 但:
4
矩(续)
3 E Y Y 偏度 skewness = 3
Y
=分布不对称性的度量 偏度 = 0: 分布是对称的 偏度 > (<) 0: 分布具有右(左)长尾
4 E Y Y 峰度 kurtosis = 4
Y
= 尾部厚薄的度量 = 出现大值的可能性度量 峰度 = 3: 正态分布 峰度 > 3: 厚尾 (“尖峰 leptokurtotic”)
13
简单随机抽样下 Y1,…, Yn 的分布
由于个体 #1 和 #2 是随机抽取的, 因此 Y1 取值中不包含 Y2 的信息。故: Y1 和 Y2 是 独立分布的 independent distributed Y1 和 Y2 取自同一分布, 即, Y1, Y2 同分布 identically
18
关于抽样分布我们要了解的:
Y 的均值是多少? 如果 E(Y ) =真实的 = .78, 则Y 是 of 的无偏 unbiased 估计量 Y 的方差是多少? var(Y ) 如何依赖于 n (著名的 1/n 公式) 当 n 较大时 Y 是否靠近 ? 大数定律: Y 是 的相合 consistent 估计量 当 n 较大时,Y – 表现出钟形形状…普遍成立吗? 事实上, 当 n 较大时,Y – 近似服从正态分布 (中心 极限定理)
1 n n = 2 cov(Yi ,Y j ) n i 1 j 1
1 = 2 n
2 Y i 1 n
Y2 = n
21
Y 抽样分布的均值和方差(续)
E(Y ) = Y
Y2 var(Y ) = n
结论:
1. 2.
Y 是Y 的无偏估计量(即, E(Y ) = Y) var(Y ) 与 n 成反比 抽样分布的离散程度与 1/ n 成比例 因此Y 的抽样不确定性与 1/ n 成比例(样本越大, 不确定性越小, 根号 n 定律)
条件均值的其他例题: 所有女职工的工资 (Y = 工资, X = 性别) 若 E(X|Z) =常数, 则 corr(X,Z) = 0 (但反之不一定成立)
条件均值是我们熟悉的组平均思想的一个(有可能是新的) 术语
12
(4)从某总体中随机抽取的样本Y1,…, Yn的分布:
假设是简单随机抽样 simple random sampling
(a) Y 的性质怎样? (b) 为什么我们不用其他估计量而用 Y 呢? YB 第一个观测) 1( B 利用不同的权重 – 而不是简单平均 Median(YB YB 1,…, n) B B (中位数) 出发点是 Y 的抽样分布
15
(a)
Y 的抽样分布
Y 是一个随机变量, 其性质取决于 Y 的抽样分布
Y Y (大数定律)
Y E (Y ) var(Y )
p
近似服从 N(0,1) (CLT)
28
(b) 为什么采用 Y 去估计 Y ?
Y 是无偏的: E(Y ) = Y Y 是相合的(一致的): Y Y Y 是Y 的 “最小二乘” 估计量; Y 为下式的解,
p
从总体中随机选取个体 (学区, 实体)
随机性和数据
在抽样之前,由于个体的选取是随机的故 Y 的取值是随 机的 抽样结束得到了 Y 的观测, 于是 Y 仅仅是一个数值 – 非 随机 数据集记为 (Y1, Y2,…, Yn), 其中 Yi = 抽取到的第 i个个体 (学区, 实体) 的Y 取值
9
相关系数度量了线性相关 性
10
条件分布和条件均值
条件分布 Conditional distributions
给定其他随机变量 X 取值时,Y 的分布 例: 给定 STR<20 时测试成绩的分布
条件期望 Conditional expectations 和条件矩 conditional moments
第2-3章
概率统计复习
第2-3章 概率统计复习
统计推断的概率框架 贯穿计量经济学始终的三种类型的统计方法 估计 检验 置信区间
△ 统计推断的概率框架
总体、随机变量、分布 分布矩 (均值、方差、标准差、协方差、相关系数) 条件分布、条件均值 从总体中随机抽取的样本服从的分布(抽样分布)
19
Y 抽样分布的均值和方差
一般情况: Yi i.i.d. 取自任何分布, 不一定是 Bernoulli: 1 n 1 n 1 n 均值: E(Y ) = E( Yi ) = E (Yi ) = Y = Y n i 1 n i 1 n i 1 方差: var(Y ) = E[Y – E(Y )]2 = E[Y – Y]2
23
大数定律:
如果估计量落入总体真值区间内的概率当样本容量增大 时趋于 1,则称估计量是相合的 2 如果 (Y1,…,Yn) i.i.d. 且 Y < , 则 Y 是 Y 的相合估计量,即, Pr[|Y – Y| < ] 1 as n 可以写为 Y Y (“Y Y” 意指 “Y 依概率收敛于 Y”). Y2 (数学推导: as n , var(Y ) = 0, 由此得 n Pr[|Y – Y| < ] 1.)
min m (Yi m)2
i 1
n
因此, Y 使 “残差”平方和最小 推导: (参见附录 3.2)
d n 2 = ( Y m ) i dm i 1
n n
n d 2 = 2 (Yi m) ( Y m ) i i 1 dm i 1
7
测试成绩Test Score和学生教师比STR负相关:
相关系数也为负
8
相关系数是利用协方差定义的:
corr(X,Z) =
cov( X , Z ) XZ = rXZ var( X ) var( Z ) X Z
–1 corr(X,Z) 1 corr(X,Z) = 1 表明完全线性正相关 corr(X,Z) = –1 表明完全线性负相关 corr(X,Z) = 0 表明不存在线性关系(线性不相关)
Y 的抽样分布依赖于 n. 考虑 n = 2. Y 的抽样分布为, Pr(Y = 0) = .222 = .0484 Pr(Y = ½) = 2.22.78 = .3432 Pr(Y = 1) = .782 = .6084
17
当Y 服从 Bernoulli分布 (p = .78)时 Y 的抽样分布:
3
(2)总体分布矩: 均值、方差、标准差、协方差、相关系数
均值 mean
= Y 的期望值(期望)
= E(Y) = BYB = Y 多次重复取值的长期平均值
方差variance = E(Y – BYB)P2P
2 = Y
= 分布的散布平方的度量
标准差standard deviation = 方差 = BYB
25
当Y 服从 p = 0.78的 Bernoulli分布时, Y的抽样分布 :
26
相同例子:
Y E (Y ) var(Y )
的抽样分布:
27
总结:
Y 的抽样分布
2 当 Y1,…,Yn i.i.d. 满足 0 < Y < 时, Y 的精确(有限样本)分布均值为Y (“Y 是Y 的无偏估 2 计量”) 方差为 Y /n 除了其均值和方差, Y 的精确分布非常复杂取决于 Y 的分 布 (总体分布) 当 n 较大时, 抽样分布简化了:
16
Y 的抽样分布(续)
例: 设 Y 取 0 或 1 ( Bernoulli 随机变量),服从概率分布,
Pr[Y = 0] = .22, Pr(Y =1) = .78 则 E(Y) = p1 + (1 – p)0 = p = .78 2 = E[Y – E(Y)]2 = p(1 – p) Y = .78(1–.78) = 0.1716
5
6
(3)2个随机变量: 联合分布与协方差
随机变量 X 和 Z 服从某一 联合分布 joint distribution X 和 Z 之间的协方差定义为 cov(X,Z) = E[(X – B X)( Z)] XZB B Z – B B = B 协方差是 X 和 Z 线性关联程度的度量; 其单位为 X 的单位 Z 的单位 cov(X,Z) > 0 表明 X 和 Z 正相关 若 X 和 Z 独立分布, 则 cov(X,Z) = 0 (反之不成立!!) r.v.与其自身的协方差就是它的方差 : 2P 2 cov(X,X) = E[(X – B )( X – B )] = E [( X – B ) P ] = XB XB XB X
1 = E Yi Y n i 1
n 2
1 = E (Yi Y ) n i 1
n
2
20
于是
1 var(Y ) = E (Yi Y ) n i 1
n
2
1 n 1 n = E (Yi Y ) (Y j Y ) n j 1 n i 1 1 n n = 2 E (Yi Y )(Y j Y ) n i 1 j 1
2
(1)总体、随机变量和分布
总体(Population)
感兴趣的所有可能个体的集合 (学区)
我们将总体视为无限大 (∞近似于“非常大”)
随机变量(Random variable) Y
一个随机结果的数值概括 (地区平均测试成绩、学生教师比)
Y 的总体分布
Y 离散时:总体中出现的不同Y取值的概率,如Pr[Y = 650] Y 连续时:这些取值集合的概率,如Pr[640≤Y ≤660]
p
p
24
中心极限定理 (CLT):
2 若 (Y1,…,Yn) i.i.d. 且 0 < Y < , 则当 n 较大时, Y 的分 布较好地近似于正态分布 Y2 2 Y 近似服从 N(Y, ) (“均值Y 方差 Y /n 的正态分布”) n n (Y – Y)/Y 近似服从 N(0,1) (标准正态) Y E (Y ) Y Y 即, “标准化的” Y = = 近似服从 N(0,1) var(Y ) Y / n n 越大, 近似效果越好.
条件均值 = 条件分布的均值 = E(Y|X = x) (重要概念和符号) 条件方差 = 条件分布的方差 例: E(Test scores|STR < 20) = 小班规模的学区的平均测试 成绩
11
条件均值(续)
均值之差为两个条件分布的均值的差: = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
22
当n较大时,Y 的抽样分布
当样本容量较小时, Y 的分布很复杂,但当 n 较大时, 抽样分 布很简单! 1. 当 n 增大时, Y 的分布越来越紧密的聚集于 Y 周围(大数 定律 Law of Large Numbers) 2. 此外, Y – Y 的分布变为正态 (中心极限定理 Central Limit Theorem)
distributed
于是, 简单随机抽样下, Y1 和 Y2 独立同分布 (i.i.d.). 更一般地, 简单随机抽样下, {Yi}, i = 1,…, n, i.i.d.
这一框架允许我们能利用从总体中取出的样本进行有关总体 矩的严格统计推断
14
△ 估计 Estimation
Y 是均值的一个自然估计. 但:
4
矩(续)
3 E Y Y 偏度 skewness = 3
Y
=分布不对称性的度量 偏度 = 0: 分布是对称的 偏度 > (<) 0: 分布具有右(左)长尾
4 E Y Y 峰度 kurtosis = 4
Y
= 尾部厚薄的度量 = 出现大值的可能性度量 峰度 = 3: 正态分布 峰度 > 3: 厚尾 (“尖峰 leptokurtotic”)
13
简单随机抽样下 Y1,…, Yn 的分布
由于个体 #1 和 #2 是随机抽取的, 因此 Y1 取值中不包含 Y2 的信息。故: Y1 和 Y2 是 独立分布的 independent distributed Y1 和 Y2 取自同一分布, 即, Y1, Y2 同分布 identically
18
关于抽样分布我们要了解的:
Y 的均值是多少? 如果 E(Y ) =真实的 = .78, 则Y 是 of 的无偏 unbiased 估计量 Y 的方差是多少? var(Y ) 如何依赖于 n (著名的 1/n 公式) 当 n 较大时 Y 是否靠近 ? 大数定律: Y 是 的相合 consistent 估计量 当 n 较大时,Y – 表现出钟形形状…普遍成立吗? 事实上, 当 n 较大时,Y – 近似服从正态分布 (中心 极限定理)
1 n n = 2 cov(Yi ,Y j ) n i 1 j 1
1 = 2 n
2 Y i 1 n
Y2 = n
21
Y 抽样分布的均值和方差(续)
E(Y ) = Y
Y2 var(Y ) = n
结论:
1. 2.
Y 是Y 的无偏估计量(即, E(Y ) = Y) var(Y ) 与 n 成反比 抽样分布的离散程度与 1/ n 成比例 因此Y 的抽样不确定性与 1/ n 成比例(样本越大, 不确定性越小, 根号 n 定律)
条件均值的其他例题: 所有女职工的工资 (Y = 工资, X = 性别) 若 E(X|Z) =常数, 则 corr(X,Z) = 0 (但反之不一定成立)
条件均值是我们熟悉的组平均思想的一个(有可能是新的) 术语
12
(4)从某总体中随机抽取的样本Y1,…, Yn的分布:
假设是简单随机抽样 simple random sampling
(a) Y 的性质怎样? (b) 为什么我们不用其他估计量而用 Y 呢? YB 第一个观测) 1( B 利用不同的权重 – 而不是简单平均 Median(YB YB 1,…, n) B B (中位数) 出发点是 Y 的抽样分布
15
(a)
Y 的抽样分布
Y 是一个随机变量, 其性质取决于 Y 的抽样分布
Y Y (大数定律)
Y E (Y ) var(Y )
p
近似服从 N(0,1) (CLT)
28
(b) 为什么采用 Y 去估计 Y ?
Y 是无偏的: E(Y ) = Y Y 是相合的(一致的): Y Y Y 是Y 的 “最小二乘” 估计量; Y 为下式的解,
p
从总体中随机选取个体 (学区, 实体)
随机性和数据
在抽样之前,由于个体的选取是随机的故 Y 的取值是随 机的 抽样结束得到了 Y 的观测, 于是 Y 仅仅是一个数值 – 非 随机 数据集记为 (Y1, Y2,…, Yn), 其中 Yi = 抽取到的第 i个个体 (学区, 实体) 的Y 取值
9
相关系数度量了线性相关 性
10
条件分布和条件均值
条件分布 Conditional distributions
给定其他随机变量 X 取值时,Y 的分布 例: 给定 STR<20 时测试成绩的分布
条件期望 Conditional expectations 和条件矩 conditional moments
第2-3章
概率统计复习
第2-3章 概率统计复习
统计推断的概率框架 贯穿计量经济学始终的三种类型的统计方法 估计 检验 置信区间
△ 统计推断的概率框架
总体、随机变量、分布 分布矩 (均值、方差、标准差、协方差、相关系数) 条件分布、条件均值 从总体中随机抽取的样本服从的分布(抽样分布)
19
Y 抽样分布的均值和方差
一般情况: Yi i.i.d. 取自任何分布, 不一定是 Bernoulli: 1 n 1 n 1 n 均值: E(Y ) = E( Yi ) = E (Yi ) = Y = Y n i 1 n i 1 n i 1 方差: var(Y ) = E[Y – E(Y )]2 = E[Y – Y]2
23
大数定律:
如果估计量落入总体真值区间内的概率当样本容量增大 时趋于 1,则称估计量是相合的 2 如果 (Y1,…,Yn) i.i.d. 且 Y < , 则 Y 是 Y 的相合估计量,即, Pr[|Y – Y| < ] 1 as n 可以写为 Y Y (“Y Y” 意指 “Y 依概率收敛于 Y”). Y2 (数学推导: as n , var(Y ) = 0, 由此得 n Pr[|Y – Y| < ] 1.)
min m (Yi m)2
i 1
n
因此, Y 使 “残差”平方和最小 推导: (参见附录 3.2)
d n 2 = ( Y m ) i dm i 1
n n
n d 2 = 2 (Yi m) ( Y m ) i i 1 dm i 1
7
测试成绩Test Score和学生教师比STR负相关:
相关系数也为负
8
相关系数是利用协方差定义的:
corr(X,Z) =
cov( X , Z ) XZ = rXZ var( X ) var( Z ) X Z
–1 corr(X,Z) 1 corr(X,Z) = 1 表明完全线性正相关 corr(X,Z) = –1 表明完全线性负相关 corr(X,Z) = 0 表明不存在线性关系(线性不相关)
Y 的抽样分布依赖于 n. 考虑 n = 2. Y 的抽样分布为, Pr(Y = 0) = .222 = .0484 Pr(Y = ½) = 2.22.78 = .3432 Pr(Y = 1) = .782 = .6084
17
当Y 服从 Bernoulli分布 (p = .78)时 Y 的抽样分布:
3
(2)总体分布矩: 均值、方差、标准差、协方差、相关系数
均值 mean
= Y 的期望值(期望)
= E(Y) = BYB = Y 多次重复取值的长期平均值
方差variance = E(Y – BYB)P2P
2 = Y
= 分布的散布平方的度量
标准差standard deviation = 方差 = BYB