均值方差标准差
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
关于抽样分布我们要了解的:
Y 的均值是多少?
如果 E(Y ) =真实的 = .78, 则Y 是 of 的无偏
unbiased 估计量 Y 的方差是多少?
var(Y ) 如何依赖于 n (著名的 1/n 公式)
当 n 较大时 Y 是否靠近 ? 大数定律: Y 是 的相合 consistent 估计量
14
Y 的抽样分布(续)
例: 设 Y 取 0 或 1 ( Bernoulli 随机变量),服从概率分布,
Pr[Y = 0] = .22, Pr(Y =1) = .78 则
E(Y) = p1 + (1 – p)0 = p = .78
2 Y
=
E[Y
–
E(Y)]2
=
p(1
–
p)
= .78(1–.78) = 0.1716
24
Y E(Y )
相同例子:
的抽样分布:
var(Y )
25
总结: Y 的抽样分布
当
Y1,…,Yn
i.i.d.
满足
0
<
2 Y
<
时,
Y 的精确(有限样本)分布均值为Y (“Y 是Y 的无偏估
计量”)
方差为
2 Y
/n
除了其均值和方差, Y 的精确分布非常复杂取决于 Y 的分
布 (总体分布)
协方差是 X 和 Z 线性关联程度的度量; 其单位为 X 的单位
Z 的单位
cov(X,Z) > 0 表明 X 和 Z 正相关 若 X 和 Z 独立分布, 则 cov(X,Z) = 0 (反之不成立!!)
r.v.与其自身的协方差就是它的方差 :
cov(X,X)
=
E[(X
–
BXB)(X
方差
2 Y
/n
的正态分布”)
n (Y – Y)/Y 近似服从 N(0,1) (标准正态)
即, “标准化的” Y = Y E(Y ) = Y Y 近似服从 N(0,1) var(Y ) Y / n
n 越大, 近似效果越好.
23
当Y 服从 p = 0.78的 Bernoulli分布时,Y的抽样分布 :
要用中位数?
28
△ 假设检验 hypothesis testing
假设检验 问题 (以均值为例): 基于手中的证据, 作出关于原
假设是真还是某个备择假设为真的暂时性结论. 即, 检验
H0: E(Y) = Y,0 vs. H1: E(Y) > Y,0 (单边, >) H0: E(Y) = Y,0 vs. H1: E(Y) < Y,0 (单边, <) H0: E(Y) = Y,0 vs. H1: E(Y) Y,0 (双边)
这一框架允许我们能利用从总体中取出的样本进行有关总体 矩的严格统计推断
12
△ 估计 Estimation
Y 是均值的一个自然估计. 但: (a) Y 的性质怎样? (b) 为什么我们不用其他估计量而用 Y 呢? YB1B(第一个观测) 利用不同的权重 – 而不是简单平均 Median(YB1B,…, YBnB) (中位数)
从总体中随机选取个体 (学区, 实体)
随机性和数据 在抽样之前,由于个体的选取是随机的故 Y 的取值是随
机的
抽样结束得到了 Y 的观测, 于是 Y 仅仅是一个数值 – 非
随机
数据集记为 (Y1, Y2,…, Yn), 其中 Yi = 抽取到的第 i个个体 (学区, 实体) 的Y 取值
20
当n较大时,Y 的抽样分布
当样本容量较小时, Y 的分布很复杂,但当 n 较大时, 抽样分 布很简单!
1. 当 n 增大时, Y 的分布越来越紧密的聚集于 Y 周围(大数
定律 Law of Large Numbers)
2. 此外, Y – Y 的分布变为正态 (中心极限定理 Central Limit
(数学推导:
as n , var(Y ) =
2 Y
0, 由此得
n
Pr[|Y – Y| < ] 1.)
22
中心极限定理 (CLT):
若 (Y1,…,Yn)
i.i.d.
且
0
<
2 Y
< , 则当 n 较大时, Y 的分
布较好地近似于正态分布
Y
近似服从
N(Y,
2 Y
n
)
(“均值Y
i1
1 n
n
E(Yi ) =
i1
1 n
n
Y
i 1
= Y
方差:
var(Y ) = E[Y – E(Y )]2
= E[Y – Y]2
=
E
1 n
n
Yi
i1
Y
2
=
E
1 n
n i1
(Yi
Y
)
2
18
于是
var(Y
)
=
E
Theorem)
21
大数定律:பைடு நூலகம்
如果估计量落入总体真值区间内的概率当样本容量增大
时趋于 1,则称估计量是相合的
如果 (Y1,…,Yn)
i.i.d.
且
2 Y
< , 则 Y
是 Y 的相合估计量,即,
Pr[|Y – Y| < ] 1 as n
p
可以写为 Y Y
p
(“Y Y” 意指 “Y 依概率收敛于 Y”).
1 n
n i1
(Yi
Y
2
)
=
E
1 n
n
(Yi
i1
Y
)
1 n
n
(Y j
j1
Y
)
=
1 n2
n i1
n
E (Yi
j1
Y )(Y j
Y )
1 n n
=
n2
i1
cov(Yi ,Y j )
or
mˆ
=
1 n
n
Yi
i1
=Y
27
为什么采用 Y 去估计 Y ? (续)
Y 的方差小于所有其他 线性无偏估计量: 考虑估计量,
ˆY
1 n
n
aiYi ,
i1
其中
{ai} 为使
ˆY
无偏的常数;则 var(Y
)
var(ˆY ) (证明: 参见第 17 章)
Y 不是 Y 的唯一估计量– 你能想到何种情形下你反而想
条件均值的其他例题:
所有女职工的工资 (Y = 工资, X = 性别) 若 E(X|Z) =常数, 则 corr(X,Z) = 0 (但反之不一定成立)
条件均值是我们熟悉的组平均思想的一个(有可能是新的) 术语
10
(4)从某总体中随机抽取的样本Y1,…, Yn的分布:
假设是简单随机抽样 simple random sampling
条件均值 = 条件分布的均值 = E(Y|X = x) (重要概念和符号)
条件方差 = 条件分布的方差 例: E(Test scores|STR < 20) = 小班规模的学区的平均测试
成绩
9
条件均值(续)
均值之差为两个条件分布的均值的差: = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
–
BXB)]
=
E[(X
–
BXB)P2P] =
2 X
5
测试成绩Test Score和学生教师比STR负相关:
相关系数也为负
6
相关系数是利用协方差定义的:
corr(X,Z) =
cov( X , Z ) var( X ) var(Z )
XZ X Z
= rXZ
–1 corr(X,Z) 1 corr(X,Z) = 1 表明完全线性正相关 corr(X,Z) = –1 表明完全线性负相关 corr(X,Z) = 0 表明不存在线性关系(线性不相关)
7
相关系数度量了线性相关 性
8
条件分布和条件均值
条件分布 Conditional distributions 给定其他随机变量 X 取值时,Y 的分布
例: 给定 STR<20 时测试成绩的分布
条件期望 Conditional expectations 和条件矩 conditional moments
当 n 较大时,Y – 表现出钟形形状…普遍成立吗? 事实上, 当 n 较大时,Y – 近似服从正态分布 (中心
极限定理)
17
Y抽样分布的均值和方差
一般情况: Yi i.i.d. 取自任何分布, 不一定是 Bernoulli:
均值:
E(Y ) = E( 1 n
n
Yi ) =
Y 的抽样分布依赖于 n. 考虑 n = 2. Y 的抽样分布为,
Pr(Y = 0) = .222 = .0484
Pr(Y = ½) = 2.22.78 = .3432 Pr(Y = 1) = .782 = .6084
15
当Y 服从 Bernoulli分布 (p = .78)时 Y 的抽样分布:
(1)总体、随机变量和分布
总体(Population)
感兴趣的所有可能个体的集合 (学区) 我们将总体视为无限大 (∞近似于“非常大”)
随机变量(Random variable) Y
一个随机结果的数值概括 (地区平均测试成绩、学生教师比)
Y 的总体分布
Y 离散时:总体中出现的不同Y取值的概率,如Pr[Y = 650]
11
简单随机抽样下 Y1,…, Yn 的分布
由于个体 #1 和 #2 是随机抽取的, 因此 Y1 取值中不包含 Y2 的信息。故: Y1 和 Y2 是 独立分布的 independent distributed Y1 和 Y2 取自同一分布, 即, Y1, Y2 同分布 identically distributed 于是, 简单随机抽样下, Y1 和 Y2 独立同分布 (i.i.d.). 更一般地, 简单随机抽样下, {Yi}, i = 1,…, n, i.i.d.
Y 连续时:这些取值集合的概率,如Pr[640≤Y ≤660]
1
(2)总体分布矩: 均值、方差、标准差、协方差、相关系数
均值 mean = Y 的期望值(期望)
= E(Y)
= BYB = Y 多次重复取值的长期平均值
方差variance = E(Y – BYB)P2P
=
2 Y
= 分布的散布平方的度量
当 n 较大时, 抽样分布简化了:
p
Y Y (大数定律)
Y E(Y ) 近似服从 N(0,1) (CLT) var(Y )
26
(b) 为什么采用 Y 去估计 Y ?
Y 是无偏的: E(Y ) = Y
p
Y 是相合的(一致的): Y Y
Y 是Y 的 “最小二乘” 估计量; Y 为下式的解,
j1
=
1 n2
n
2 Y
i1
=
2 Y
n
19
Y抽样分布的均值和方差(续)
E(Y ) = Y
var(Y
)
=
2 Y
n
结论: 1. Y 是Y 的无偏估计量(即, E(Y ) = Y)
2. var(Y ) 与 n 成反比 抽样分布的离散程度与 1/ n 成比例 因此Y 的抽样不确定性与 1/ n 成比例(样本越大, 不确定性越小, 根号 n 定律)
n
minm (Yi m)2
i1
因此, Y 使 “残差”平方和最小
推导: (参见附录 3.2)
d
dm
n
(Yi
i1
m)2
=
n i1
d dm (Yi
m)2
=
n
2 (Yi
i1
m)
令导数等于零并把 m 的最优值记为 mˆ 得:
n
Y
i1
=
n
mˆ = nmˆ
i1
标准差standard deviation = 方差 = BYB
2
矩(续)
偏度
skewness
=
E
Y
Y
3
3 Y
=分布不对称性的度量
偏度 = 0: 分布是对称的
偏度 > (<) 0: 分布具有右(左)长尾
峰度 kurtosis =
E
Y
Y
4
4 Y
= 尾部厚薄的度量
= 出现大值的可能性度量
峰度 = 3: 正态分布
峰度 > 3: 厚尾 (“尖峰 leptokurtotic”)
3
4
(3)2个随机变量: 联合分布与协方差
随机变量 X 和 Z 服从某一 联合分布 joint distribution X 和 Z 之间的协方差定义为
cov(X,Z) = E[(X – BXB)(Z – BZB)] = BXZB
出发点是 Y 的抽样分布
13
(a) Y 的抽样分布
Y 是一个随机变量, 其性质取决于 Y 的抽样分布 样本中的个体是随机抽取的 因此 (YB1B,…, YBnB) 的取值是随机的 (YB1B,…, YBnB)的函数, 如 Y , 也是随机的: 抽到了不同的样本 则得到不同的值 在所有可能的容量为 n 的不同样本上Y 的分布称为Y 的抽 样分布. Y 的均值和方差即为其抽样分布的均值和方差 E(Y ) 和 var(Y ). 抽样分布的概念是整个计量经济学的基础.
关于抽样分布我们要了解的:
Y 的均值是多少?
如果 E(Y ) =真实的 = .78, 则Y 是 of 的无偏
unbiased 估计量 Y 的方差是多少?
var(Y ) 如何依赖于 n (著名的 1/n 公式)
当 n 较大时 Y 是否靠近 ? 大数定律: Y 是 的相合 consistent 估计量
14
Y 的抽样分布(续)
例: 设 Y 取 0 或 1 ( Bernoulli 随机变量),服从概率分布,
Pr[Y = 0] = .22, Pr(Y =1) = .78 则
E(Y) = p1 + (1 – p)0 = p = .78
2 Y
=
E[Y
–
E(Y)]2
=
p(1
–
p)
= .78(1–.78) = 0.1716
24
Y E(Y )
相同例子:
的抽样分布:
var(Y )
25
总结: Y 的抽样分布
当
Y1,…,Yn
i.i.d.
满足
0
<
2 Y
<
时,
Y 的精确(有限样本)分布均值为Y (“Y 是Y 的无偏估
计量”)
方差为
2 Y
/n
除了其均值和方差, Y 的精确分布非常复杂取决于 Y 的分
布 (总体分布)
协方差是 X 和 Z 线性关联程度的度量; 其单位为 X 的单位
Z 的单位
cov(X,Z) > 0 表明 X 和 Z 正相关 若 X 和 Z 独立分布, 则 cov(X,Z) = 0 (反之不成立!!)
r.v.与其自身的协方差就是它的方差 :
cov(X,X)
=
E[(X
–
BXB)(X
方差
2 Y
/n
的正态分布”)
n (Y – Y)/Y 近似服从 N(0,1) (标准正态)
即, “标准化的” Y = Y E(Y ) = Y Y 近似服从 N(0,1) var(Y ) Y / n
n 越大, 近似效果越好.
23
当Y 服从 p = 0.78的 Bernoulli分布时,Y的抽样分布 :
要用中位数?
28
△ 假设检验 hypothesis testing
假设检验 问题 (以均值为例): 基于手中的证据, 作出关于原
假设是真还是某个备择假设为真的暂时性结论. 即, 检验
H0: E(Y) = Y,0 vs. H1: E(Y) > Y,0 (单边, >) H0: E(Y) = Y,0 vs. H1: E(Y) < Y,0 (单边, <) H0: E(Y) = Y,0 vs. H1: E(Y) Y,0 (双边)
这一框架允许我们能利用从总体中取出的样本进行有关总体 矩的严格统计推断
12
△ 估计 Estimation
Y 是均值的一个自然估计. 但: (a) Y 的性质怎样? (b) 为什么我们不用其他估计量而用 Y 呢? YB1B(第一个观测) 利用不同的权重 – 而不是简单平均 Median(YB1B,…, YBnB) (中位数)
从总体中随机选取个体 (学区, 实体)
随机性和数据 在抽样之前,由于个体的选取是随机的故 Y 的取值是随
机的
抽样结束得到了 Y 的观测, 于是 Y 仅仅是一个数值 – 非
随机
数据集记为 (Y1, Y2,…, Yn), 其中 Yi = 抽取到的第 i个个体 (学区, 实体) 的Y 取值
20
当n较大时,Y 的抽样分布
当样本容量较小时, Y 的分布很复杂,但当 n 较大时, 抽样分 布很简单!
1. 当 n 增大时, Y 的分布越来越紧密的聚集于 Y 周围(大数
定律 Law of Large Numbers)
2. 此外, Y – Y 的分布变为正态 (中心极限定理 Central Limit
(数学推导:
as n , var(Y ) =
2 Y
0, 由此得
n
Pr[|Y – Y| < ] 1.)
22
中心极限定理 (CLT):
若 (Y1,…,Yn)
i.i.d.
且
0
<
2 Y
< , 则当 n 较大时, Y 的分
布较好地近似于正态分布
Y
近似服从
N(Y,
2 Y
n
)
(“均值Y
i1
1 n
n
E(Yi ) =
i1
1 n
n
Y
i 1
= Y
方差:
var(Y ) = E[Y – E(Y )]2
= E[Y – Y]2
=
E
1 n
n
Yi
i1
Y
2
=
E
1 n
n i1
(Yi
Y
)
2
18
于是
var(Y
)
=
E
Theorem)
21
大数定律:பைடு நூலகம்
如果估计量落入总体真值区间内的概率当样本容量增大
时趋于 1,则称估计量是相合的
如果 (Y1,…,Yn)
i.i.d.
且
2 Y
< , 则 Y
是 Y 的相合估计量,即,
Pr[|Y – Y| < ] 1 as n
p
可以写为 Y Y
p
(“Y Y” 意指 “Y 依概率收敛于 Y”).
1 n
n i1
(Yi
Y
2
)
=
E
1 n
n
(Yi
i1
Y
)
1 n
n
(Y j
j1
Y
)
=
1 n2
n i1
n
E (Yi
j1
Y )(Y j
Y )
1 n n
=
n2
i1
cov(Yi ,Y j )
or
mˆ
=
1 n
n
Yi
i1
=Y
27
为什么采用 Y 去估计 Y ? (续)
Y 的方差小于所有其他 线性无偏估计量: 考虑估计量,
ˆY
1 n
n
aiYi ,
i1
其中
{ai} 为使
ˆY
无偏的常数;则 var(Y
)
var(ˆY ) (证明: 参见第 17 章)
Y 不是 Y 的唯一估计量– 你能想到何种情形下你反而想
条件均值的其他例题:
所有女职工的工资 (Y = 工资, X = 性别) 若 E(X|Z) =常数, 则 corr(X,Z) = 0 (但反之不一定成立)
条件均值是我们熟悉的组平均思想的一个(有可能是新的) 术语
10
(4)从某总体中随机抽取的样本Y1,…, Yn的分布:
假设是简单随机抽样 simple random sampling
条件均值 = 条件分布的均值 = E(Y|X = x) (重要概念和符号)
条件方差 = 条件分布的方差 例: E(Test scores|STR < 20) = 小班规模的学区的平均测试
成绩
9
条件均值(续)
均值之差为两个条件分布的均值的差: = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
–
BXB)]
=
E[(X
–
BXB)P2P] =
2 X
5
测试成绩Test Score和学生教师比STR负相关:
相关系数也为负
6
相关系数是利用协方差定义的:
corr(X,Z) =
cov( X , Z ) var( X ) var(Z )
XZ X Z
= rXZ
–1 corr(X,Z) 1 corr(X,Z) = 1 表明完全线性正相关 corr(X,Z) = –1 表明完全线性负相关 corr(X,Z) = 0 表明不存在线性关系(线性不相关)
7
相关系数度量了线性相关 性
8
条件分布和条件均值
条件分布 Conditional distributions 给定其他随机变量 X 取值时,Y 的分布
例: 给定 STR<20 时测试成绩的分布
条件期望 Conditional expectations 和条件矩 conditional moments
当 n 较大时,Y – 表现出钟形形状…普遍成立吗? 事实上, 当 n 较大时,Y – 近似服从正态分布 (中心
极限定理)
17
Y抽样分布的均值和方差
一般情况: Yi i.i.d. 取自任何分布, 不一定是 Bernoulli:
均值:
E(Y ) = E( 1 n
n
Yi ) =
Y 的抽样分布依赖于 n. 考虑 n = 2. Y 的抽样分布为,
Pr(Y = 0) = .222 = .0484
Pr(Y = ½) = 2.22.78 = .3432 Pr(Y = 1) = .782 = .6084
15
当Y 服从 Bernoulli分布 (p = .78)时 Y 的抽样分布:
(1)总体、随机变量和分布
总体(Population)
感兴趣的所有可能个体的集合 (学区) 我们将总体视为无限大 (∞近似于“非常大”)
随机变量(Random variable) Y
一个随机结果的数值概括 (地区平均测试成绩、学生教师比)
Y 的总体分布
Y 离散时:总体中出现的不同Y取值的概率,如Pr[Y = 650]
11
简单随机抽样下 Y1,…, Yn 的分布
由于个体 #1 和 #2 是随机抽取的, 因此 Y1 取值中不包含 Y2 的信息。故: Y1 和 Y2 是 独立分布的 independent distributed Y1 和 Y2 取自同一分布, 即, Y1, Y2 同分布 identically distributed 于是, 简单随机抽样下, Y1 和 Y2 独立同分布 (i.i.d.). 更一般地, 简单随机抽样下, {Yi}, i = 1,…, n, i.i.d.
Y 连续时:这些取值集合的概率,如Pr[640≤Y ≤660]
1
(2)总体分布矩: 均值、方差、标准差、协方差、相关系数
均值 mean = Y 的期望值(期望)
= E(Y)
= BYB = Y 多次重复取值的长期平均值
方差variance = E(Y – BYB)P2P
=
2 Y
= 分布的散布平方的度量
当 n 较大时, 抽样分布简化了:
p
Y Y (大数定律)
Y E(Y ) 近似服从 N(0,1) (CLT) var(Y )
26
(b) 为什么采用 Y 去估计 Y ?
Y 是无偏的: E(Y ) = Y
p
Y 是相合的(一致的): Y Y
Y 是Y 的 “最小二乘” 估计量; Y 为下式的解,
j1
=
1 n2
n
2 Y
i1
=
2 Y
n
19
Y抽样分布的均值和方差(续)
E(Y ) = Y
var(Y
)
=
2 Y
n
结论: 1. Y 是Y 的无偏估计量(即, E(Y ) = Y)
2. var(Y ) 与 n 成反比 抽样分布的离散程度与 1/ n 成比例 因此Y 的抽样不确定性与 1/ n 成比例(样本越大, 不确定性越小, 根号 n 定律)
n
minm (Yi m)2
i1
因此, Y 使 “残差”平方和最小
推导: (参见附录 3.2)
d
dm
n
(Yi
i1
m)2
=
n i1
d dm (Yi
m)2
=
n
2 (Yi
i1
m)
令导数等于零并把 m 的最优值记为 mˆ 得:
n
Y
i1
=
n
mˆ = nmˆ
i1
标准差standard deviation = 方差 = BYB
2
矩(续)
偏度
skewness
=
E
Y
Y
3
3 Y
=分布不对称性的度量
偏度 = 0: 分布是对称的
偏度 > (<) 0: 分布具有右(左)长尾
峰度 kurtosis =
E
Y
Y
4
4 Y
= 尾部厚薄的度量
= 出现大值的可能性度量
峰度 = 3: 正态分布
峰度 > 3: 厚尾 (“尖峰 leptokurtotic”)
3
4
(3)2个随机变量: 联合分布与协方差
随机变量 X 和 Z 服从某一 联合分布 joint distribution X 和 Z 之间的协方差定义为
cov(X,Z) = E[(X – BXB)(Z – BZB)] = BXZB
出发点是 Y 的抽样分布
13
(a) Y 的抽样分布
Y 是一个随机变量, 其性质取决于 Y 的抽样分布 样本中的个体是随机抽取的 因此 (YB1B,…, YBnB) 的取值是随机的 (YB1B,…, YBnB)的函数, 如 Y , 也是随机的: 抽到了不同的样本 则得到不同的值 在所有可能的容量为 n 的不同样本上Y 的分布称为Y 的抽 样分布. Y 的均值和方差即为其抽样分布的均值和方差 E(Y ) 和 var(Y ). 抽样分布的概念是整个计量经济学的基础.