均值方差标准差
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)总体、随机变量和分布
总体(Population)
感兴趣的所有可能个体的集合 (学区) 我们将总体视为无限大 (∞近似于“非常大”)
随机变量(Random variable) Y
一个随机结果的数值概括 (地区平均测试成绩、学生教师比)
Y 的总体分布
Y 离散时:总体中出现的不同Y取值的概率,如Pr[Y = 650]
–
BXB)]
=
E[(X
–
BXB)P2P] =
2 X
5
测试成绩Test Score和学生教师比STR负相关:
相关系数也为负
6
相关系数是利用协方差定义的:
corr(X,Z) =
cov( X , Z ) var( X ) var(Z )
XZ X Z
= rXZ
–1 corr(X,Z) 1 corr(X,Z) = 1 表明完全线性正相关 corr(X,Z) = –1 表明完全线性负相关 corr(X,Z) = 0 表明不存在线性关系(线性不相关)
14
Y 的抽样分布(续)
例: 设 Y 取 0 或 1 ( Bernoulli 随机变量),服从概率分布,
Pr[Y = 0] = .22, Pr(Y =1) = .78 则
E(Y) = p1 + (1 – p)0 = p = .78
2 Y
=
E[Y
–
E(Y)]2
协方差是 X 和 Z 线性关联程度的度量; 其单位为 X 的单位
Z 的单位
cov(X,Z) > 0 表明 X 和 Z 正相关 若 X 和 Z 独立分布, 则 cov(X,Z) = 0 (反之不成立!!)
r.v.与其自身的协方差就是它的方差 :
cov(X,X)
=
E[(X
–
BXB)(X
标准差standard deviation = 方差 = BYB
2
矩(续)
偏度
skewness
=
E
Y
Y
3
3 Y
=分布不对称性的度量
偏度 = 0: 分布是对称的
偏度 > (<) 0: 分布具有右(左)长尾
峰度 kurtosis =
E
Y
Y
4
4 Y
= 尾部厚薄的度量
7
相关系数度量了线性相关 性
8
条件分布和条件均值
条件分布 Conditional distributions 给定其他随机变量 X 取值时,Y 的分布
例: 给定 STR<20 时测试成绩的分布
条件期望 Conditional expectations 和条件矩 conditional moments
11
简单随机抽样下 Y1,…, Yn 的分布
由于个体 #1 和 #2 是随机抽取的, 因此 Y1 取值中不包含 Y2 的信息。故: Y1 和 Y2 是 独立分布的 independent distributed Y1 和 Y2 取自同一分布, 即, Y1, Y2 同分布 identically distributed 于是, 简单随机抽样下, Y1 和 Y2 独立同分布 (i.i.d.). 更一般地, 简单随机抽样下, {Yi}, i = 1,…, n, i.i.d.
从总体中随机选取个体 (学区, 实体)
随机性和数据 在抽样之前,由于个体的选取是随机的故 Y 的取值是随
机的
抽样结束得到了 Y 的观测, 于是 Y 仅仅是一个数值 – 非
随机
数据集记为 (Y1, Y2,…, Yn), 其中 Yi = 抽取到的第 i个个体 (学区, 实体) 的Y 取值
= 出现大值的可能性度量
峰度 = 3: 正态分布
峰度 > 3: 厚尾 (“尖峰 leptokurtotic”)
3
4
(3)2个随机变量: 联合分布与协方差
随机变量 X 和 Z 服从某一 联合分布 joint distribution X 和 Z 之间的协方差定义为
cov(X,Z) = E[(X – BXB)(Z – BZB)] = BXZB
出发点是 Y 的抽样分布
13
(a) Y 的抽样分布
Y 是一个随机变量, 其性质取决于 Y 的抽样分布 样本中的个体是随机抽取的 因此 (YB1B,…, YBnB) 的取值是随机的 (YB1B,…, YBnB)的函数, 如 Y , 也是随机的: 抽到了不同的样本 则得到不同的值 在所有可能的容量为 n 的不同样本上Y 的分布称为Y 的抽 样分布. Y 的均值和方差即为其抽样分布的均值和方差 E(Y ) 和 var(Y ). 抽样分布的概念是整个计量经济学的基础.
条件均值的其他例题:
所有女职工的工资 (Y = 工资, X = 性别) 若 E(X|Z) =常数, 则 corr(X,Z) = 0 (但反之不一定成立)
条件均值是我们熟悉的组平均思想的一个(有可能是新的) 术语
10
(4)从某总体中随机抽取的样本Y1,…, Yn的分布:
假设是简单随机抽样 simple random sampling
这一框架允许我们能利用从总体中取出的样本进行有关总体 矩的严格统计推断
12
△ 估计 Estimation
Y 是均值的一个自然估计. 但: (a) Y 的性质怎样? (b) 为什么我们不用其他估计量而用 Y 呢? YB1B(第一个观测) 利用不同的权重 – 而不是简单平均 Median(YB1B,…, YBnB) (中位数)
Y 连续时:这些取值集合的概率,如Pr[640≤Y ≤660]
1
(2)总体分布矩: 均值、方差、标准差、协方差、相关系数
均值 mean = Y 的期望值(期望)
= E(Y)
= BYB = Y 多次重复取值的长期平均值
方差variance = E(Y – BYB)P2P
Βιβλιοθήκη Baidu
=
2 Y
= 分布的散布平方的度量
条件均值 = 条件分布的均值 = E(Y|X = x) (重要概念和符号)
条件方差 = 条件分布的方差 例: E(Test scores|STR < 20) = 小班规模的学区的平均测试
成绩
9
条件均值(续)
均值之差为两个条件分布的均值的差: = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)
总体(Population)
感兴趣的所有可能个体的集合 (学区) 我们将总体视为无限大 (∞近似于“非常大”)
随机变量(Random variable) Y
一个随机结果的数值概括 (地区平均测试成绩、学生教师比)
Y 的总体分布
Y 离散时:总体中出现的不同Y取值的概率,如Pr[Y = 650]
–
BXB)]
=
E[(X
–
BXB)P2P] =
2 X
5
测试成绩Test Score和学生教师比STR负相关:
相关系数也为负
6
相关系数是利用协方差定义的:
corr(X,Z) =
cov( X , Z ) var( X ) var(Z )
XZ X Z
= rXZ
–1 corr(X,Z) 1 corr(X,Z) = 1 表明完全线性正相关 corr(X,Z) = –1 表明完全线性负相关 corr(X,Z) = 0 表明不存在线性关系(线性不相关)
14
Y 的抽样分布(续)
例: 设 Y 取 0 或 1 ( Bernoulli 随机变量),服从概率分布,
Pr[Y = 0] = .22, Pr(Y =1) = .78 则
E(Y) = p1 + (1 – p)0 = p = .78
2 Y
=
E[Y
–
E(Y)]2
协方差是 X 和 Z 线性关联程度的度量; 其单位为 X 的单位
Z 的单位
cov(X,Z) > 0 表明 X 和 Z 正相关 若 X 和 Z 独立分布, 则 cov(X,Z) = 0 (反之不成立!!)
r.v.与其自身的协方差就是它的方差 :
cov(X,X)
=
E[(X
–
BXB)(X
标准差standard deviation = 方差 = BYB
2
矩(续)
偏度
skewness
=
E
Y
Y
3
3 Y
=分布不对称性的度量
偏度 = 0: 分布是对称的
偏度 > (<) 0: 分布具有右(左)长尾
峰度 kurtosis =
E
Y
Y
4
4 Y
= 尾部厚薄的度量
7
相关系数度量了线性相关 性
8
条件分布和条件均值
条件分布 Conditional distributions 给定其他随机变量 X 取值时,Y 的分布
例: 给定 STR<20 时测试成绩的分布
条件期望 Conditional expectations 和条件矩 conditional moments
11
简单随机抽样下 Y1,…, Yn 的分布
由于个体 #1 和 #2 是随机抽取的, 因此 Y1 取值中不包含 Y2 的信息。故: Y1 和 Y2 是 独立分布的 independent distributed Y1 和 Y2 取自同一分布, 即, Y1, Y2 同分布 identically distributed 于是, 简单随机抽样下, Y1 和 Y2 独立同分布 (i.i.d.). 更一般地, 简单随机抽样下, {Yi}, i = 1,…, n, i.i.d.
从总体中随机选取个体 (学区, 实体)
随机性和数据 在抽样之前,由于个体的选取是随机的故 Y 的取值是随
机的
抽样结束得到了 Y 的观测, 于是 Y 仅仅是一个数值 – 非
随机
数据集记为 (Y1, Y2,…, Yn), 其中 Yi = 抽取到的第 i个个体 (学区, 实体) 的Y 取值
= 出现大值的可能性度量
峰度 = 3: 正态分布
峰度 > 3: 厚尾 (“尖峰 leptokurtotic”)
3
4
(3)2个随机变量: 联合分布与协方差
随机变量 X 和 Z 服从某一 联合分布 joint distribution X 和 Z 之间的协方差定义为
cov(X,Z) = E[(X – BXB)(Z – BZB)] = BXZB
出发点是 Y 的抽样分布
13
(a) Y 的抽样分布
Y 是一个随机变量, 其性质取决于 Y 的抽样分布 样本中的个体是随机抽取的 因此 (YB1B,…, YBnB) 的取值是随机的 (YB1B,…, YBnB)的函数, 如 Y , 也是随机的: 抽到了不同的样本 则得到不同的值 在所有可能的容量为 n 的不同样本上Y 的分布称为Y 的抽 样分布. Y 的均值和方差即为其抽样分布的均值和方差 E(Y ) 和 var(Y ). 抽样分布的概念是整个计量经济学的基础.
条件均值的其他例题:
所有女职工的工资 (Y = 工资, X = 性别) 若 E(X|Z) =常数, 则 corr(X,Z) = 0 (但反之不一定成立)
条件均值是我们熟悉的组平均思想的一个(有可能是新的) 术语
10
(4)从某总体中随机抽取的样本Y1,…, Yn的分布:
假设是简单随机抽样 simple random sampling
这一框架允许我们能利用从总体中取出的样本进行有关总体 矩的严格统计推断
12
△ 估计 Estimation
Y 是均值的一个自然估计. 但: (a) Y 的性质怎样? (b) 为什么我们不用其他估计量而用 Y 呢? YB1B(第一个观测) 利用不同的权重 – 而不是简单平均 Median(YB1B,…, YBnB) (中位数)
Y 连续时:这些取值集合的概率,如Pr[640≤Y ≤660]
1
(2)总体分布矩: 均值、方差、标准差、协方差、相关系数
均值 mean = Y 的期望值(期望)
= E(Y)
= BYB = Y 多次重复取值的长期平均值
方差variance = E(Y – BYB)P2P
Βιβλιοθήκη Baidu
=
2 Y
= 分布的散布平方的度量
条件均值 = 条件分布的均值 = E(Y|X = x) (重要概念和符号)
条件方差 = 条件分布的方差 例: E(Test scores|STR < 20) = 小班规模的学区的平均测试
成绩
9
条件均值(续)
均值之差为两个条件分布的均值的差: = E(Test scores|STR < 20) – E(Test scores|STR ≥ 20)