统计量及其抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i 1
的概率分布即为样本均值的抽样分布。
【例】设一个总体,含有4个元素(个体),即 总体单位数N=4。4个个体分别为X1=1、X2=2、 X3=3 、X4=4 。总体的均值、方差及分布如下
X
i 1
N
总体分布
i
N
2.5
.3 .2 .1 0
2
(X
i 1
N
i
)
2
N
1.25
当样本容量足够大时 (n≥30),样本均值的抽样 分布逐渐趋于正态分布
标准误差
标准误差:样本统计量与总体参数之间的平均差异 1. 所有可能的样本均值的标准差,测度所有样本 均值的离散程度 2. 样本均值的标准误差小于总体标准差 3. 计算公式为
x
n
【例】设从一个均值μ =8、标准差σ =0.7的总 体中随机抽取容量为n=49的样本。要求: (1)计算样本均值小于7.9的近似概率 (2)计算样本均值超过7.9的近似概率 (3)计算样本均值在总体均值μ =8附近 0.1范围的近似概率
X ~ N (10, 0.432 )
_ _
X
n
49
X 10 9 10 P( X 9) 1 P( X 9) 1 P( ) 0.43 0.43
=1-Φ (-2.33)= Φ (2.33)=0.9901
_
练习题
某类产品的抗拉强度服从正态分布,平均 值为99.8公斤/平方厘米,标准差为5.48公斤/平 方厘米,从这个总体抽出一个容量为12的样本, 问这一样本的平均值介于98.8公斤/平方厘米和 100.9公斤/平方厘米之间的概率有多大。
例:A班统计学考试平均分为75分,分数 服从正态分布,标准差为5分;B班统计 学考试平均分为72分,也服从正态分布, 标准差为7分。现在从A、B两班分别随 机抽出10名学生的统计学成绩,A班10 名学生的统计学平均成绩高于B班10名 同学的统计学平均成绩的可能性有多大?
两个样本比例之差的分布
设分别从具有参数为π1和π2的两个总体 中抽取包含n1个观测值和n2个观测值的独立 样本,当n1和n2很大时,(p1-p2)的抽样分 布近似服从正态分布:
1 n X X i s2 n i 1
2 ( X X ) i i 1
2
)
n 1
( X ) T ~ t ( n 1) S/ n
称为T统计量,它服从自由度为(n-1)的t分布。
F分布
定义:设随机变量Y与Z相互独立,且Y和Z分别服 从自由度为m和n的c2分布,随机变量X有如下表达式:
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
x
样本均值的抽样分布
所有样本均值的均wk.baidu.com和方差
1.0 1.5 4.0 x 2.5 M 16
i 1 i
x
n
2 x
2 ( x ) i x i 1
n
M
(1.0 2.5) 2 (4.0 2.5) 2 2 0.625 16 n
1, 4
2, 4 3, 4 4, 4
计算出各样本的均值,如下表。并给出样 本均值的抽样分布
16个样本的均值(x) 第一个 观察值 1 第二个观察值 1 1.0 2 1.5 3 2.0 4 2.5
.3 .2 .1 P(x)
2
3 4
1.5
2.0 2.5
2.0
2.5 3.0
2.5
3.0 3.5
3.0
3.5 4.0
Y / m nY X Z / n mZ
则称X服从第一自由度为m,第二自由度为n的F分布, 记为X~F(m,n)。
n E( X ) ,n 2 n2 2n 2 (m n 2) D( X ) ,n 4 m(n 2)(n 4)
4
样本比例的抽样分布
如果在样本大小为n的样本中具有某一特征 的个体数为X,则样本比例用p来表示:
0.03 0.05 p 0.05 0.075 0.05 P(0.03 p 0.075) P 0.01 0.01 0.01
(2.5) (2) (2.5) (2) 1 0.9938 0.9772 1 0.971
E ( p1 p2 ) 1 2
1 (1 1 ) 2 (1 2 ) D( p1 p2 ) n1 n2
【例】某厂甲、乙两个车间生产同一种 产品,根据经验其产品的不合格率分别 为3.5%和4%。从甲车间随机独立地抽取 200个产品,从乙车间随机独立地抽取 150个产品。问两个样本中产品不合格率 相差不超过1%的概率。
统计量及其抽样分布
1
1. 抽样
统计量
样本 构造函数
统计量的形成
2. 统计量是样本X1,X2……Xn的一个函数 3. 统计量不依赖任何未知参数 4. 将一组样本的具体观测值代入统计量函 数,可以计算出一个具体的统计量值。
2 样本均值的抽样分布 和中心极限定理
1.从一个总体中随机抽出容量相同的各种样本, 从这些样本计算出的某统计量所有可能值的概 率分布,称为这个统计量的抽样分布。 2. 设X ,X ,…,X 是取自总体X的样本,样本 1 2 n n _ _ 均值 X 1 Xi ,所有可能样本的均值 X 构成 n
X p n
(1 ) 当n充分大时,p近似服从均值为 ,方差为 n
的正态分布。
【例】已知对某超市服务水平不满意的人数的 比例为5%,现随机抽取475名顾客组成的简单 随机样本,问这475名顾客中不满意的比例在 0.03~0.075之间的概率有多大? 解:设475名顾客中不满意的比例为p,则 E(p)=0.05, D(p)=0.05×0.95/475=0.0001 p~N(0.05,0.0001)
式中:M为样本均值的个数
样本均值的分布
当总体服从正态分布N ~(μ ,σ 2)时, 来自该总体的所有容量为n的样本的均值X 也服从正态分布,X 的数学期望为μ , 方差为σ 2/n。即X~N(μ ,σ 2/n)
中心极限定理
设从均值为,方差为2的一个任意总 体中抽取容量为n的样本,当n充分大时, 样本均值的抽样分布近似服从均值为μ 、 方差为σ 2/n的正态分布。
D( X1 X 2 ) D( X1 ) D( X 2 ) n1 n2
2 1 2 2
【例】居民区甲有2000个家庭,平均居住时 间为130个月,服从正态分布,标准差为30 个月;居民区乙有3000个家庭,平均居住 时间为120个月,也服从正态分布,标准差 为35个月。从两个居民区中独立地各自抽 取一个简单随机样本,样本容量为70和 100。问居民区甲样本中的平均居住时间 超过居民区乙样本中的居民平均居住时间 的概率是多大。
1
2
3
4
现从总体中抽取n=2的简单随机样本,在重 复抽样条件下,共有42=16个样本。所有样本的 结果如下表
所有可能的n = 2 的样本(共16个) 第一个 观察值 第二个观察值 1 2 3 4
1
2 3 4
1, 1
2, 1 3, 1 4, 1
1, 2
2, 2 3, 2 4, 2
1, 3
2, 3 3, 3 4, 3
5 两个样本平均值之差的分布
设 X 是独立地抽自总体 X1 ~ N (1,12 ) 的一个容量 为n1的样本的均值。 X 2 是独立地抽自总体 2 X 2 ~ N (2 , 2 ) 的一个容量为n2的样本的均值,则有
1
E ( X1 X 2 ) E ( X1 ) E ( X 2 ) 1 2
【例】某公司有400人,平均工龄为10年,标准 差为3年。随机抽出49名组成一个简单随机样本, 试问样本中工作人员的平均年龄不低于9年的概率 有多大。 解:虽然该总体的分布未知,但样本容量n=49较大 由中心极限定理可知,样本均值的抽样分布近 _ 似服从正态分布。则均值的期望 E ( X ) 10(年) 均值的标准差 3 0.43(年)
3 由正态分布导出的几个重 要分布
卡方 (c2) 分布
定义:设随机变量X1,X2,…Xn相互独立,且Xi 服从标准正态分布 N(0,1),则它们的平方和 n X i2 服从自由度为n的c2分布。
i 1
当自由度n足够大时, c2分布的概率密度曲线趋于对称; 当n→+∞时, c2分布的极限分布是正态分布。 c2分布的数学期望为:E( c2)= n c2分布的方差为: D( c2) 2n
t分布和T统计量
1. t分布:设随机变量X~N(0,1),Y~ c2(n), 且X与Y独立,则 X
t Y /n
其分布称为t分布,记为t(n),其中n为自由度。
当n≥2时, t分布的E (t)=0
当n≥3时, t分布的D (t)=n/(n-2)
2. T统计量
设X1,X2,…,Xn是来自正态总体 N ~ (μ ,σ n 的一个样本, 则
的概率分布即为样本均值的抽样分布。
【例】设一个总体,含有4个元素(个体),即 总体单位数N=4。4个个体分别为X1=1、X2=2、 X3=3 、X4=4 。总体的均值、方差及分布如下
X
i 1
N
总体分布
i
N
2.5
.3 .2 .1 0
2
(X
i 1
N
i
)
2
N
1.25
当样本容量足够大时 (n≥30),样本均值的抽样 分布逐渐趋于正态分布
标准误差
标准误差:样本统计量与总体参数之间的平均差异 1. 所有可能的样本均值的标准差,测度所有样本 均值的离散程度 2. 样本均值的标准误差小于总体标准差 3. 计算公式为
x
n
【例】设从一个均值μ =8、标准差σ =0.7的总 体中随机抽取容量为n=49的样本。要求: (1)计算样本均值小于7.9的近似概率 (2)计算样本均值超过7.9的近似概率 (3)计算样本均值在总体均值μ =8附近 0.1范围的近似概率
X ~ N (10, 0.432 )
_ _
X
n
49
X 10 9 10 P( X 9) 1 P( X 9) 1 P( ) 0.43 0.43
=1-Φ (-2.33)= Φ (2.33)=0.9901
_
练习题
某类产品的抗拉强度服从正态分布,平均 值为99.8公斤/平方厘米,标准差为5.48公斤/平 方厘米,从这个总体抽出一个容量为12的样本, 问这一样本的平均值介于98.8公斤/平方厘米和 100.9公斤/平方厘米之间的概率有多大。
例:A班统计学考试平均分为75分,分数 服从正态分布,标准差为5分;B班统计 学考试平均分为72分,也服从正态分布, 标准差为7分。现在从A、B两班分别随 机抽出10名学生的统计学成绩,A班10 名学生的统计学平均成绩高于B班10名 同学的统计学平均成绩的可能性有多大?
两个样本比例之差的分布
设分别从具有参数为π1和π2的两个总体 中抽取包含n1个观测值和n2个观测值的独立 样本,当n1和n2很大时,(p1-p2)的抽样分 布近似服从正态分布:
1 n X X i s2 n i 1
2 ( X X ) i i 1
2
)
n 1
( X ) T ~ t ( n 1) S/ n
称为T统计量,它服从自由度为(n-1)的t分布。
F分布
定义:设随机变量Y与Z相互独立,且Y和Z分别服 从自由度为m和n的c2分布,随机变量X有如下表达式:
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
x
样本均值的抽样分布
所有样本均值的均wk.baidu.com和方差
1.0 1.5 4.0 x 2.5 M 16
i 1 i
x
n
2 x
2 ( x ) i x i 1
n
M
(1.0 2.5) 2 (4.0 2.5) 2 2 0.625 16 n
1, 4
2, 4 3, 4 4, 4
计算出各样本的均值,如下表。并给出样 本均值的抽样分布
16个样本的均值(x) 第一个 观察值 1 第二个观察值 1 1.0 2 1.5 3 2.0 4 2.5
.3 .2 .1 P(x)
2
3 4
1.5
2.0 2.5
2.0
2.5 3.0
2.5
3.0 3.5
3.0
3.5 4.0
Y / m nY X Z / n mZ
则称X服从第一自由度为m,第二自由度为n的F分布, 记为X~F(m,n)。
n E( X ) ,n 2 n2 2n 2 (m n 2) D( X ) ,n 4 m(n 2)(n 4)
4
样本比例的抽样分布
如果在样本大小为n的样本中具有某一特征 的个体数为X,则样本比例用p来表示:
0.03 0.05 p 0.05 0.075 0.05 P(0.03 p 0.075) P 0.01 0.01 0.01
(2.5) (2) (2.5) (2) 1 0.9938 0.9772 1 0.971
E ( p1 p2 ) 1 2
1 (1 1 ) 2 (1 2 ) D( p1 p2 ) n1 n2
【例】某厂甲、乙两个车间生产同一种 产品,根据经验其产品的不合格率分别 为3.5%和4%。从甲车间随机独立地抽取 200个产品,从乙车间随机独立地抽取 150个产品。问两个样本中产品不合格率 相差不超过1%的概率。
统计量及其抽样分布
1
1. 抽样
统计量
样本 构造函数
统计量的形成
2. 统计量是样本X1,X2……Xn的一个函数 3. 统计量不依赖任何未知参数 4. 将一组样本的具体观测值代入统计量函 数,可以计算出一个具体的统计量值。
2 样本均值的抽样分布 和中心极限定理
1.从一个总体中随机抽出容量相同的各种样本, 从这些样本计算出的某统计量所有可能值的概 率分布,称为这个统计量的抽样分布。 2. 设X ,X ,…,X 是取自总体X的样本,样本 1 2 n n _ _ 均值 X 1 Xi ,所有可能样本的均值 X 构成 n
X p n
(1 ) 当n充分大时,p近似服从均值为 ,方差为 n
的正态分布。
【例】已知对某超市服务水平不满意的人数的 比例为5%,现随机抽取475名顾客组成的简单 随机样本,问这475名顾客中不满意的比例在 0.03~0.075之间的概率有多大? 解:设475名顾客中不满意的比例为p,则 E(p)=0.05, D(p)=0.05×0.95/475=0.0001 p~N(0.05,0.0001)
式中:M为样本均值的个数
样本均值的分布
当总体服从正态分布N ~(μ ,σ 2)时, 来自该总体的所有容量为n的样本的均值X 也服从正态分布,X 的数学期望为μ , 方差为σ 2/n。即X~N(μ ,σ 2/n)
中心极限定理
设从均值为,方差为2的一个任意总 体中抽取容量为n的样本,当n充分大时, 样本均值的抽样分布近似服从均值为μ 、 方差为σ 2/n的正态分布。
D( X1 X 2 ) D( X1 ) D( X 2 ) n1 n2
2 1 2 2
【例】居民区甲有2000个家庭,平均居住时 间为130个月,服从正态分布,标准差为30 个月;居民区乙有3000个家庭,平均居住 时间为120个月,也服从正态分布,标准差 为35个月。从两个居民区中独立地各自抽 取一个简单随机样本,样本容量为70和 100。问居民区甲样本中的平均居住时间 超过居民区乙样本中的居民平均居住时间 的概率是多大。
1
2
3
4
现从总体中抽取n=2的简单随机样本,在重 复抽样条件下,共有42=16个样本。所有样本的 结果如下表
所有可能的n = 2 的样本(共16个) 第一个 观察值 第二个观察值 1 2 3 4
1
2 3 4
1, 1
2, 1 3, 1 4, 1
1, 2
2, 2 3, 2 4, 2
1, 3
2, 3 3, 3 4, 3
5 两个样本平均值之差的分布
设 X 是独立地抽自总体 X1 ~ N (1,12 ) 的一个容量 为n1的样本的均值。 X 2 是独立地抽自总体 2 X 2 ~ N (2 , 2 ) 的一个容量为n2的样本的均值,则有
1
E ( X1 X 2 ) E ( X1 ) E ( X 2 ) 1 2
【例】某公司有400人,平均工龄为10年,标准 差为3年。随机抽出49名组成一个简单随机样本, 试问样本中工作人员的平均年龄不低于9年的概率 有多大。 解:虽然该总体的分布未知,但样本容量n=49较大 由中心极限定理可知,样本均值的抽样分布近 _ 似服从正态分布。则均值的期望 E ( X ) 10(年) 均值的标准差 3 0.43(年)
3 由正态分布导出的几个重 要分布
卡方 (c2) 分布
定义:设随机变量X1,X2,…Xn相互独立,且Xi 服从标准正态分布 N(0,1),则它们的平方和 n X i2 服从自由度为n的c2分布。
i 1
当自由度n足够大时, c2分布的概率密度曲线趋于对称; 当n→+∞时, c2分布的极限分布是正态分布。 c2分布的数学期望为:E( c2)= n c2分布的方差为: D( c2) 2n
t分布和T统计量
1. t分布:设随机变量X~N(0,1),Y~ c2(n), 且X与Y独立,则 X
t Y /n
其分布称为t分布,记为t(n),其中n为自由度。
当n≥2时, t分布的E (t)=0
当n≥3时, t分布的D (t)=n/(n-2)
2. T统计量
设X1,X2,…,Xn是来自正态总体 N ~ (μ ,σ n 的一个样本, 则