抽样及统计推论

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 优点:可以作统计推论。
二、样本统计量
• 在简单随机抽样中,样本具有随机性,样本的参数 ,
s2等也会随x着样本不同而不同,故它们是样本的函数,
记为T(x1, x2,……, xn),称为样本统计量。 • 统计量的概率分布称为抽样分布(Sample
distribution)
三、三种不同性质的分布
(一) 总体分布 (二) 样本分布 (三) 抽样分布
总体分布
mx 50
x
抽样分布
4.中心极限定理 (central limit theorem)
中心极限定理:设从均值为m,方差为s 2的一个任意总
体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为 s n的正态分布。
一个任意分 布的总体
sx
s
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
体的分布
样 本
(三)抽样分布 (sampling distribution)
1. 样本统计量的概率分布,是一种理论分布
– 在重复选取容量为n的样本时,由该统计量的所有可能取值形 成的相对频数分布
2. 随机变量是 样本统计量
– 样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行推断的理 论基础,也是抽样推断科学性的重要依据
x • 总体服从正态分布N(m, s2), 样本均值 的 抽样分布仍为正态分布,即:
X N(m,s 2 )
n
X m s
N (0,1)
n
x 的期望值与总体均值相同,而方差缩
小为总体方差的1/n
样本平均数 X构成的总体称为样本平均数的抽样
总体,其平均数记为 、μ方x 差记为 。抽σ样2x 总体参
数和原总体参数有以下关系:
• 1、非概率抽样: • 抽取调查单位的原则是根据主观判断或其它操作
的方便。 • 非概率抽样的优点:成本低、花时短、回答率高 • 缺点:不能做统计推论。 • 非概率抽样的结果是否有代表性与主观本身的水
平有很大关系。
• 2、概率抽样:
• 原则:随机原则。
• 随机原则:在抽选调查对象时,规定了一定 的程序,以保证每一个单位都有同等入选的 机会,从而避免了主观因素的影响。
df+1 2
μt = 0(df > 1), σt = df (df — 2)(df > 2)
T分布的计算已列成表格,应用时可根据需要由 t值,自由度查概率;也可以由概率,自由度查t值.
2. t分布曲线的特点
u xm sx
m us x x m us x
服从标准正态分布
附:s x s n
假如σ2未知,而且样本容量又比较小(n≤30)时:
标准化公式可变换为:
xm
S
t
x
它不再服从标准正态分布
服从具有n-1自由度t-分布
T分布类似于正态分布,也是一种对称分布,它只有一个参数, 就是自由度
所谓自由度是指独立观测值的个数,应为计算标准差时所使用的 n个观测值,受到平均数x的约束,这就等于有一个观测值不能独 立取值,因此自由度为df=n-1
(1):假定该厂商声称是正确的,试描述50 个电瓶的平均寿命的抽样分布。
(2):假定该厂商声称是正确的,50个样本 的平均寿命不超过57个月的概率是多少?
例题答案
50个电瓶平均寿命近似服从正态分布,正态分布 的均值为60,方差为62/50=0.72,标准差为0.85.
x ~N(60.0.852)
P(X 57) P( X 60 57 60) P(Z 3.529) 0.85 0.85
抽样分布的形成过程
(sampling distribution)
总体
计算样本统计



如:样本均值
、比例、方差
(三)抽样分布
• 抽样分布:是根据“机率”的原则而成立的理论性分 布,
• 它可以表明:由同一总体中反复不断抽取不同样本时, 各个可能出现的样本统计值的分布情况。
• 抽样分布 Sampling distribution:从已知总体中随 机地抽取含量为n的样本,研究所得样本的各种统计 量的概率分布即所谓的抽样分布.
• 解:已知n =100 δ=22.5 u=168
• SE=
=2.25

X ~ N(m, )
n
即 X ~ N (168 ,22.5/10 )
• P(x> 170)=p[z >(170-168)/2.25]=
• p(z> 0.889)=0.5-φ (0.889)=0.5-0.313=0.186
• 答:样本平均数大于1.70m的概率为18.6%
第二,一个重要的t统计量
X m
S n
t(n 1)
t分布由标准正态分布/
2分布构成
T X Y /n
X m
s
n
N (0,1)
(nS1)S 2
s 2s(sn21)
2 (n 1)
1、T分布的密度函数为:
f(t) = 1 Γ[(df+ 1) / 2] (1+ t 2 )
πdf Γ(df/ 2)
df
∞< t < +∞
一、样本平均数的抽样分布
(一)原总体标准差已知时的样本平均数的分布
1、原始总体与样本平均数抽样总体 设有一个总体,总体平均数为μ,方差为σ2,总
体中各变数为x, 该总体称为原总体。现从这个总 体中随机抽取含量为n的样本,样本平均数记为 。
X
一、样本均值的分布(一个正态总体中的抽样分布)
(一)原总体标准差已知时的样本平均数的分布
– 重复抽样
s
2 x
s2
n
– 不重复抽样
s
2 x
s2
n
N n N 1
3. 抽样总体标准误 standard error of mean
即样本平均数的标准差 σx (σx = σ n )
① 意义:反映了 X 抽样误差的大小,即精确度的 高低,也反映了X 代表μ的可靠性。 ② 性质:和总体标准差σ成正比,而与样本含量n 的平方根 n成反比。
=1-(3.529) 0.0002
• 例1,随机抽取某大学的学生100名,平均体 重58kg,根据过去材料知道大学生体重的标 准差为10kg,求抽样误差为多少?
• 解:已知n =100>30 δ=10

SE= = 1kg
• 例2,某学院1000名学生,其平均身高是 168cm,标准差为22.5cm,现从学生中随机抽 出100名,求其样本平均数大于1.70m的概率。
• 样本的平均值
•=
=(4.0 1+4.5 2+…+8.0 1)/25=6
• 可见样本的均值平均数等于总体均值。
2.样本均值的方差
SE2 x x 2 f f
所有可能出现的样本均值的方差
SE 2
s2
2
1
n2
比较及结论:1. 样本均值的均值(数学期望) 等于总体均值
2. 样本均值的方差等于总体方差的1/n
某一总体σ 是一定的,所以只有增加样本含 量才可以降低标准误。
估计的标准误 (standard error of estimation)
1. 当计算标准误时涉及的总体参数未知时,用样本统 计量代替计算的标准误,称为估计的标准误
2. 以样本均值的抽样分布为例,当总体标准差s未知时, 可用样本标准差s代替,则在重复抽样条件下,样本均 值的估计标准误为
(一)总体分布(population distribution)
1. 总体中各元素的观察值所形成的分布 2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
(二)样本分布(sample distribution)
1. 一个样本中各观察值的分布 2. 也称经验分布 3. 当样本容量n逐渐增大时,样本分布逐渐接近总
μ,s2
第一,T分布的几个重要概念
从wenku.baidu.com个正态总体中抽取的样本统计量的分布样本平均数 x
和样本方差S2是描述样本特征的两个最重要的统计量
如果原总体的平均数为μ,标准差为σ,那么样本平均数 抽样总体:
m 平均数为: x
s 标准差为:
x
为样本平均数抽样总体的标准误差简称为标准误,标 准误表示平均数抽样误差的大小,反映样本平均数与 新总体平均数之间的离散程度。
μx = μ
σ x
= σ2 n
样本平均数的抽样总体(μ,x )σx
例:设某村有5户人家,以下是总体家庭人口的统 计表.
表1、某村家庭人口统计表
人口数 4 5 6 7 8
户数 1 1 1 1 1
• 则有: 总体均值 =(4+5+6+7+8)/5=6人
总体标准差 = s x x2 =1.4 n 1
总体方差已知的均值抽样分布总结:
• 如果样本相当大,N>30,不管原分布如何,抽样 分布接近正态分布。
• 抽样分布的均值就是总体的均值。 • 抽样误差就是抽样均值的标准差。 • 如果N足够大,不知道总体的标准差时,可用样
本的标准差作为总体的标准差。
• 均值的抽样分布接近正态分布,因此任何两值之 间的样本均值次数所占比例可以知道。
6 4.5
5 5.5
6 6.5 5.0
续表
第一次
6 6 6 6 7 7 7 7 7 8 8 8 8 8
第二次
5 6 7 8 4 5 6 7 8 4 5 6 7 8
平均家庭人口数
5.5 6.0 6.5
7 5.5 6.0 6.5
7 7.5 6.0 6.5 7.0 7.5
8
• 经过整理,得出样本平均家庭人口数的抽样 分布如下表
章目录
一 抽样分布
简介
二 抽样分布
三 二项式分

四 推论统计
总体与样本之间的关系
研究总体与从中抽取的样本之间的关系是统 计学的中心内容。
对这种关系的研究可从两方面着手:一是从总 体到样本,这就是研究抽样分布的问题; 二是从 样本到总体,这就是统计推断问题。
一、非概率抽样和概率抽样:
• 抽样调查根据调查其抽取部分调查单位的准则不 同可分非概率抽样和概率抽样。
总体方差 = s 2 x x 2 =2
n 1
• 现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可 能选出的样本有5×5=25种 可能选出的全部简单随机样本
第一次
4 4 4 4 4 5 5 5 5 5 6
第二次
4 5 6 7 8 4 5 6 7 8 4
平均家庭人口数
4.0 4.5
5 5.5
• 设有均值u,方差 的分布总体,如随机抽取 所有可能容量为n的样本,则样本平均数的抽 样分布将随着n的增大而渐渐接近于以下正态 分布 X ~ N (m, )
n
• N>=30为大样本
• n<30为小样本
样本均值的抽样分布
(数学期望与方差)
1. 样本均值的数学期望
E(x) m
2. 样本均值的方差:统计抽样误差是指平均误差, 等于样本均值的标准差
mx m
X
中心极限定理 (central limit theorem)
X
的分 布趋 于正 态分 布的 过程
抽样分布与总体分布的关系
总体分布
正态分布
样本均值 正态分布
非正态分布
大样本
小样本
样本均值 正态分布
样本均值 非正态分布
中心极限定理的应用
例:某厂商声称其生产的电瓶具有均值为 60个月、标准差为6个月的寿命分布。质检 部门为检验该厂的说法是否正确,随机抽取 50个该厂生产的电瓶进行寿命实验。
经计算得出两个重要结论
抽样的样本平均数的平均数等于总体平均数,即
mx m
抽样的抽样平均数的标准差等于总体标准差除以 样本单位数的平方根。即
sx s n
4. t-分布(不要求)
设有服从正态分布的随机变量x,正态分布的标准化公式为:
u xm s
对于总体方差σ2已知的总体,根据公式可以知道样本平均数 在某一区间内出现的概率,公式为:
平均家庭人口数 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0
频次 1 2 3 4 5 4 3 2 1
概率 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25
平均家庭人口数的概率分布图
P
6
5
4
3
2
1
0
4
4.5
5
5.5
6
6.5
7
7.5
8
• 样本的平均值仍等于总体平均值6 。
sˆ x
s n
4.中心极限定理 (central limit theorem)
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数
学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
s =10
n= 4 sx 5
n =16 s x 2.5
m = 50 X
(二)原总体标准差未知时的样本平均数的抽样
分布…t分布(t-distribution)
总体σ未知时,抽样总体S估计σ
即用s n 估计 σ n (sx 估计 σx ).
μ, σ 2
标准化变量Z X
=
x— μ σn
变为Z X
=
x— μ sn
令 t = x— μ , t 变量具有的分布称为t 分布
sn
— ∞< t < +∞,自由度df = n—1
相关文档
最新文档