-第三章 标准误t分布参数估计(研1309).
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 从总体X中反复随机抽样,样本含量分别 为n=4,n=16和n=36,分别随机抽10000 个样本并计算样本均数,把同一样本含量 的10000个样本均数视为一个新的样本资 料作频数图
16
样本含量n=4
样本含量n=16
样本含量n=36
x 的均数=168.198 x 的标准差=2.9995
x 的均数=168.185 x 的标准差=1.4868
12
样本号
样本含量(n=10) m=168.15cm
样本 均数
1
161.1
173.7
173.7
167.3
162.2
162.2
166.6
166.6
157.4
157.4
164.82
2
166.8
159.1
159.1
166.1
173.3
173.3
169.1
169.1
165.2
165.2
166.63
3
157.4
• 很多情况下研究者无法对无限总体的每一个观察 对象都进行观测 • 很多情况下由于人力、物力、财力的限制也无法 对有限总体的每个个体进行观测;有时也没有必 要对总体的每一个个体的变量值都进行测量 • 在大多数情况下,研究者并不知道总体的参数, 而是在总体中随机抽取一定数量观察单位作为样 本进行抽样研究 • 而取得样本信息后(统计量)人们更希望由此推 算总体的相应信息(参数),这是抽样研究的基 本目的
原总体
随机抽样 抽出n个的样本
样本均数 X1, X2, X3…Xn
X1, X2, X3…Xn
均数μ ;标准差 N (μ ,2 )
=10
2 均数μ ;标准误 x 2 x ) N (μ ,
n =16 x =2.5
X 总体分布 原变量
m = 50
m x = 50
抽样分布
X 样本均数
38
第三章 总体均数的 估计与假设检验
何保昌 福建医科大学流行病与卫生统计学系
1
教学内容:
第一节 第二节 第三节 第四节 第五节 第六节 第七节 均数的抽样误差与标准误 t分布 总体均数估计 假设检验基本原理与步骤 t检验 假设检验的注意事项 正态性与方差齐性检验
2
抽样研究(sampling study)
18
样本均数的分布规律
理论上可以证明:从正态分布的总体 N m , 中 随机抽取样本含量为n的一批样本,样本均数 xi 有如下性质 :
2
•
样本均数 xi 服从正态分布
σ2 N μ , n
•
资料 x 的标准差 样 本 均 数 x i 的 标 准 差 x= n
•
抽样误差
需进行参数估计和假设检验
6
问题:已知某市健康儿童共125万人,想
知道其平均血糖水平是多少?
求μ(参数)的问题
7
Population:125万人
方法一:普查 (125万人)
总体均数(参数) μ =4.86µ mmol/L
方法二: 随机抽样 (50人)
13
参数估计
风 险
A=
4.66µ mmol/L
⑴样本均数的总体均数仍等于原来的总体均数μ。
⑵样本均数的标准差 仍叫做标准误,记作 X。
计算公式仍是: x = n
中心极限定理
24
样本均数的标准误证明*
x x 1 x = ,Var x = Var = Var ( x1 x2 xn ) n n n 1 1 = 2 Var ( x1 x2 xn ) = 2 Var ( x1 ) Var ( x2 ) Var ( xn ) n n 2 1 1 = 2 2 2 2 = 2 n 2 = ; n n n x = Var x = n
中心极限定理
20
非正态分布样本均数的抽样分布
【实验】:下图是一个正偏态分布,用电脑
从中随机抽取样本含量分别为5、10、30、 50的样本各1000次,计算样本均数,绘制直 方图,并观察其样本均数的分布。
80 70 60 50 40 30 20 10 0 1
21
从偏态总体中抽样,当n足够大时(n大于 60),其均数也近似于正态分布。
x 的均数=168.135 x 的标准差=0.9997
从正态分布总体N(168.15,62)中随机抽样10000次的结果 曲线是正态总体N(168.15,62)的概率密度曲线 直方图为正态分布总体N(168.15,62)的样本均数的频率密度图
17
样本均数的分布规律
• 大多数的样本均数相互之间存在差异,绝大多 数的样本均数不等于x的总体均数 • 样本均数的集中趋势位置与个体资料x的集中 趋势位置较为接近,样本均数的频数图均呈现 出中间多、两边少且基本对称的正态分布特征。 • 样本均数的分布范围较个体值小;随着样本含 量的增大,样本均数的频数分布范围越来越窄 • 每种样本量的10000个样本均数值所计算出的 样本均数的标准差都非常接近 n (为个体资 料x的总体标准差,n为个体数)
解:1.理论标准误:
x
=
n S n
=
20.5 100
= 2.05g/L
2. 样本均数的估计标准误:
S
x
=
=
23.4 100
= 2.34g/L
29
•
既往资料表明某市区新生女婴的平均出生体重 为3.10kg,标准差为0.59kg ;某研究者从该市 区中随机抽取一个由100个女婴组成的样本, 测得样本均数超过3.15kg的可能性有多大?
标准差,是描述均数的抽样误差大小的指标。
标准误的计算:
标准误的理论值
x
标准误的理论值的估计值
=
n
sx =
s n
前提: 无限总体 完全随机抽样
s↑→抽样误差↑
n↑→抽样误差↓
28
举例:大规模普查得某地健康成年男子血红蛋白总体 均数为µ =135g/L,σ=20.5g/L。若在其中进行随机抽 样,样本量n=100,样本均数X=130g/L,S=23.4g/L, 求其理论标准误和样本均数的估计标准误。
174.0
172.3
175.8
166.6
182.1
163.1
159.4
159.4
177.3
168.74
4
174.5
182.1
168.5
171.3
174.1
165.6
173.7
171.9
167.5
164.1
171.33
5
164.1
166.6
169.6
169.6
173.8
173.2
164.3
166.6
182.1
X m t= ~ tn s n
X m X m s n n
SX
X m X m X SX
X
W.S.Gosett 研究它的分布规律,提出它不服从标准正态 分布的规律,而服从ν =n-1的t 分布,后人用其笔名 student命名,称之为student’s t-distribution,简称 t 分布。
0.592 因为样本均数 x满足正态分布N 3.10 , ,满足 100 正态分布就可以做u转换根据正态 3.15 3.10 u= = 0.847 0.59 / 10 P( x > 3.15) P(u > 0.847),查表得19.77%
33
在正态总体N(168.18,62)中随机抽样,样本量分别取n =5, n =100,均抽10000个样本,分别计算u’值和u值,其结果 如下:
3
统计推断(statistical inference)
采用抽样研究的方法,由某总体中 随机抽取一个有代表性的样本,并根 据样本提供的信息(统计量)推断总 体特征、性质(参数)的过程称为统 计推断
4
统计推断
总体
参 数
如:总体均数μ
总体标准差σ 总体率π
statistical inference
内容:
抽取部分观察单位
样本
统计推断
统计量
如:样本均数 X 样本率 P
1. 参数估计 (estimation of parameters) 包括:点估计与 区间估计
样本标准差S 2. 假设检验(test
of hypothesis)
5
统计学研究特点:
研究的是样本,要对总体作出推断
抽样研究
利用“小概率原则”作出பைடு நூலகம்计推断
350 300
n =5 n =1
0.2 0.1 0.0 -4 -3 -2
1
250 200 150 100 50
-1
0
1 0
2
3
4
1
n =3时的t
分布t
n=50时的t分布
不同自由度的t 分布的曲线 所以,不同的自由度(=n-1)即有不同的 t 分布
34
样本含量n=5
样本含量n=100
(a)
(b)
u’统计量的频数分布图(10000个样本),轮廓曲线为标准正态分布曲线
35
样本均数u转换中的实际问题
•
xm s n
并不满足标准正态分布!
• 在样本含量较大时它与标准正态分布接近,但 是当样本含量较小时,它与标准正态分布相差 较远
36
二、t分布
37
165.4
169.53
13
样本均数的特点
• 各个样本均数之间都不相同——抽样 误差表现形式之一 • 各个样本均数都不等于总体均数,有 的比总体均数大,有的比它小——抽 样误差表现形式之二
• 相对于各样本的个体值,样本均数间 的变异程度较小
14
样本均数的抽样分布
•
仍以某地高三男生的身高为例,设身高 变量为x,假定x服从正态分布,记为 x~N(168.15, 62)
t~分布:
X m SX
=
X m S n
n = n 1
41
故:
u= X m
X
u分布
t 分布
0.4 0.3 0.2 0.1
f( t)
n →∞(Z 分布) n =5 n =1
X m X m t= = , = n 1 S SX n
0.0 -4 -3 -2 -1 0 t
42
1
2
3
4
【实验】:从前述13岁女学生身高这个正态总体
25
标准误 (standard error of mean,SME或SE)概念:
μ
X 样本均数
样本均数的标准差简称标准误(standard
error,SE)是描述均数的抽样误差大小的指标。
数理统计研究表明,标准误 即抽样误差的大小具
有一定的规律性,
26
标准误 (standard error,SE)概念:即样本均数的
中分别作样本量为3或50的随机抽样,各取1000份 样本,分别得到 1000 个样本的均数及其标准误, 对它们分别作 t 转换,将 t 值绘成直方图: 。
350
300 250 200 150 100 50 0
300 250 200 150 100 50 0
n =3时的t分布
1
n=50时的t分布
1
所以,不同的自由度(=n-1)即有不同的 t 分布
样本量 统计量 u n=5 平均值 0.0149031 P2.5 -1.950067 P97.5 1.969157
u’ u
n=100 u’
0.0319309 0.0033231
0.0347047
-2.654214 -1.950886
-1.981183
2.838163 1.971245
2.000407
样本均数 xi 的总体均数为
mx = m
19
所以若随机变量X服从X~N (μ , 2) 的正态分 布,则以之随机抽样计算的样本均数所构成的分 布也呈正态分布。
1. 样本均数的总体均数仍等于原来的总体均数μ。
2. 样本均数的标准差 叫做标准误 (standard error X of mean, SEM),记作 ,是描述均数的抽样误 差大小的指标。
43
【实验三】 :从前述13岁女学生身高这个正态总 t 分布图形的特征:
体中分别作样本量为3或50的随机抽样,各取1000 份样本,分别得到 1000f个样本的均数及其标准误, ( t) 0.4 n →∞(Z 分布) 对它们分别作 t 转换,将 t 值绘成直方图: 。
0.3
300 250 200 150 100 50 0
8
(样本统计量)
怎么样由 X 估计μ ?
利用了一个规律,“抽样分布”的规律
9
教学内容
均数的抽样误差与标准误
t 分布
总体参数的估计
.
.
10
一、均数的抽样误差 与标准误
11
一、均数抽样误差和标准误
•
已知某地高中三年级男生的身 高满足正态分布,其平均身高 为168.15厘米,这里,将该地高 中三年级男生的身高视为一个 总体。现从该总体中随机抽样5 次,每次抽取一个样本含量 n=10的样本,得到的5个样本的 数据及各样本均数如下:
对于正态变量X
u 变换
标准正态分布
任意正态分布曲线 X~N(μ,σ2)
标准正态分布曲线 X~N(0,1)
39
对样本均数的正态分布进行标准化→t 分布
2 若对抽样分布 N (m, x ) 进行标准化变换,有
Xi m
ni
~ N (0,1)
总体标准误
40
X 是未知的,所以常需以 S 代替。 实际工作中, X