研究生统计学第三章总体均数估计与假设检验(4版)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-
3.75
1
-1.55
3.06
1
-0.69
2.65
1
-0.41
2.37
1
-0.28
1.68
5
-0.69
1.19
10
-0.49
0.97
10
-0.22
0.84
10
-0.13
0.75
10
-0.09
0.53
50
-0.15
0.37
100
-0.16
0.24
300
-0.13
0.17
500
-0.07
SE减少(%)
-29.29 -18.40 -13.40 -10.56 -29.28 -29.46 -18.69 -13.61 -10.77 -22.06 -29.29 -35.94 -30.17
Gui
总体均数置信区间的估计 参数估计时,一方面要控制发生错误的概率(α),α越小,估计的正确率就越高。另一方面, 所定区间范围不能过宽,否则就失去了实际意义,也就是估计的精确程度要高,估计的区间范围 越小,精密度就越高。 正确性和精密性是相互矛盾的,提高了准确度,则精密度必然下降;如果提高精密度,则准 确度又将随之降低。因此,通常把发生错误的概率(α)定在适当的水平,如α=0.05,即总体参 数不在该范围的概率不超过5%,即95%置信区间。 增大样本量可以在不影响正确性的情况下提高参数估计的精密度。但并非样本量越大越好。
Gui
第一节 均数的抽样误差和标准误 均数标准误的用途:
❖ 衡量样本均数的可靠性; 标准误愈小,说明样本均数与总体均数越接近,即抽样误差越小,用样本均数推论总体均 数的真实性越好。反之,标准误越大,抽样误差越大,样本均数对总体均数的代表性越差。 ❖ 估计总体均数的置信区间; ❖ 用于均数的假设检验。
本例n>100,可按正态分布原理近似计算:
SXS n0.92 次/分
95 %C: I Xu2SX73 .551.960.9271 .7, 475 .36
该地正常人脉搏总体均数的95%可信区间为71.74~75.36次/分。
Gui
三、总体均数置信区间的解释 • 总体均数可信区间的计算和解释有两种理论依据,一是是Pearson、Fisher、Neyman等人 的经典理论,另一个是Bayes理论。 • 经典理论假定样本x1、x2 、… 、xn来自正态分布N(μ,σ2),其中σ2已知,μ是一个客观存在的常 数。对置信区间的解释是:从总体中随机抽样,每个样本可以算得一个置信区间,该置信 区间包括总体均数(估计正确)的概率是1-α。 • Bayes理论则认为参数μ是随机变量。对置信区间的解释是:μ有1-α的可能性落在该区间, 或者说μ在这个区间内的概率是1-α。
1-
-t
0
/2 -t /2
1- 0
/2 +t /2
Gui
第二节 t 分布 由于t 分布的形态随自由度而变化,t也随自由度而变化。不同自由度时的t值可查附 表2 t 界值表得到。
Gui
Gui
一、 t 分布
Gui
第三节 总体均数的估计 一、 可信区间的概念
• 点值估计(point estimation) • 区间估计(interval estimation)
Gui
第二节 t 分布 二、t 分布的图形和t 分布表 对前述13岁女学生身高总体,分别做n=3和n=50的随机抽样,各抽取1000个样本,并分别计 算得到1000个样本均数和标准误。然后,分别做t变换,将t值绘直方图如图5-2。
Gui
第二节 t 分布 二、t 分布的图形和t 分布表 t 分布与u 分布一样,都是以0为中心,但t分布不是1条曲线,而是无数条曲线。 t 分布的形态 (峰度)随抽样样本量(严格地说是自由度n -1)而变化,自由度越小,曲线越低平,随着自 由度增大,t 分布逐渐接近于标准正态分布,当自由度为无穷大时,t 分布与 u 分布完全重合。
Gui
表5-1 从正态总体N(155.4, 5.32)随机抽取 100份样本(n=30)的算术均数
156.7 156.9 156.1 156.3 155.1 155.7 153.6 155.8 154.9 155.1 158.1 154.0 155.0 155.2 155.3 153.7 155.6 153.9 154.6 156.6 155.6 154.4 154.7 156.0 156.3 154.8 155.2 156.2 154.6 156.0 155.2 156.5 154.5 155.6 156.6 155.6 156.7 156.0 157.5 155.8 155.0 155.9 155.2 156.5 155.4 154.8 154.7 154.2 155.9 156.1 156.4 155.5 154.6 155.3 155.9 155.6 155.1 155.4 156.5 152.7 154.9 156.9 156.1 155.2 155.3 158.2 155.7 156.6 156.4 155.1 156.5 156.9 155.7 155.5 154.6 154.9 156.4 155.6 154.7 155.3 155.0 153.4 155.1 155.0 156.1 153.4 155.1 156.8 156.2 154.6 155.9 154.8 156.1 155.5 154.7 156.4 154.9 155.3 154.6 156.6
x
X
x
u Xμ σX
Gui
第二节 t 分布
s 实际上 往往未知,故用 作为 的估计值,这时可以对样本均数作 t 变换:
x
x
x
t X μ SX
则t 值的分布是以0为中心的正态分布,即t 分布(student’s t distribution)。1908年W S Gosset以笔名student发表了他的研究论文,开创了小样本统计推断之先河。
X4.92m,Sm 0o.4 l/8Lm,nm 2o。 0l/
第一节 均数的抽样误差和标准误
在前述放回式随机抽样实验中,已知总体标准差σ=5.3cm,每次抽样的样本含量 n=30,代入公式得:
x
5.30.9(8cm )
n 30
按实际抽取的100个样本均数计算,标准误为0.96,与上述公式计算结果基本一致。
Gui
x
样本均数的分布
Gui
X (n=30 ,
Gui
第二节 t 分布
一、 t 分布的概念 对于任一正态分布X~N( , 2 ) ,经u变换后都可以变成标准正态分布N(0 ,1)。 随机抽取若干个含量为n 的样本,这些样本均数的频数分布是以总体均数μ为中心的 正态分布,其标准差为 ,即 ~N( , 2 )如果进行u变换,同样可以变成标准正 态分布N(0 ,1)。
Gui
放回式随机抽样实验
总体
μ=155.4cm σ = 5.3 cm
n 1 30 , x 1 156 . 7 cm n 2 30 , x 2 158 . 1 cm n 3 30 , x 3 155 . 6 cm n 4 30 , x 4 155 . 2 cm n 5 30 , x 5 155 . 0 cm n 6 30 , x 6 156 . 4 cm ......
Gui
第一节 均数的抽样误差和标准误
从一个总体均数为μ ,标准差为σ 的总体中,随机抽取若干个含量为n 的样本。那么,这若 干个样本的均数不会完全相同,其频数分布是以总体均数μ为中心的正态分布,其变异程度可用 这若干个样本均数的标准差表示,称样本均数的标准误(standard error)。
x
n
Gui
总体均数( μ )的100(1- α)%置信区间(confidential interval,简记为 CI)。 区间估计属于概率估计,总体参数并非一定在该置信区间内,只需要把总体参数不在该置信
区间内的概率(α)控制在一定水平就可以了。
Gui
二、置信区间的计算 二、总体均数的置信区间的计算 μ 的100(1-α)%置信区间(CI): ❖ 已知总体标准差σ,按u分布原理,计算公式为: ❖ σ未知,n较小,按t 分布原理计算:
X u σ ❖ σ未知,n足够大(如n>100),按u分布近似计算: α2 X
X tα S 2,ν X
X uα 2SX
Gui
总体均数置信区间的计算 例 测得某地健康男子20人收缩压的均数为118.4mmHg,标准差为10.8mmHg,试估计该地健 康男子收缩压总体均数的95%可信区间。 本例v=20-1=19,查t 值表得 t0.05,19 =2.093 。 代入公式得:
Gui
对100个样本均数组成的数据资料 进行统计描述,结果:
X 155.51(cm) S 0.96(cm)
Gui
30
25
f
20
15
10
5
0 152.6 153.2 153.8 154.4 155 155.6 156.2 156.8 157.4 158 158.6
均数
图5-1 100个样本均数的频数分布图
研究生统计学第三章总体均数估计与假设 检验(4版)
第三章 总体均数估计与假设检验
• 均数的抽样误差与标准误 • t 分布 • 总体均数的估计 • 假设检验的基本原理和步骤 • t 检验 • 假设检验的注意事项 • 正态性检验和两样本方差比较的F检验
Gui
参数估计基础 统计学研究的目的通常是要了解总体的情况。如果要了解总体情况,有两种方法: ▪ 全面研究 ▪ 抽样研究 全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机 抽取一部分观察单位作为样本,并由样本信息(包括样本变量值的分布及其用于描述的统计量) 来推断总体情况,即统计推断(statistical inference)。
=0.98)
x
X (n=10 ,
=1.68 )
x
x
X(n=5 ,
=2.37)
x
X ( =155.4 , =5.3 )
பைடு நூலகம்
不同n样本均数的分布
Gui
n
1 2 3 4 5 10 20 30 40 50 100 200 500 1000
增大样本量对标准误的影响( =5.3)
SE
n增加
SE减少
5.30
-
Gui
=∞ =5 =2
--55 --44 --33 --22 --11
00
11
22
33
44
55
ttt
图5-3 不同自由度的t 分布曲线
Gui
第二节 t 分布
t 分布与u分布一样,曲线下的面积分布有一定规律:从双侧-t /2, 到t /2, 所对应的曲线下的面 积占曲线下总面积的100(1-α)%。或者,从单侧t, 到-∞所对应的曲线下的面积占曲线下总面积 的100(1- )%。
Gui
第一节 均数的抽样误差和标准误 由于所研究变量在总体中各观察单位(个体)间存在变异,抽样研究必然会导致抽 样误差(sampling error) 。 抽样误差是不可避免的,但我们可以探究抽样误差的规律,控制抽样误差在允许的 范围内。
Gui
第一节 均数的抽样误差和标准误 为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地13岁女学生 身高(X)服从总体均数μ=155.4cm,总体标准差σ=5.3cm的正态分布N(155.4,5.32)。 每次抽取的30例构成一个样本,并计算出样本均数。 如此共抽取100个样本,计算得到 100个样本均数。
X tα 2 ,ν S X 1.4 1 2 .0 8 9 1 .8 / 3 0 2 ( 0 1.3 1 ,1.5 3 2 )
该地健康男子收缩压总体均数的95%可信区间为113.3~123.5mmHg。
Gui
总体均数置信区间的计算
例 测得某地150名正常人脉搏的均数为73.53次/分,标准差为11.30次/分,试估计该地正常 人脉搏总体均数的95%可信区间。
Gui
总体均数的估计 例9.2 某医师随机抽查了某地20名正常成人,测得血糖值的均数为4.92mmol/L,标准差为
0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。 本例: 今v=20-1=19,查t值表得t0.05,19=2.093,t0.01,19=2.861。 95%可信区间为:
Gui
Gui
Gui
Gui
第一节 均数的抽样误差和标准误 实际工作中,往往不知道 ,因此,通常用样本标准差s 来代替 ,得到均数标准误的估计值:
S
S
X
n
例 调查某地120名正常成人的血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试计算标准 误。
SX
S n
0.480.044(m /Lm) ol 120