总体均数的区间估计和假设检验

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

u =
X −µ
σ
=
X −µ
X
σ
n
实际工作中由于理论的标准误往往未 知,而用样本的标准误作为的估计值, 此时就不是u变换而是t变换了,即下式:
X −µ X −µ t= = SX S n
二、t分布曲线的特征
t分布曲线是单峰分布,以0为中心,左右两侧对
称, 曲线的中间比标准正态曲线(u分布曲线)低,两 侧翘得比标准正态曲线略高。 t分布曲线随自由度υ而变化,当样本含量越小 (严格地说是自由度υ =n-1越小),t分布与u分 布差别越大;当逐渐增大时,t分布逐渐逼近于u 分布,当υ =∞时,t分布就完全成正态分布。 t分布曲线是一簇曲线,而不是一条曲线。 T界值表。
表3-2
样本均数所代表的未知总体均数 与已知总体均数的比较
目 的 H0 H1
双侧检验
是否 µ ≠ µ 0 是否 µ > µ 0 是否 µ < µ 0
µ = µ0 µ = µ0 µ = µ0
µ ≠ µ0 µ > µ0 µ < µ0
单侧检验
表3-3 两样本均数所代表的未知总体均数 的比较
目 的 H0 H1
t分布于1908年由英国统计学家 W.S.Gosset以“Student”笔名发表, 故又称“Student t”分布
正态变量X采用u=(X-μ)/σ变换,则一般的 正态分布 N (μ,σ)即变换为标准正态分布 N (0,1)。 又因从正态总体抽取的样本均数服从正态分布 N(μ, ),同样可作正态变量的u变换,即
例3.2 上述某市120名12岁健康男孩身高 均数为143.07cm,标准误为0.52cm,试估 计该市12岁康男孩身高均数95%和99%的可 信区间。
95% 的 可 信 区 间 为 143.07±1.96×0.52 , 即 (142.05,144.09)。 99%的可信区间为 143.07±2.58×0.52, 即 (141.73,144.41)。
Hale Waihona Puke Baidu
sample1 sample2
Population
sample3
μ
sample4 sample5
标准误计算公式
σ已知: σ未知:
σ
X
=
σ
n
S n
S
X
=
实例:如某年某市120名12岁健康男孩, 实例:如某年某市120名12岁健康男孩, 120 岁健康男孩 已求得均数为143.07 标准差为5.70 已求得均数为143.07cm,标准差为5.70cm,按 公式计算,则标准误为: 公式计算,则标准误为:
第五节
均数的u检验
一、样本均数与总体均数比较的u检验
国外统计书籍及统计软件亦称为单样本u 单样本 检验(one 检验(one sample u-test)。 test 样本均数与总体均数比较的u检验适用于:
①总体标准差σ已知的情况; ②样本含量较大时,比如 n>100时。对于后者, 是因为 n 较大,υ也较大,则 t 分布很接近 u 分 布的缘故。
第3章 总体均数的区间估计 和假设检验
目 录 第一节 均数的抽样误差与标准误
第二节 t 分布 第三节 总体均数的区间估计 第四节 假设检验的意义和基本步骤 第五节 均数的 u 检验 第六节 均数的 t 检验 第七节 两总体方差的齐性检验和t'检验 ' 型错误和Ⅱ 第八节 Ⅰ型错误和Ⅱ型错误 第九节 应用假设检验应注意的问题
u 值的计算公式为:
总体标准差σ已知 时,不管n的大小。
u =
X − µ0
σ0 /
n
总体标准差σ未知 时,但n>100时。
u =
X − µ0 S/ n
例3.4 某托儿所三年来测得21~24月龄的 47名男婴平均体重11kg。查得近期全国九 城市城区大量调查的同龄男婴平均体重 11.18kg,标准差为1.23kg。问该托儿所男 婴的体重发育状况与全国九城市的同期水 平有无不同?(全国九城市的调查结果可 作为总体指标)
t 分布示意图
t分布曲线下双侧或单侧尾部合计面积
我们常把自由度为υ的t分布曲线下 双侧尾部合计面积或单侧尾部面积为指 定值α时,则横轴上相应的 t 界值记为
tα,υ。
如 当 υ=20 , α=0.05 时 , 记 为 t0.05, 20 ;当 υ =22, α =0.01时,记为t0.01, 22。对于tα, υ值,可根 据α和υ值,查附表,t界值表。
双侧检验
是否µ1 ≠ µ2 是否µ1 > µ2
µ1 = µ2 µ1 = µ2 µ1 = µ2
µ1 ≠ µ2
µ1 > µ2 µ1 < µ2
单侧检验
是否µ1 < µ2
2.确定检验水准
检验水准(size 检验水准 (size of a test)亦称显著性水 test) 显著性水 准 (significance level),符号为α 。它是 level) 判别差异有无统计意义的概率水准,其大小应 根据分析的要求确定。通常取α= 0.05。
例3.1 为了了解某地1岁婴儿的血红蛋白浓度,从 该地随机抽取了1岁婴儿25人,测得其血红蛋白的 平均数为123.7g/L,标准差为11.9g/L。试求该地1 岁婴儿的血红蛋白平均值95%的可信区间。
95%的可信区间为123.7±2.064×2.38, 即(118.79, 128.61)。故该地1岁婴儿血红 蛋白平均值95%的可信区间为118.7~128.61 (g/L)。
t分布是t检验的理论基础。由公式可 知,│ t│值与样本均数和总体均数之差
成正比,与标准误成反比。 在t分布中│t│值越大,其两侧或单 侧以外的面积所占曲线下总面积的比重就 越小 ,说明在抽样中获得此│t│值以及 更大│ t│值的机会就越小,这种机会的 大小是用概率P来表示的。 │ t│值越大,则 P 值越小;反之, │t│值越小,P值越大。根据上述的意义, 在同一自由度下,│ t│≥ tα ,则 P≤ α ; 反之,│t│<tα,则P>α。
P值是指在H0所规定的总体中作随机抽样,
大于现有统计量的概率是小概率,根据小概率事件 原理,现有样本信息不支持 H0 ,因而拒绝 H0 ,结论 为:按所取检验水准拒绝 H0 ,接受 H1 ,即差异有统 计学意义。如例3.3 认为两总体脉搏均数有差别。 ②当 P>α时,表示在 H0 成立的条件下,出现等于及 大于现有统计量的概率不是小概率,现有样本信息 还不能拒绝 H0 ,结论为按所取检验水准不拒绝 H0 , 即差异无统计意义,如例3.3 尚不能认为两总体脉 搏均数有差别。
SX =
5.70 120
= 0.52
二、标准误的应用
1.表示抽样误差的大小 1.表示抽样误差的大小 ; 2.进行总体均数的区间估计 进行总体均数的区间估计; 2.进行总体均数的区间估计; 3.进行均数的假设检验等 进行均数的假设检验等。 3.进行均数的假设检验等。
第二节 一、t 分布的概念
t 分布
1-α(如95%)可信区间的含义是:总体均数 被包含在该区间内的可能性是1-α,即(95 %),没有被包含的可能性为α,即(5%)。
总体均数的可信区间的计算
1.未知σ且n较小(n<100) 按t分布的原理
σ
X ± t α ,ν S X X ± uα S X
2.已知σ 2.已知σ或σ 未知但n较 已知 大(n≥100) 按u分布的 原理
学习要求
掌握:抽样误差的概念和计算方法 掌握:总体均数区间的概念,意义和计算方法 掌握:假设检验的基本步骤及思路 掌握:u检验和t检验的概念,意义,应用条件和计 算方法 熟悉:第一类错误和第二类错误的概念和意义 熟悉:假设检验的注意问题
第一节 均数的抽样误差与标准误
一、标准误的意义及其计算 统计推断( 统计推断(statistical inference) :根据样本信息 inference) 来推论总体特征。 来推论总体特征。 由抽样引起的样本均数与总体 均数的抽样误差 :由抽样引起的样本均数与总体 均数的差异称为均数的抽样误差 称为均数的抽样误差。 均数的差异称为均数的抽样误差。 标准误(standard error):反映均数抽样误差大 标准误(standard error):反映均数抽样误差大 的指标。 小的指标。
此法计算简便,但由于存在抽样误差,通 过样本均数不可能准确地估计出总体均数大小, 也无法确知总体均数的可靠程度。
二、区间估计
区间估计是按一定的概率(1-α)估计 区间估计 包含总体均数可能的范围,该范围亦称 总 体 均 数 的 可 信 区 间 ( confidence interval,缩写为CI)。 1-α 称 为 可 信 度 , 常 取 1-α 为 0.95 和 0.99,即总体均数的95%可信区间和99% 可信区间。
5.作出推断结论 ①当P≤α时,表示在H0成立的条件下,出现等于及
下结论时的注意点:
P ≤α ,拒绝H0,不能认为H0肯定不成立,因 为虽然在H0成立的条件下出现等于及大于现有
统计量的概率虽小,但仍有可能出现; 同理,P >α ,不拒绝H0,更不能认为H0肯定 成立。 由此可见,假设检验的结论是具有概率性的, 无论拒绝H0或不拒绝H0,都有可能发生错误, 即第一类错误或第二类错误
第三节 总体均数的区间估计 参数估计:用样本指标(统计量)估 参数估计 计总体指标(参数)称为参数估计。
估计总体均数的方法有两种,即: 点值估计(point estimation ) 区间估计(interval estimation)。
一、点值估计
点值估计:是直接用样本均数作 点值估计: 为总体均数的估计值。
3.选定检验方法和计算统计量
根据研究设计的类型和统计推断的目的要 求选用不同的检验方法。如完全随机设计中, 两样本均数的比较可用t检验,样本含量较大 时(n>100),可用u检验。不同的统计检验方 法,可得到不同的统计量,如t值和u值。
4.确定概率P值
获得等于及大于(或小于)现有统计量的概率。 │ t│≥ tα,υ ,则 P≤ α ;│ t│< tα,υ, 则P > α。
S n
2.计算总体均数的可信区间,如: ( X ± 1.96S X )。 3.可对总体均数的大小作出初步的判断。 4.用于进行假设检验。
表3 - 1
标准差和标准误的区别
第四节 假设检验的意义和基本步骤 假设检验(hypothesis test) 假设检验(hypothesis test)亦称显著 显著 性检验(significance test) 性检验(significance test),是统计 推断的重要内容。它是指先对总体的参数 或分布作出某种假设,再用适当的统计方 法根据样本对总体提供的信息,推断此假 设应当拒绝或不拒绝。



标准误愈小, 标准误愈小,估计总体均数可信区间的范围也愈 说明样本均数与总体均数愈接近, 窄,说明样本均数与总体均数愈接近,对总体均 数的估计也愈精确; 数的估计也愈精确; 反之,标准误愈大, 反之,标准误愈大,估计总体均数可信区间的范 围也愈宽,说明样本均数距总体均数愈远, 围也愈宽,说明样本均数距总体均数愈远,对总 体均数的估计也愈差。 体均数的估计也愈差。
假设检验的一般步骤
1.建立检验假设
一种是无效假设(null hypothesis)符号为H0; 无效假设(null hypothesis) 一种是备择假设(alternative hypothesis)符号为H1。 备择假设(alternative hypothesis)
H0: µ = µ 0
H1: µ ≠ µ 0
标 准 差(S) 1.表示个体变量值的变异度大小,即原始变量值的
标 准 误( S X ) 1.表示样本均数抽样误差的大小, 即样本均数的离散程 度。公式为: S X =
Σ( X − X ) 2 离散程度。公式为: S = n −1
2.计算变量值的频数分布范围,如: ( X ± 1.96S )。 3.可对某一个变量值是否在正常值范围内作出初步 判断。 4.用于计算标准误。
例3.3 根据调查,已知健康成年男子脉搏的均数为72次/分 钟,某医生在一山区随机测量了25名健康成年男子脉搏数, 求得其均数为74.2次/分钟,标准差为6.5次/分钟,能否认为 该山区成年男子的脉搏数与一般健康成年男子的脉搏数不同? 本例两个均数不等有两种可能性: ①山区成年男子的脉搏总体均数与一般健康成年男子的脉搏 总体均数是相同的,差别仅仅由于抽样误差所致; ②受山区某些因素的影响,两个总体的均数是不相同的。 如何作出判断呢?按照逻辑推理,如果第一种可能性较大时, 可以接受它,统计上称差异无统计学意义 差异无统计学意义; 如果第一种可能性较小时,可以拒绝它而接受后者,统计上 称差异有统计学意义 差异有统计学意义。
相关文档
最新文档