第四章抽样误差与假设检验

合集下载

4 第四章 均数的抽样误差与t分布

4 第四章  均数的抽样误差与t分布
数值变量资料的统计推断
统计推断包括两个方面: 统计推断包括两个方面: 参数估计( 1、参数估计(总体均数的可信区 间估计) 间估计) 假设检验(均数的假设检验) 2、假设检验(均数的假设检验) 两样本均数必较( 检验、 ⑴、两样本均数必较(u检验、 检验) t检验) 多样本均数必较( 检验) ⑵、多样本均数必较(F检验)
t分布
(t - distribution) distribution)
从正态总体中随机抽取含量为n 从正态总体中随机抽取含量为n的若 干样本,由样本算得样本均数x 干样本,由样本算得样本均数x,x服从 正态分布, 则称为正态变量。若已知µ 正态分布,x则称为正态变量。若已知µ, 但未知σ 为了应用方便,可用s代替σ 但未知σ,为了应用方便,可用s代替σ, 求得σ 的估计值S 正态变量x 求得σx的估计值Sx,正态变量x可作变量 变换:t=(x变量变成t变量。 变换:t=(x-µ)/Sx, x变量变成t变量。每 个样本x可算得一个t变量, 个样本x可算得一个t变量,所有可能含量 的样本的t值构成t变量总体, 分布。 为n的样本的t值构成t变量总体,即t分布。
可信区间的两个要素
1.准确度 反映在可信度1 1.准确度:反映在可信度1–α的大 准确度: 小上,即区间包含总体均数的概率大小。 小上,即区间包含总体均数的概率大小。 概率越大越准确。 概率越大越准确。 2.精度 反映在可信区间的长度上。 2.精度:反映在可信区间的长度上。 精度: 长度越小越精密。 长度越小越精密。 在 n 确定的情况下,二者是矛盾的。 确定的情况下,二者是矛盾的。 (α ↓, tα.ν ↑) 如提高可信度 ,则区间变 在可信度确定的情况下, 长。在可信度确定的情况下,增加样本 减小区间长度, 例数 (SX ↓, tα,减小区间长度,提高 ↓) .ν 精度。 精度。

抽样误差与假设检验(ppt 43页)

抽样误差与假设检验(ppt 43页)
认为治疗前后有差别。
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1

医学统计学练习题与答案

医学统计学练习题与答案

一、单向选择题1。

医学统计学研究的对象是 E.有变异的医学事件2. 用样本推论总体,具有代表性的样本指的是E 。

依照随机原则抽取总体中的部分个体3。

下列观测结果属于等级资料的是 D.病情程度4. 随机误差指的是 E 。

由偶然因素引起的误差5. 收集资料不可避免的误差是 A.随机误差1。

某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是A 。

中位数2. 算术均数与中位数相比,其特点是 B 。

能充分利用数据的信息3. 一组原始数据呈正偏态分布,其数据的特点是 D 。

数值分布偏向较小一侧4. 将一组计量资料整理成频数表的主要目的是E 。

提供数据和描述数据的分布特征1. 变异系数主要用于 A .比较不同计量指标的变异程度2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差3.某项指标95%医学参考值范围表示的是D 。

在“正常"总体中有95%的人在此范围4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl )呈明显偏态分布,描述其个体差异的统计指标应使用 E .四分位数间距1.样本均数的标准误越小说明 E 。

由样本均数估计总体均数的可靠性越大2. 抽样误差产生的原因是D 。

个体差异3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布4。

假设检验的目的是 D 。

检验总体参数是否不同5。

根据样本资料算得健康成人白细胞计数的95%可信区间为7。

2×109/L ~9。

1×109/L ,其含义是 E 。

该区间包含总体均数的可能性为95%1. 两样本均数比较,检验结果05.0 P 说明 D 。

不支持两总体有差别的结论2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指E. 有理由认为两总体均数有差别3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同4。

第4章 假设检验(田间试验与统计分析 四川农业大学)

第4章 假设检验(田间试验与统计分析 四川农业大学)



2 2

2
s2 1
s2 2
Hale Waihona Puke s2 es2 e
df1
s2 1
df1

df
2
s
2 2
df2
s2 e

5 2.412 4 3.997 54

3.1164
1.提出假设
H0 :1=2; HA :1≠2 。
2、计算t值
t x1 x2 s x1 x2
s x1 x2
第二节 单个样本平均数的假设检验
在实际研究工作中,常常要检验某样本
所属总体平均数与已知的总体平均数 0 是 否有差异。已知的总体平均数 0 一般为一些
公认的理论数值、经验数值或期望数值。
若σ2已知
u x 0 x
x


n
u检验
s2 若σ2未知
t x 0
sx
sx
s n
x2 1 ( x)2
x x 30.3667(g) s
n
n
2.5328 (g)
n 1
sx
s 0.8443 (g) n
t x 0 30.3667 27.5 3.395
sx
0.8443
df=n-1=9-1=8
t0.05(8) =2.306 t0.01(8) =3.355 | t |=3.395 > t0.01(8)
第四章 假设检验
第一节 假设检验的基本原理 第二节 单个样本平均数的假设检验 第三节 两个样本平均数的假设检验 第四节 百分率资料的假设检验 第五节 参数的区间估计
假设检验(test of hypothesis)又叫显著性 检验 (test of significance),是统计学中的一 个重要内容 。假设检验的方法很多 ,常用的

医药数理统计习题检验假设和t检验

医药数理统计习题检验假设和t检验

第四章抽样误差与假设检验练习题一、单项选择题1. 样本均数的标准误越小说明A. 观察个体的变异越小B. 观察个体的变异越大C. 抽样误差越大D. 由样本均数估计总体均数的可靠性越小E. 由样本均数估计总体均数的可靠性越大2. 抽样误差产生的原因是A. 样本不是随机抽取B. 测量不准确C. 资料不是正态分布D. 个体差异E. 统计指标选择不当3. 对于正偏态分布的的总体, 当样本含量足够大时, 样本均数的分布近似为A. 正偏态分布B. 负偏态分布C. 正态分布D. t分布E. 标准正态分布4. 假设检验的目的是A. 检验参数估计的准确度B. 检验样本统计量是否不同C. 检验样本统计量与总体参数是否不同D. 检验总体参数是否不同E. 检验样本的P值是否为小概率5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109/L~9.1×109/L,其含义是A. 估计总体中有95%的观察值在此范围内B. 总体均数在该区间的概率为95%C. 样本中有95%的观察值在此范围内D. 该区间包含样本均数的可能性为95%E. 该区间包含总体均数的可能性为95%答案:E D C D E二、计算与分析1.为了解某地区小学生血红蛋白含量的平均水平,现随机抽取该地小学生450人,算得其血红蛋白平均数为101.4g/L,标准差为1.5g/L,试计算该地小学生血红蛋白平均数的95%可信区间。

[参考答案]样本含量为450,属于大样本,可采用正态近似的方法计算可信区间。

101.4X=, 1.5S=,450n=,0.07XS===95%可信区间为下限:/2.101.4 1.960.07101.26 XX u Sα=-⨯=-(g/L)上限:/2.101.4 1.960.07101.54 XX u Sα+=+⨯=(g/L)即该地成年男子红细胞总体均数的95%可信区间为101.26g/L~101.54g/L。

医学统计学课后习题答案

医学统计学课后习题答案

医学统计学课后习题答案第一章医学统计中的基本概念练习题一、单向选择题1。

医学统计学研究的对象是A. 医学中的小概率事件B。

各种类型的数据C. 动物和人的本质D. 疾病的预防与治疗E.有变异的医学事件2. 用样本推论总体,具有代表性的样本指的是A.总体中最容易获得的部分个体B.在总体中随意抽取任意个体C.挑选总体中的有代表性的部分个体D.用配对方法抽取的部分个体E.依照随机原则抽取总体中的部分个体3. 下列观测结果属于等级资料的是A.收缩压测量值B.脉搏数C.住院天数D.病情程度E.四种血型4. 随机误差指的是A。

测量不准引起的误差 B. 由操作失误引起的误差C。

选择样本不当引起的误差D。

选择总体不当引起的误差E. 由偶然因素引起的误差5. 收集资料不可避免的误差是A. 随机误差B。

系统误差C. 过失误差D. 记录误差E.仪器故障误差答案: E E D E A二、简答题常见的三类误差是什么?应采取什么措施和方法加以控制?[参考答案]常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。

要尽量查明其原因,必须克服。

(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。

譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差.对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。

一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的.(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。

第四章抽样误差与假设检验

第四章抽样误差与假设检验
单侧界值 :一侧尾部面积为时对应的t值 t,v 对称性得:单侧曲线下面积=2双侧曲线下面积 给定曲线下面积对应的界值与自由度有关 同样的尾部面积,t分布的界值要大于标准正态
分布的界值
t分布的界值
t分布界值示意图,表示阴影的面积
习题
一、名词解释
1.抽样误差 2.均数标准误 3.置信区间
习题
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1 可信区间为:
X t 2, SX
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
X ~ N,(标,准正2 )态分布与U统计量
U X ~ N (0,1) n
实际研究中未知,用样本的标准差S作为
的一个近似值(估计值)代替,得到变换后的 统计量并记为
4.30
154.1-
94
9.40
13.70
154.7-
191
19.10
32.80
155.3-
255
25.50
58.30
155.9-
216
21.60
79.90
156.5-
116
11.60
91.50
157.1-
63
6.30
97.80
157.7-
20
2.00
99.80
158.3-158.9
2
0.20
100.00
注意区别:
SX
SX n
S 和S X
和 X
第二节 总体均数的估计
参数的估计
点估计:将样本统计量作为 总体参数的估计
区间估计:按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)

医学统计学总体均数的估计和假设检验

医学统计学总体均数的估计和假设检验

3.106
3.055
3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.750 2.704 2.678 2.626
2.58
3.497
3.428
3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.030 2.971 2.937 2.871 2.8070
t x
sX
统计量是t的分布就是t分布。
t分布的特征: ① 以0为中心,左右对称呈单峰分布; ② t分布是一簇曲线,分布参数为自由度υ。 ③ t分布的形状与样本例数n有关,高峰比正态分
布略低,两侧尾部翘得比正态分布略高。越大, 曲线越近正态分布,当ν=∞时,t分布即为z分布。 由于t分布是一簇曲线,为了便于应用,统计学 家编制了表4-4-1 t界值表。
3)与例数的关系不同:当样本含量足够大时,标准 差趋向稳定。而标准误随例数的增大而减小,甚至趋 向于0。若样本含量趋向于总例数,则标准误接近于0。
联系;二者均为变异指标,如果把总体中各样本均 数看成一个变量,则标准误可称为样本均数的标准差。 当样本含量不变时,均数的标准误与标准差成正比。 两者均可与均数结合运用,但描述的内容各不相同。
活量的95%的可信区间。
本例n=5, =4,t0.05,4=2.776
x t0.05sx =2.44±2.776×0.33/ 5 =2.03~2.85(L)
该地17岁女中学生肺活量均数的95%可信区间为2.03L~2.85L。
例4-4-3 由例4-2-1 101名30~49岁健康男子血清总 胆固醇 X 4.735mmol·L-1,S=0.88 mmol·L-1,求该 地健康男子血清总胆固醇值均数的95%可信区间。

抽样误差与假设检验培训课件(PPT 49页)

抽样误差与假设检验培训课件(PPT 49页)
点值估计(point estimation):例,120名成 年男子血清铁含量的均数是18.57。那么,该总体 范围(这个地区)的成年男子血清铁含量的均数就 是18.57。这种方法虽简单,但未考虑抽样误差, 一般不用。
区间估计(interval estimation)
也称置信区间。利用样本信息给出一个区间,并 同时给出按预先给定的概率估计该区间包含总体 均数的可能范围。 可信度:给定的概率称为可信度。用 1 表 示。通常取99%、95%。
山区男子脉搏的总体均数与一般成年男子的脉搏均 数不相等,差异可能是由地域等因素引起的——提 示山区男子与一般男子是两个不同的总体。
假设检验
——通过对假设作出取舍抉择来达到解决问题的目的
A.山区男子脉搏的总体均数与一般成年男子的脉搏均数
相等
无差异假设、零假设 H0(null hypothesis)
3. 确定P值,下结论。
P 值的概念
指从H0规定的总体中随机抽样抽得等于或大于 (或等于或小于)现有样本统计量的概率。
-2.045
2.045
本章总结
conclusion
样本均数的分布:
由中心极限定理及大数定理得出:
若原变量X服从正态分布,随机抽取样本含 量为n的样本均数 X 也服从正态分布。
即使从偏态总体中随机抽样,当n足够大( n>50),样本均数也近似服从正态分布。
这个定理不仅具有理论价值,而且具有很 高的实用价值。因为在实际工作当中,许多医 学测量结果并不知道它的确切分布,有了这个 性质,就可以利用正态分布的原理对其特征进 行统计推断。
t分布方法
应用条件:总体方差未知,样本量小
例4.2 某医师测的40名老年性慢性支气管炎病人尿中17-酮类固 醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该 种病人尿17-酮类固醇排出量总体均数的95%可信区间。

第4章抽样误差与假设检验ppt课件

第4章抽样误差与假设检验ppt课件

治疗前后血清甘油三酯疗效的无效假设和备择假
设分别为
H : 0
0
d
H : 0
1
d
检验水准 是预先规定的拒绝域的概率值,实
际中一般取 0.05 。
[说明] :备择假设有双侧和单侧两种情况。双侧
检验指不论正方向还是负方向的误差,若显著地超出
检验水准则拒绝H0,H1
:
μ d
0即为双侧检验;单侧
检验指仅在出现正方向或负方向误差超出规定的水准
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研 究总体。由于个体存在差异,因此通过样本推论 总体时会存在一定的误差,如样本X均数 往往不 等于总体 均数 ,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
二、抽样误差的分布
对上面问题可以作如下考虑:
治疗前后甘油三
酯的变化(差值)
d
样本
n 30 S 0.76 d 1.38 d
0? d
问题归纳: 样本疗效
药物作用 + 机遇
d 1.38
μ 0? d
问题:| d 0 | 究竟多大能够下“有效”的结论?
假定治疗前后血清甘油三酯检测结果的差值服从正态分
布,若 H : 0 则 t d 0 服从t 分布。
上限: X u/2.SX 4.77 1.96 0.38/ 140 4.83(1012 / L)
ቤተ መጻሕፍቲ ባይዱ
三、模拟实验
模拟抽样成年男子红细胞数。设定:
4.75, 0.39,n 140
产生100个随机样本,分别计算其95%的可信区间, 结果用图示的方法表示。从图可以看出:绝大多数 可信区间包含总体参数 4.75 ,只有6个可信区间 没有包含总体参数(用星号标记)。

医学统计学课后习题答案.

医学统计学课后习题答案.

医学统计学课后习题答案第一章医学统计中的基本概念练习题一、单向选择题1. 医学统计学研究的对象是A. 医学中的小概率事件B. 各种类型的数据C. 动物和人的本质D. 疾病的预防与治疗E.有变异的医学事件2. 用样本推论总体,具有代表性的样本指的是A.总体中最容易获得的部分个体B.在总体中随意抽取任意个体C.挑选总体中的有代表性的部分个体D.用配对方法抽取的部分个体E.依照随机原则抽取总体中的部分个体3. 下列观测结果属于等级资料的是A.收缩压测量值B.脉搏数C.住院天数D.病情程度E.四种血型4. 随机误差指的是A. 测量不准引起的误差B. 由操作失误引起的误差C. 选择样本不当引起的误差D. 选择总体不当引起的误差E. 由偶然因素引起的误差5. 收集资料不可避免的误差是A. 随机误差B. 系统误差C. 过失误差D. 记录误差E.仪器故障误差答案: E E D E A二、简答题常见的三类误差是什么?应采取什么措施和方法加以控制?[参考答案]常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。

要尽量查明其原因,必须克服。

(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。

譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差。

对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。

一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的。

(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。

t检验的与习题

t检验的与习题

第四章:定量资料的参数估计与假设检验基础1抽样与抽样误差抽样方法本身所引起的误差。

当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标μ之间偏差,称为实际抽样误差。

当总体相当大时,可能被抽取的样本非常多,不可能列出所有的实际抽样误差,而用平均抽样误差来表征各样本实际抽样误差的平均水平。

σx=σ/Sx=S/2t分布t分布曲线形态与n(确切地说与自由度v)大小有关。

与标准正态分布曲线相比,自由度v越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v愈大,t分布曲线愈接近正态分布曲线,当自由度v=∞时,t分布曲线为标准正态分布曲线。

t=X-u/Sx=X-u/(S/),V=N-1正态分布(normaldistribution)是数理统计中的一种重要的理论分布,是许多统计方法的理论基础。

正态分布有两个参数,μ和σ,决定了正态分布的位置和形态。

为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standardnormaldistribution),亦称u分布。

根据中心极限定理,通过上述的抽样模拟试验表明,在正态分布总体中以固定n,抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。

所以,对样本均数的分布进行u变换,也可变换为标准正态分布N(0,1) 由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换,统计量t值的分布称为t分布。

假设X服从标准正态分布N(0,1),Y服从χ2(n)分布,那么Z=X/sqrt(Y/n)的分布称为自由度为n的t分布,记为Z~t(n)。

特征:1.以0为中心,左右对称的单峰分布;2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。

自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线,如图.t(n)分布与标准正态N(0,1)的密度函数对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。

第四章 第一次课(2+1) 假设检验的原理

第四章 第一次课(2+1)   假设检验的原理
HA:μ≠μ0
本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者 来自同一总体,接受零假设则表示克矽平没有疗效。
而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗 前的平均数来自不同总体,即克矽平有疗效。
2 、 确定显著水平 能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以 在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平 。 3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选择使用不同的检验方法。 例
确定
水准
计算统计量
确定P值并与给定的
比较
做出推断结论。 假设检验的基本逻辑是“小概率事件在一次抽样 中不太可能出现”。 假设检验有两类错误。 假设检验与相应的置信区间估计既能提供等价的 结果,又有各自不同的功能。 假设检验方法很多,每种方法有相应的适用条件。 综合考虑研究目的、设计类型、变量类型、样本 含量等要素之后才能选择合适的假设检验方法。 三、课后练习 1假设检验的理论依据是什么? 2假设检验的两类错误的区别与联系是什么? 3t检验的应用条件是什么? 4假设检验中P值的意义是什么? 5如何确定检验水准? 6如何恰当地应用单侧与双侧检验?
=11头,标准差S1=1.76头;大白猪10头经产母猪产仔平均数
=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值
-
=1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论 呢?统计学认为,这样得出的结论是不可靠的。这是因为如果我们再分 别随机抽测10头长白猪和10头大白猪经产母猪的产仔数,又可得到两个 样本资料。由于抽样误差的随机性,两样本平均数就不一定是11头和 9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验 误差(或抽样误差)。对两个样本进行比较时,必须判断样本间差异是 抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎

田间试验与统计分析 第四章 假设检验

田间试验与统计分析 第四章 假设检验

品)。此时的无效假设仍为H0:
的左尾即 (, u ]


0 。这 时 否 定 域 位 于 则为HA:
域为 (, 1.64]
u分布曲线 例如当 =0.05时, u 分布的否定
0 ,但备择假设
这种利用一尾概率进行的检验叫一尾检验 。此
时 u 为一尾检验的临界 值。 一尾检验的 u =两尾检验的 u2 例如, 一尾检验的
表4-1 显著性检验的两类错误
客观实际
检验结果 否定 H 0 Ⅰ型错误( ) 推断正确(1- ) 接受 H 0 推断正确(1- ) Ⅱ型错误( )
H 0 成立 H 0 不成立
因此,如果经 检验获得“差异显著”或“差 与 异极显著”,我们有95%或99%的把握认为, 0 不相同, 判断错误的可能性不超过5%或1% ; 若经 检验获得 “差异不显著”, 我们只能认为在本次试 验条件下, 0 与
另一部分是试验误差 (1 2 ) 。
表明,试验的表面差异 ( y1 y2 ) 是由两部分组成:
( y1 y2 ) 是可以计算的,借助数理统计方法可以对试验 误差作出估计。所以,可将试验的表面差异 ( y1 y2 ) 与 试验误差相比较间接推断真实差异 ( 1 2 ) 是否存在,
体中抽样所获得的样本平均数的分布。
第三章已述及,若 y N (, 2 ) 数 y N ( y , y2 ) 得
u y y
,则样本 ,将其标准化,
y ,


y
y


n
y
yLeabharlann y 0n
本例, n 9, y 308g, 0 300g 9.5 g 得
y1 510

第四章 假设检验

第四章 假设检验
为 ,一般是随着 0 的减小或试验误差的 增大而增大,所以 0 越小或试验误差越
大,就越容易将试验的真实差异错判为试验误差。
显著性检验的两类错误归纳如下:
表4-1 显著性检验的两类错误
客观实际
H0 成立 H0 不成立
检验结果
否定 H0 Ⅰ型错误( )
接受 H0 推断正确(1- )
推断正确(1- ) Ⅱ型错误( )
与0 有差异而因为试验误差大被掩盖了。
为了降低犯两类错误的概率,一般从选取适当的显
著水平 和增加试验重复次数 n 来考虑。因为选取数 值小的显著水平 值可以降低犯Ⅰ类型错误的概率,
但与此同时也增大了犯Ⅱ型错误的概率,所以显著水
平 值的选用要同时考虑到犯两类错误的概率的大小。
对于田间试验,由于试验条件不容易控制
y1 510
y2 500
我们能否根据 y1 y2 10 就判定这两
个水稻品种平均产量不同?结论是,不一定。
因为两个水稻品种平均产量 y1 、y2 都 是从试验种植的10个小区获得,仅是两个品种
有关总体平均数 1, 2 的估计值。由于存在
试验误差 ,样本平均数并不等于总体平均数 , 样本平均数包含总体平均数与试验误差二部分, 即
∣u∣≥2.526的两尾概率,所以称为 u 检验.
三、显著水平与两种类型的错误
(一)显著水平
用来否定或接受无效假设的概率标准叫显著水
平,记作 。 在生物学研究中常取 =0.05,称为 5% 显著水平; 或 =0.01,称为1% 显著水平或极显著水平。
对于上述例子 u的检验来说,若∣u∣<1.96 ,
则说明试验的表面差异属于试验误差的概率p>0.05,
即表面差异属于试验误差的可能性大,不能否

第四章假设检验

第四章假设检验

• 在n重贝努利试验中,事件A可能发生0,1,2,…,n次, 则事件A 恰好发生k(0≤k≤n)次的概率Pn(k):
k Pn ( k ) = Cn p k q n − k
k=0,1,2…,n
二项分布的定义: 设随机变量x所有可能取的值为零和正整数:0,1,2,…,n, 且有
k Pn (k ) = Cn p k q n − k
k=0,1,2…,n
其中p>0,q>0,p+q=1,则称随机变量x服从参数为n和p的 二项分布,记为 x~B(n,p)。 , 在n较大,np、nq较接近时,二项分布接近于正态分布; 当n→∞时,二项分布的极限分布是正态分布。
二项分布的平均数、标准差: 当试验结果以事件A发生次数k表示时 μ=np σ=
小概率事件实际不可能原理 随机变量的概率分布——正态分布、二项分布 样本平均数的抽样分布 t分布 假设检验的基本原理和步骤
小概率事件实际不可能原理 • 概率的统计定义 • 在相同条件下进行n次重复试验,如果随机事件A发生的次 数为m,那么m/n称为随机事件A的频率; • 当试验重复数n逐渐增大时,随机事件A的频率越来越稳定 地接近某一数值p,那么就把p称为随机事件A的概率。 • 这样定义的概率称为统计概率,或者称后验概率。可以记 为P(A)=p。
由样本平均数 x 构成的总体称为样本平均数的抽样总体, 其平均数和标准差分别记为 µ x 和 σ x 。
σ x 是样本平均数抽样总体的标准差,简称标准误, ,
它表示平均数抽样误差的大小。 统计学上已证明
µx = µ
σ
x
=
σ
n
两个定理: 1、若随机变量x服从正态分布N(µ,σ2), x1 , x2 ,L, xn 是由x总体得来的随机样本,则统计量 也是正态分布, 且有
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 精密度:即区间的宽度, 区间愈窄愈好。当样 本含量为定值时,上述两者互相矛盾。
? 在可信度确定的情况下,增加 样本含量可减小 区间宽度。
二、总体均数可信区间的计算
? 计算方法:
? σ已知,按 u分布。 ? σ未知,但 n足够大,按 u分布。 ? σ未知,且 n较小,按t分布。
1.σ已知时,总体均数双侧可信区间为 :
本 例 n = 2 0 0 , X = 4. 9 5 ,S = 0. 5 7 , 双 侧 = Z0.05/ 2 1. 9 6 ,
本资料的 n 较大,所以有:
(4.95 ? 1.96 ? 0.57 ,4.95 ? 1.96 ? 0.57 ) ? (4.87, 5.03)
200
200
该 地 正 常 成 年 男 性 红 细 胞 数 的 总 体 均 数 的 95% 可 信 区 间 为 4. 8 7 × 1 0 1 2 / L ~ 5. 0 3 × 1 0 1 2 / L 。
三、标准误
? 由于实际 ? X往往未知,需要用样本 来S估X 计 ,样? X本均数标准误的估计式:
? 注意区别:
SX ?
SX n
S和SX
? 和? X
第二节 总体均数的估计
参数的估计
点估计: 将样本统计量作为 总体参数的估计
区间估计: 按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
? ? X ? U? 2? X
=
? ??
X
?
U?
2
??
n ??
2.σ未知但n较大时,按u分布计算总体 均数的可信区间
? ? X ? U? 2 SX
=
? ??
X
?
U?
2
S? n ??
例 4-3 根 据 例 4-1 资 料 ,估 计 该 地 正 常 成 年 男 子 红 细 胞 数 的 总 体 均 数 的 95% 可 信 区 间 。
机抽样。样本大小为 30
? ,? 2
n=30 X1 , S1 X2 , S2
X j , S3
Xn , Sn
… ….
二、抽 样 误 差
若从正态总体 N(155抽.4,样5.3得2 ) 到1000个样本,将 1000个
样本均数看成新变量,构成新的分布:
组段 152.9153.5154.1154.7155.3155.9156.5157.1157.7158.3-158.9
? 标准误的大小:
?x ?
?
n
? n一定时,标准误与标准差呈正比; ? 标准差一定,标准误与 n的平方根成反比 ? 增加样本含量可减少抽样误差
三、标准误
标准误主要用途:
? 衡量抽样误差大小 ,SE 越小,样本均数可信度 越高
? 结合标准正态分布和 t分布曲线下的面积规律, 估计总体均数的置信区间
? 应用于假设检验
的一个近似值 (估计值)代替? ,得到变换后的 统计量并记为
t? X??
Sn
第三节t分布
? 英国统计学家 W. S. Gosset(1908)设 X ~ N (? ,? 2 )
,称统计量 t的分布规律为 t分布,自由度为 v:
? 由抽样引起的 样本统计量 与总体参数间(或 各统计量之间) 的差异
? 抽样误差不可避免 ? 抽样误差有一定的规律性
三、标准误
中心极限定理:
? 若 也个服体从资 正Xj料 态分X服布i 从:正态总体
N(,? ,?则2样) 本均数
Xj ~ N(? ,? X2 )
? 个体资料 Xi 服从偏态分布,当 样本量n较大时, 样本均数 近似X服j 从正态分布:
频数 9 34 94 191 255 216 116 63 20 2
频率(%) 累计频率(%)
0.90
0.90
3.40
4.30
9.40
13.70
19.10
32.80
25.50
58.30
21.60
79.90
11.60
91.50
6.30
97.80
2.00
99.80
0.20
100.00
二、抽 样 误 差
Mean=155.426 Std=0.966
二、抽 样 误 差
? 样本均数的分布特点:
? 各样本均数不一定等于总体均数 ? 样本均数间存在差异
? 样本均数的分布为中间多,两边少, 围绕总体 均数 上下波动,左右基本对称。
? 样本均数的变异 较之原变量的变异大大减小。
二、抽 样 误 差
? 抽样误差(Sampling error)
一、可信区间的有关概念
? 可信度:
? 事先给定的概率 (1?? )称为置信度或可信度 ,常 取95% 或99% ;
? 估计总体均数可信区间时,可能估计错误,错 误概率为? ;
? 估计正确的概率为 (1?? ),
? 可信区间的上下界为可信限:
? 较小的称为下限( lower limit,L ) ? 较大的称为上限( upper limit,U)
一、可信区间的有关概念
可信区间的含义:
95%可信区间表示该区间总含总体均数 μ的 概率为95%; 若作100次抽样算得100个可信区间,平均有 95个可信区间包含μ,有5个可信区间不包含 μ,即估计错误。
一、可信区间的有关概念
可信区间估计的优劣:
? 准确度: 即可信度1?? ,愈接近1愈好,如99% 的可信度比 95%的可信度要好;
Xj ~ N(? ,? X2)
三、标准误
? 样本均数的标准差 ? X ,称为样本均数的标准误 (standard error of mean),简称标准误( SE ) 。
? 标准误意义: 反映样本均数抽样误差的大小 ,SE 越 大,均数的抽样误差越大,说明样本均数与总体均
数间的变异越大 。
三、标准误
第四章 抽样误差与假设检验
崔琳林
第一节 均数的抽样误差与标准误
一、抽 样 研 究
? 按照随机化原则 ? 采用正确的抽样方法 ? 从总体中抽取有代表性的一部分
组成样本 ? 用样本信息推断总体特征的研究
统计推断
二、抽 样 误 差
ห้องสมุดไป่ตู้
? 已知k市初中女生身高总体均数 ?为155.4cm, 标准差为 为5.3cm的?正态分布,从总体中随
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1? ? 可信区间为:
? ? X ? t? S 2,? X
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
? X ~ N,(标? ,准?正2 )态分布与 U统计量
U ? X ? ? ~ N(0,1) ?n
? 实际研究中 ? 未知,用样本的标准差 S作为?
相关文档
最新文档