第5章 统计推断
第5章 统计推断
1. 2. 3. 4. 5.
解:
1. 计算样本指标 p 0.85
2. 计算抽样平均误差 3. 查表得统计量
p
p(1 p) 0.85 0.15 0.0252 n 200
x
第五章 参数估计
第一节参数估计的一般问题
• 估计量与估计值
– 抽样估计/参数估计:用样本统计量估计总体参数的特征值; – 估计量:用来估计总体参数的统计量的名称; – 估计值:用来估计总体参数是计算出来的估计量的具体数值。
• 点估计与区间估计
– 点估计:用样本估计量的值直接作为总体参数的估计值; – 区间估计:在点估计的基础上,给出总体参数估计的一个范围。
1.
2. 3. 4. 5.
计算样本指标
计算抽样平均误差 查表得统计量 计算抽样极限误差 计算置信区间
解:正态总体、方差未知、小样本
1. 计算样本指标
x s
x 789 806 791.1
n 10
2 x x
n 1
17.136
2. 计算抽样平均误差
x
行耐用性能检查,抽查
资料分组如下表,要求 估计该批电子元件的平 均耐用时数的置信区间 (置信度95%)。
1. 2. 3. 4. 5. 计算样本指标 计算抽样平均误差 查表得统计量 计算抽样极限误差 计算置信区间
解:正态总体、方差未知、大样本
1. 计算样本指标
X Xf 1055.5(小时) f
5 17.136 5.419 n 10
3. 查表得统计量 1 0.95
t (n 1) t 0.025 (9) 2.262
2
4. 计算抽样极限误差 x t 2 (n 1) x 2.2622 5.419 12.26 5. 计算置信区间 x x x x
统计推断
0。
u
x
X
7.65 7.25 2.532 0.158
0.05 1.96 (4) 推断:u分布中,当 =0.05时, 。实 得 u 1.96, P 0.05 ,故可在0.05显著水平 上否定H0,接受HA,认为新育苗方法的一月 龄体长与常规方法有显著差异。
x1 x 2 u sx1 x 2
例3.某杂交黑麦从播种到开花的天数的标 准差为6.9天,现在相同试验条件下采取 两种方法取样调查,A法调查400株,得 出从播种到开花的平均天数为69.5天;B 法调查200株,得出从播种到开花的平 均天数为70.3天,试比较两种调查方法 所得黑麦从播种到开花的天数有无显著 差别。
1 2
x1 x 2
2 12 2 2
n1
n2
1 1 x1 x2 n1 n2 n1 n2 n
x x
1 2
2 12 2
n
2 n
2 12 2 2 , n1 n2 n
x x
1 2
x x u值的计算公式: 假设H0: 1 2 , u x1 x 2 x x
例1.某鱼场按常规方法所育鲢鱼苗一月龄 的平均体长为7.25cm,标准差为1.58cm, 为提高鱼苗质量,现采用一新方法进行 育苗,一月龄时随机抽取100尾进行测 量,测得其平均体长为7.65cm,试问新 育苗方法与常规方法有误显著差异?
这里 1.58 , 2 为已知,故采用u检验,又新育苗 方法的鱼苗体长可能高于常规方法,也可能低 于常规方法,故进行双侧检验(双尾检验), 检验步骤: 0 7.25cm ,即新育苗方法与 (1)假设H0: 常规方法所育鱼苗一月龄体长相同。对HA:
《统计学原理》第5章:抽样推断
σ
n )
抽样推断的基本原理
抽样推断的优良标准
设θ 为待估计的总体参数, θ为样本统计量,则 θ的优良标 准为: 1若 E(θ ) =θ ,则称 θ为 θ 的无偏估计量(无偏性)
更有效的估计量(有效性) 2若σθ1 < σθ2,则称θ1为比θ2
3若 越大σθ 越小,则称 θ 为θ 的一致估计量(一 致性)
即中选成分相同但中选顺序不同的视为同一样本
抽样推断的一般问题
抽样组织方式
简单随机抽样 类型抽样 整群抽样 等距抽样 多阶段抽样 多重抽样
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示. 考虑顺序的不重复抽样 考虑顺序的重复抽样 不考虑顺序的不重复抽样 不考虑顺序的重复抽样
抽样推断的一般问题
全及总体指标:参数 (未知量) 统计推断 样本总体指标:统计量 (已知量)
抽样推断的一般问题
抽样推断的特点 按随机原则抽取样本 运用概率论的理论和方法,用样本指标来推断 总体指标。 推断的误差可以事先计算和控制。
抽样推断的一般问题
抽样推断的应用 无法或 很难进行全面调查而又需要了解 其全面情况时 某些可以采用全面调查的社会经济现象, 也可采用抽样推断。 可用于生产过程的质量控制 进行假设检验
抽样推断的基本原理
抽样推断的优良标准——有效性 中位数的抽样分布
9 8 7 6 5 4 3 2 1 0 -1 45 50 55 60 65 70 75
平均数的抽样 分布
E(x) =
E ( me ) =
e
σx <σm
抽样推断的基本原理
第五章 统计推断-1
解:
H0:μ=μ0 已知这批动物实际饲养的时间比根据以往 经验所需饲养的时间长的多,因此,μ不可 能小于μ0 (10.00g) H1:μ>μ0 ,为单侧检验
取α=0.05,查表得临界值uα=u0.05=1.645
拒绝域:u>1.645
根据样本计算统计量
x 0 10.23 10.00 u 1.82 / n 0.4 / 10
t检验-2 (t-test for pooled data) 成组设计的两样本均数比较
前提条件:从σi 未知的两个正态或近似 正态总体中,独立地抽取含量分别为n1 和n2的样本
H0:μ1=μ2 H1: 1 2 ,若已知μ1不可能小于μ2 or: 1 2 ,若已知μ1不可能大于μ2 or: 1 2 ,包括μ1>μ2和μ1<μ2
比较:u=0.57<μα ,落入拒绝域外,应在 0.05的显著性水平下接受H0 结论:第一号渔场的马面鲀体长并不显著 高于第二号渔场的
四、t检验(t-test)-1 在σ未知的情况下,单样本均数检验
前提条件:从σ未知的正态或近似正态总 体中,随机抽取含量为n的样本 H0:μ=μ0
H1:
or:
( x x
1
称为平均数差数的标准误差 2)
U检验应用举例2
问题:调查两个不同渔场的马面鲀体长, 每一渔场调查20条。
平均体长分别为 x1 19.8cm, x 2 18.5cm
已知
1 2 7.2cm
问在α=0.05水平上,第一号渔场的马面 鲀体长是否显著高于第二号渔场的马面鲀 体长?
0 ,若已知μ不可能小于μ0
0 ,若已知μ不可能大于μ0
or:
0 ,包括μ>μ0和μ<μ0
计数资料的统计描述与统计推断
2 nnARn2C 1
(一) 多个样本率的比较:
表3.8 三种药物治疗高血压的疗效
处理
有效
无效
合计
有效率%
复方哌唑嗪 35
5
40
87.50
复方降压片 20
10
30
66.67
安慰剂
7
25
32
21.88
合计
62
40
102
60.78
38
H0:三种处理方法的有效率相等, 即π1= π2= π3 H1:三种处理方法的有效率不等或不全相等
某类死因构某 成同 年 比年 某死 类亡 死总 因人 死 1数 亡 0% 0人数
8
(二)疾病统计指标
某 病 发病 一率 定 该时 期期 间内 新可 病 发能 的 生 例发 平 的 数生 均 某 某 人 K病
某病患病率 某该时时点点某受病检现人患口病 K数例数
某
病
病死同 因率期 某某 病
死亡人数 病病 10人 % 0 数
29
31
(三)四格表χ2检验的专用公式
2
(ad b)c2n
(ab)c(d)a (c)b (d)
两组人群尿棕色素阳性率比较
组别
阳性数
阴性数
合计
铅中毒病人 对照组
29(a) 9(c)
7(b) 28(d)
36(a+b) 37(c+d)
合计
38(a+c)
35(b+d)
73(n)
阳性率(%) 80.56 24.32 52.05
712 142 185
61
1100
4
0.6
9
6.3
应用统计学(第五章 统计推断)
检验统计量: χ2 (n 1) s2 σ02
例题5 已知某农田受到重金属污染,抽样测定其镉含量
(μg/g)分别为:3.6、4.2、4.7、4.5、4.2、4.0、3.8、
3.7,试检验污染农田镉含量的方差与正常农田镉含量的方 差0.065是否相同。
解:假设 H0:σ 2 σ02 , H A:σ 2 σ02
P(μ-1.960 σ x ≤ x < μ+1.960 σ x)=0.95
否定区
接受区
否定区
左尾
0.025
μ-1.960σ x
0.95
0.025
0 μ+1.960σ x
右尾
临界值: ± uσ x= ± 1.960σ x
双尾检验 = 0.01
P(μ-2.576 σ x ≤ x < μ+2.576 σ x)=0.99
解: 假设: H0: μ ≤ μ0, HA : μ > μ0 确定显著水平:α=0.05 检验统计量:u x μ0 379.2 377.2 1.818 σ n 3.3 9 u0.05=1.645,计算得:u=1.818>u0.05,P<0.05
推断:否定H0,接受HA。
即:栽培条件的改善,显著提高了豌豆籽粒重量。
4)推断
接受/否定H0(HA,实际意义)
例题1 正常人血钙值服从的正态分布,平均值为2.29 mM,标准差为 0.61mM。现有8名甲状旁腺减退患者经治疗后,测得其血钙值平均为 2.01mM,试检验其血钙值是否正常。
1)提出假设 2)确定显著水平 3)计算概率 4)推断
1)提出假设
H0
零假设 /无效假设
对 /检验假设
第五章假设检验与统计推断
5-9
Types of Hypothesis Tests
5-8
1.Hypothesis Formulation
Null hypothesis, H0 – a statement that is accepted as correct
Alternative hypothesis, H1 – a proposition that must be true if H0 is false
Example: To seek evidence that technical support calls average less than 30 minutes
(Customer Support Survey file), the correct
hypotheses are:
H0: Mean response time ≥ 30 minutes H1: Mean response time < 30 minutes
Chapter 5: Hypothesis Testing and Statistical Inference
5-1
一、假设检验的概念与思想
什么是假设(hypothesis)?
对总体参数的的数值所作 的一种陈述
总体参数包括总体均值、比 例、方差等
分析之前必需陈述
其动机主要是企图利用人们 掌握的反映现实的数据来找 出假设与现实之间的矛盾, 从而否定这个假设
第5章 统计推断
第 5 章 统计推断5.1 统计推断概述统计推断就是利用样本的数据,对总体的数量特征作出具有一定可靠程度的估计和判断。
统计推断的基本内容有参数估计和假设检验两方面。
概括地来讲,参数估计是指研究一个随机变量,推断它的数量特征和变动模式。
而假设检验是检验随机变量的数量特征和变动模式是否符合我们事先所作的假设。
参数估计和假设检验的共同特点是它们对总体都不很了解,都是利用部分样本所提供的信息对总体的数量特征作出估计或判断。
所以,统计推断的过程必定伴有某种程度的不确定性,需要用概率来表示其可靠程度,这是统计推断的一个重要特点。
5.1.1 参数估计参数估计是以样本统计量作为未知总体参数的估计量,并通过对样本各单位的实际观察取得样本数据,计算样本统计量的取值,把它作为总体参数的估计量。
参数估计包括点估计和区间估计。
点估计是直接以样本统计量作为相应总体参数的估计量。
例如,用样本均值作为总体均值的点估计量,用样本方差作为总体方差的点估计量。
点估计的优点在于它能提供总体参数的的具体估计值,可以直接作为决策的数量依据。
但是,点估计事实上几乎不可能做到完全准确,更谈不上有多大的置信度。
而区间估计是估计总体参数以某种概率保证程度(置信度)落入某一区间,这样就有把握多了。
对总体被估计参数θ作区间估计,就是要给出区间的下限1ˆθ和上限2ˆθ,使被估计参数落在(1ˆθ,2ˆθ)内的概率为1α−,即 12ˆˆ()1P θθθα≤≤=− 其中,1α−就是置信度,α被称为显著性水平,如图 5-1。
ˆθ12图 5-1 区间估计在SPSS 中没有专门的参数估计命令。
参数的点估计值可以在Descriptives 命令中得到,例如用统计量mean 作为总体均值的点估计,用统计量variance 作为总体方差的点估计等。
参数的区间估计可以通过Explore 命令得到(参见4.4节的内容),也可以在各种假设检验的过程中可以得到(参见本节后面的内容)。
第五章 统计推断
的重要性而定。 ——如果试验中难以控制的因素较多 , 试验误差可能较 大 ,则显著水平可选低些 ,即α值取大些。反之 ,如 试验耗费较大 , 对精确度的要求较高, 不容许反复 , 或者试验结论的应用事关重大,则所选显著水平应高些, 即α值应该小些。显著水平α对假设检验的结论是有直
接影响的,所以它应在试验开始前即确定下来。
H A:1 ,统计学上把这 2
一检验结果表述为:“两个总体平均数
与 1 差异极显 2
著”,在计算所得的t值的右上方标记“* *”。
这里可以看到 , 是否否定无效 假设 H 0:1 2 ,是用 实际计算出的检验统计量u的绝对值与显著水平α对应的临界u
值 : ua比较。若|u|≥ua,则在α水平上否定
1 2
两种可能。 这个
假设的目的在于判断有无差异, 而不考虑谁大谁
小。 如新品种和老品处两品种的产量,新品种可 能高于老品种, 也可能低于老品种。
第五章 统计推断
第一节
概述
此时,在α水平上 否 定 域 为 ,U 1和 U 2 , ,对称地分 配在 正态曲线的两侧尾部,每侧的概率为α/2,如图所示。这
配套技术的实施使药效有所提高。
第五章 统计推断
第一节
概述
检验的目的在于推断实施新技术是否提高了药效,这时H0的
否定域在正态曲线的右尾。在α水平上否定域为 U 2 , ,右
侧的概率为α,如图4-15A所示。 若无效假设H0为 1 2 ,备择假设 HA为 1 2 ,此 时H0的否定域在正态曲线的左尾。在α水平上,H0的否定域 为,左侧的概率为α。如图4-15B所示。
8mg/L,标准差为2mg/L,服从正态分布。现随机对该排污口 废水取样16次,测定含油浓度,平均值为9mg/L,问该排污口
f第五章 统计推断
【例5.1-1b】
用 实 验 动 物 做 实 验 材 料 , 要 求 动 物 平 均 体 重 μ=10.00g, 若 μ<10.00g需再饲养,若μ>10.00g则应淘汰。已知总体标准差 σ=0.40g。从实验动物群体中,随机抽取含量n=10的样本, 样本平均数y=10.23g。这批动物实际饲养的时间比根据以往 经验所需饲养的时间长。问这批动物能否用于实验。
n 10
若假设成立,则得到实际样本这一事件为小概率事件。 假设不成立,拒绝零假设,接受备择假设。
在假设H0正确的情况下,计算样本实际发 生的概率P,若P>α,接受H0 ;若P<α, 拒绝H0 ,接受HA 。在实际应用时,并 不直接求出具体的概率值,而是建立在α 水平上H0的拒绝域和接受域。
拒绝域(rejection region):在上尾、或下尾、 或双侧检验中,U > uα、或U < -uα、或|U| > uα/2的区域,称为在α水平上H0的拒绝域。 接受域(acceptance region):相应的U < uα, 或U > -uα ,或-uα/2 < U < uα/2的区域,称为 在α水平上H0的接受域。 临界值(critical value):接受域的端点称为 临界值。
用实验动物做实验材料 , 要求动物平均体重 μ=10.00g,若 μ<10.00g需再饲养,若μ>10.00g则应淘汰。已知总体标准 差σ=0.40g。从实验动物群体中,随机抽取含量n=10的样本, 样本平均数y=9.77g。这批动物实际饲养时间比根据以往经 验所需饲养的时间短。问这批动物能否用于实验。
《统计学原理》第5章:抽样推断
n
抽样推断的基本原理
统计推断的理论基础—样本的概率分布
按一定方法随机抽取样本时,所有可能样本的 特征值及其所对应的概率分布情况
学生 A B C D E F G 成绩 30 40 50 60 70 80 90
按随机原则考虑顺序重复抽样抽选出4名学生。
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示.
考虑顺序的不重复抽样 考虑顺序的重复抽样
M N! (N n)!
M Nn
不考虑顺序的不重复抽样 不考虑顺序的重复抽样
M N! n!(N n)!
全及指标与样本指标
•根据全及总体中各单位的标志值或标志属性计算得 来,反映总体某种特征的指标 •根据样本总体中各单位的标志值或标志属性计算得 来的综合指标.
抽样推断的一般问题
抽样方法
•重复抽样和不重复抽样
•考虑顺序的抽样和不考虑顺序的抽样
抽样推断的一般问题
抽样方法—重复抽样
从总体N个单位中随机抽取一个容量为n的样本,每 次抽取一个单位,把结果登记后再放回到总体中,重新 参加下一次的抽取.
抽出个体
登记特征
放回总体
继续抽取
抽样推断的一般问题
抽样方法—不重复抽样
从总体N个单位中随机抽取一个容量为n的样本, 每次抽取一个单位,把结果登记后不再放回到 总体参加下一次的抽取.
抽出 个体
登记 特征
继续 抽取
抽样推断的一般问题
抽样方法—考虑顺序的抽样
从总体N个单位中抽取n个单位构成样本,不但考虑样本 各单位成分的不同,而且还要考虑样本各单位的中选顺 序.
第五章 统计推断
2019/4/2
22
本章习题
3. 某种产品生产过程设计规格为每批平均生产 120 个,超过或低于这个标准都是不合理的。有10批 产品组成的样本中,每批生产的产品数量如下: 108 118 120 122 119 113 124 122 120 123。 检验样本结果能否表示该生产过程运作正常? (假定总体服从正态分布,α=0.05。)
6
1、假设检验问题
【例5.1】 在超市上出售的某种品牌方便面,按规定每
包净重少于 100 克的比例不得超过 1%。技术监督部门 从某超市的货架上任意抽取 200包该种品牌的方便面, 经检验发现有 3包(1.5%)重量少于 100克,试问:超 市出售的这种方便面是否符合质量标准?
在本例中,超市上出售的这种方便面的不合格率是未 知的,我们关心的问题是:如何根据这 200 包方便面 (样本)的不合格率 p=1.5% 来判断超市上出售的这种 品牌的方便面(总体)的不合格率 P≤1% 是否成立?
并非因为它存在逻辑的绝对错误,只是因为它存
在的可能性很小。
2019/4/2 14
6、假设检验的一般步骤
( 1 )根据所研究的问题,提出原假设 H0 和备择 假设H1;
(2)构造检验统计量;
( 3 )计算检验统计量的值和检验统计量观测值 发生的概率; (4)给定显著性水平α(即发生第一类错误的最 大允许概率),并做出统计决策。
2019/4/2
15
5.2 单样本 t 检验
单样本的 T 检验,是一个正态总体在方差未知时,总体 均值与某一已知数是否有显著性差异的假设检验;检验 统计量为(该统计量服从自由度为n-1的t分布):
t
x 0 s/ n
x 0
第五章 统计推断
为研究电渗处理对草莓果实中钙离子含量的影响, 选用10个草莓品种来进行电渗处理与对照的对比试验, 结果如下,问电渗处理对草莓钙离子含量是否有影响?
电渗处理草莓果实钙离子含量
品种号
1
2
3
4
5
6
7
8
910电渗ຫໍສະໝຸດ 理22.2323.42
23.25
21.38
24.45
22.42
24.37
21.75
19.82
三,假设测验的基本方法 ①对所研究的总体首先提出一个无效假设 ②规定测验的显著水平α(一般α=0.05有时α=0.01) ③在承认上述无效假设正确的前提下,获得平均数的抽样分布,计 算假设正确的概率 ④根据"小概率事件实际上不可能发生"的原理接受或否定无效假 设 如小麦品种 旧品种:0=300kg/亩 σ=75kg 新品种:1=330kg/亩 y=330kg 第一步:首先提出假设: HA:1≠0 第二步:平均数的抽样分布,计算概率: = 15 ( kg ) σ y = σ / n = 75 / 25 样本容量n=25 H0:1=0=300kg
135.2
135.2
133.5
(二),成对资料平均数的假设测验
若试验设计是将性质相同 若试验设计是将性质相同的两个供试单位配成一对, 性质相同的两个供试单位配成一对 配成一对, 并设多个配对,然后对每一配对的两个供试单位分别随机 成对数据. 地给予不同处理,所得的观察值为成对数据 地给予不同处理,所得的观察值为成对数据.
1.提出假设.H0:1-2=0,即两条生产线的平均日产量无显著 差异.对HA:1-2≠0,即两条生产线上的平均日产量有显著差 异. 2.确定显著水平.α=0.01. .确定显著水平.α 0.01. 3.检验计算. y1 = 65 . 83 S 2 = 59.7299 y 2 = 59 .77 S 2 2 = 42.8747
第五章 统计推断5-2 - 新
第五章 统计推断统计推断的意义和内容统计推断是据统计数的分布和概率理论,由样本统计数推论总体参数的方法。
先根据试验目的,对试验总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的估算,做出在概率意义上应接受那种假设的推断。
由于种测验首先对总体提出假设又叫统计假设测验。
统计推断的前提条件:资料必须来自随机样本;统计数的分布规律必须已知。
&5.1 统计假设测验概述统计假设:在科学研究中,往往首先要提出一个有关某一总体参数的假设。
这种假设称为统计假设。
一、数据结构从服从正态分布N(μ0=300,σ=75)的原品种总体中,随机抽取n 个个体构成样本,则样本观察值可表示为 xi = μ0 + εi (i=1,2 ,… ,n)而从新品系总体中随机抽取的样本观察值,则为 xi = μ + εi (i=1,2 ,… ,n) (5.2) 新品系与原品种的产量差异为τ = μ - μ0 (5.3) 将(5.3)代入(5.2)得xi = μ0 + τ + εi (i=1,2 ,… ,n) (5.4) 二、统计假设测验的基本原理 对一个样本的n 个观察值xi 求平均数因x i = μ0 + τ + εi (i=1,2 ,… ,n)iix x εμμμετμ+-=-++=∴)()(0上式说明,x 与 μ0的表面差异(x - μ0)是由真实差异(μ- μ0 )和试验误差εi 构成。
小机率原理:概率很小的事件,在一次试验中是不至于发生的。
统计假设测验:是指据某种需要,对末知的或不完全清楚的总体提出一些假设,由样本实际结果经过一定的概率测验,作出接受或否定假设的推论。
三、统计假设测验的基本步骤例5.1 设某地区的当地小麦品种一般亩产300kg ,多年种植结果获得标准差为75kg 。
现有某新品种n=25,平均数330kg ,问新品种样本所属总体与当地品种这个总体是否差异显著。
第一步 统计假设H0:0μμ=第二步 计算统计量225/75300330/0=-=-=n x u σμu=2> u0.05=1.96,即对应的概率p <0.05。
第五章 统计推断(3)
2.在总体方差σ2未知,又是小样本时 x 2 2
服
s/ n 从ν=n-1的t分布,因而需用tα取代uα得μ的
t sx ,μ+ t sx t sx t sx
]
(5.22)
[例5.15]
试估计例5.2资料,玉米新品种百粒重的总体 平均数μ的95%置信区间。 =33.67(g),sx =0.5453(g)
计也能对总体分布的未知参数作出推断。 参数估计可分为(点估计 ) 和(区间估计)。 点估计是以样本的统计数直接估计总体的相应 参数,例如:以
x
估计μ,以s2估计σ2等。
但
x
、s2 等统计数来自样本,由于抽样误
差,不同样本将有不同的
x
、s2值,那么哪一
个 x 、s2最能代表μ、σ2呢?
这是难以判断的。因此有必要根据统计数的
二、两总体平均数差数(μ1-μ2)的区间估计
这是在一定的置信度下,估计两总体平均数μ1
和μ2差值大小的分布区间。 (一)在两总体方差已知或未知但为大样本时,
由5.19式可得μ1-μ2的1-α置信区间为
[ x1 x2 u x x , x1 x2 u x x ]
计的置信度为99%。
(二)在两总体方差为未知、小样本时
(1)两总体方差相等,即σ12 =σ22=σ2,根 据(5.19)式可得μ1-μ2的1-α置信区间为:
由(5.3)和(5.4)式计算,置信限为 (5.25)
[例5.17]
试估计例5.4资料种植在两个地区的某小麦品种 的蛋白质含量相差在置信度为95%时的置信区间。 已算得χ1=12.74(%),χ2=13.03(%),
1 2 1 2
第五章 统计推断 《统计学》 ppt课件
少抽些样本单位,Δ值小则要多抽一些样本单位。Δ是调查 前规定的,是根据调查目的确定的。 (3)概率度t 。t值愈大,要求把握程度愈高,则要多抽 些单位;t值愈小,要求把握程度低,则可少抽些单位。把 握程度也是在抽样之前根据抽样的目的和要求来规定的。 (4)抽样方法。在同等条件下,重置抽样需要多抽一些单 位,不重置抽样可少抽一些样本单位。 (5)抽样的组织方式。简单随机抽样,类型随机抽样, 等距随机抽样,整群随机抽样,阶段随机抽样等都是抽样 的组织方式,由于采用的组织方式不同,必要抽样数目也 不相同。
二、统计推断的几个基本概念
1.总体和样本 在统计推断中存在全及总体和样本总体。
全及总体也叫母体,简称总体,是所要认识的研究对象的 全体,它由具有某种共同性质或特征的单位组成。全及总 体的单位数用N表示。
全及总体按其各单位标志的性质不同可分为变量总体和 属性总体。
样本总体又叫抽样总体、子样,简称样本,是从全及总 体中随机抽选出来的单位所组成的小总体。
样本平均数的抽样分布是由样本平均数的可能取值和与 之相应的概率组成。
例5.3
在不重复抽样时,样本平均数的抽样分布有数学期望
E(x) a
即样本平均数的平均数等于总体平均数
X
在不重复简单随机抽样时,样本平均数的抽样分布有方 差,即
2 x
2
n
(
N N
n) 1
在不重复抽样条件下,用
x
表示抽样平均误差(也称抽样标准误差),则
(
方差σ2 )。
设总体N个单位中,有N1个单位具有某种属性,N0个单 位不具有某种属性,且N1十N0=N ,则: P N1 N
第05章统计推断
第五章 统计推断
§5.1 单个样本的统计假设检验
例5.4 已知豌豆籽粒重量(mg)服从正态分布N(377.2,3.32)。在
改善栽培条件后,随机抽取9粒,其籽粒平均重 x =379.2,若标
准差仍为3.3,问改善栽培条件是否显著提高了豌豆籽粒重量?
解:假设H0:μ=μ0 (377.2)
HA:μ>μ0 (377.2)
即第一号渔场的马面鲀体长并不比第二号渔场的长。
第五章 统计推断
§5.2 两个样本差异的显著性检验
5.2.3+5.2.4 标准差(σi)未知时两个独立样本差异显著性的t-检验 两检个验独的立程样序本:——不同属性的样本或同一属性不同量级的样本。 第一步: 用 F 检验也进就行是方方差差齐分性析检中验的“固定因素” 。 齐第(性二1)t方时步检零差用:验假间方用的设差差方tH检异相差0:验不等齐μ做显的性1=平著统检μ均为计2验数齐量中差性,,异,非Fd显差齐f1,d著异性f2,性α显时,检著用df验为方1为非差第齐不一性等样。的本统自计由量度。,
解释: x2< x2 0.05,接受H0; x2 > x2 0.05,拒绝H0 ② x2 < x21-α ③ x2 < x21-α/2和x2 > x2α/2
第五章 统计推断
§5.1 单个样本的统计假设检验
例5.6 一个混杂的小麦品种,株高标准差σ0=14cm,经提纯后随 机抽出10株,它们的株高为90、105、101、95、100、100、101
绝域进行判定。对于单纯的零假设:统计量计算值<统计
量临界值,即P>0.05,接受假设;统计量计算值>统计量临
界值,即P<0.05,拒绝假设。
第五章 统计推断
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 检验统计量的基本形式为 X 0 Z n
规定显著性水平
(significant level) • 什么显著性水平? • 1. 是一个概率值
• 2. 原假设为真时,拒绝原假设的概率
– 被称为抽样分布的拒绝域
• 3. 表示为 (alpha)
– 常用的 值有0.01, 0.05, 0.10
拒绝 H0
.025
结论:
有证据表明新机床加工的零件 的椭圆度与以前有显著差异。
-1.96
0
1.96
Z
2 已知小样本均值的检验
(例题分析)
•【例】 根据过去大量资料,
某厂生产的分光光度计的使 用寿命服从正态分布 N~(1020 , 1002) 。现从最近生产的一批 产品中随机抽取 16 台,测得 样本平均寿命为 1080 小时。 试在0.05的显著性水平下判断 这批产品的使用寿命是否有 显著提高?(=0.05)
• 4. 由研究者事先确定
作出统计决策
1. 计算检验的统计量 2. 根据给定的显著性水平,查表得出相应 的临界值z或z/2, t或t/2 3. 将检验统计量的值与 水平的临界值进 行比较 4. 得出拒绝或不拒绝原假设的结论
抽样分布
拒绝域 /2 临界值 置信水平 拒绝域
1-
H0值 临界值
假设检验的基本思想
提出假设 作出决策
拒绝假设! 别无选择.
总体
我认为人口的平 均年龄是50岁
抽取随机样本
均值 X = 20
看由样本算出的分位数值与理论分布 上的均值是不是足够接近。
抽样分布
这个值不像我 们应该得到的 样本均值 ...
... 因此我们拒 绝假设 = 50
... 如果这是总 体的真实均值 20
= 50 H0
样本均值
二、假设检验的步骤
提出假设 确定适当的检验统计量 规定显著性水平 计算检验统计量的值 作出统计决策
提出原假设和备择假设
• 1. 2. 3. 4. 什么是原假设?(null hypothesis) 0 待检验的假设,又称“0假设” 为什么叫 假设? 研究者想收集证据予以反对的假设 总是有等号 , 或 表示为 H0
–
– –
H0: 某一数值 指定为 = 号,即 或 例如, H0: 3190(克)
提出原假设和备择假设
• 什么是备择假设?(alternative hypothesis) 1. 与原假设对立的假设,也称“研究假设” 2. 研究者想收集证据予以支持的假设总是有不 等号: , 或
H0 检验 决策 接受H0
实际情况
H0本为真 H0本为假 第二类错误()
正确决策 (1 – )
拒绝H0
抽样分布
正确决策 第一类错误() (1-) 置信水平 拒绝 1- H0值
1临界值1 2临界值2
不拒绝
计算出的样本统计量
影响 错误的因素
• 1. 总体参数的真值
– 假设的总体参数越小,越易犯 错误
3. 表示为 H1
– –
H1: <某一数值,或 某一数值 例如, H1: < 3910(克),或 3910(克)
确定适当的检验统计量(根据理论分布定)
•
•
什么检验统计量?
1.用于假设检验决策的统计量
•
2.选择统计量的方法与参数估计相同,需考虑
– – 是大样本还是小样本 总体方差已知还是未知
/2 样本统计量
假设检验中的小概率原理
假设检验中的小概率原理
• 什么小概率? • 1. 在一次试验中,一个几乎不可能发生 的事件发生的概率; • 2. 在一次试验中小概率事件一旦发生, 我们就有理由拒绝原假设; • 3. 小概率由研究者事先确定.
什么是小 概率?
三、双侧检验与单侧检验
(假设的形式)
– 我们想要证明(检验)大于或小于这两种可能性 中的任何一种是否成立
4. 建立的原假设与备择假设应为 • H0: 10 H1: 10
双侧检验
(显著性水平与拒绝域 )
抽样分布
拒绝域 /2 1- 置信水平 拒绝域 /2
双侧检验
= 0 ≠0
临界值
H0值
临界值
样本统计量
双侧检验
学习目标
1. 了解假设检验的基本思想、掌握假设检验的 步骤 2. 掌握对方差进行同质性检验的方法 3. 掌握样本均数和频率的假设检验方法 4. 掌握适合及独立性 X2 检验的方法 5. 掌握参数的区间估计与点估计的方法
§5.1 假设检验的原理与方法
一、假设检验的概念与思想
二、假设检验的步骤 三、双尾检验与单尾检验 四、假设检验中的两类错误
• 2. 显著性水平
当 减少时增大
• 3. 总体标准差
当 增大时增大
• 4. 样本容量 n
– 当 n 减少时增大
错误( 取值偏大)和 错误 ( 取值偏小)的关系
和的关系就像 翘翘板,小就 大, 大就小
你不能同时减少两类 错误!
增加样本容量,减少 标准误。
一、假设检验的概念与思想
什么是假设?
(hypothesis)
• 对总体参数的的数值 所作的一种陈述
– 总体参数包括总体均值、 比例、方差等
– 分析之前必需陈述
我认为午餐是可以免费 的!
什么是假设检验?
(hypothesis testing)
1. 事先对总体参数或分布形式作出某种假设,然 后利用样本信息来判断原假设是否成立; 2. 分参数假设检验和非参数假设检验; 3. 采用逻辑上的反证法,依据统计上的小概率原 理。
临界值
H0值
临界值
样本统计量
单侧检验
(原假设与备择假设的确定)
1. 将研究者想收集证据予以支持的假设作为备择 假设H1
例如,一个研究者总是想证明自己的研究结论是正 确的 一个销售商总是想正确供货商的说法是不正确的 备择假设的方向与想要证明其正确性的方向一致
2. 将研究者想收集证据证明其不正确的假设作为 原假设H0 3. 先确立备择假设H1
2. 使用Z-统计量
2
X 0
2
未知: Z
X 0 S n
n
~ N (0,1) ~ N (0,1)
2 已知均值的检验
(例题分析)
•【例】某机床厂加工一种零件,根 据经验知道,该厂加工零件的椭圆 度近似服从正态分布,其总体均值 为 0=0.081mm , 总 体 标 准 差 为 = 0.025 。今换一种新机床进行加工, 抽取n=200个零件进行检验,得到的 椭圆度为0.076mm。试问新机床加工 零件的椭圆度的均值与以前有无显 著差异?(=0.05)
研究的问题 假设 双侧检验
H0
H1
左侧检验
右侧检验
= 0
≠0
0
< 0
0
> 0
双侧检验
(原假设与备择假设的确定)
1. 属于决策中的假设检验 2. 不论是拒绝 H0 还是不拒绝 H0 ,都必需采取 相应的行动措施 3. 例如,某种零件的尺寸,要求其平均长度为 10cm,大于或小于10cm均属于不合格
单侧检验
(原假设与备择假设的确定)
某灯泡制造商声称,该企业所生产的灯泡 的平均使用寿命在 1000 小时以上。如果你 准备进一批货,怎样进行检验
检验权在销售商一方 作为销售商,你总是想收集证据证明生产商 的说法(寿命在1000小时以上)是不是正确的 – 备择假设的方向为“ <”( 寿命不足 1000 小 时) 建立的原假设与备择假设应为 H0: 1000 H1: 1000
(显著性水平与拒绝域)
抽样分布
拒绝域 /2 置信水平
拒绝域 1- /2
临界值
H0值
临界值
样本统计量
双侧检验
(显著性水平与拒绝域)
抽样分布
拒绝域 /2 1- 置信水平 拒绝域
/2
临界值
H0值
临界值
样本统计量
双侧检验
(显著性水平与拒绝域)
抽样分布
拒绝域 /2 1- 置信水平 拒绝域 /2
单侧检验
(原假设与备择假设的确定)
一项研究表明,采用新技术生产后,将 会使产品的使用寿命明显延长到 1500 小 时以上。检验这一结论是否成立
– 研究者总是想证明自己的研究结论(寿命延 长)是正确的
– 备择假设的方向为“>”(寿命延长) – 建立的原假设与备择假设应为
•
H0: 1500
(检验统计量)
是
总体 是否已知 ?
否
小 样本容量 n
用样本标 准差S代替
大
z 检验
z 检验
t 检验
Z
X 0
n
Z
X 0 S n
t
X 0 S n
一、2 已知或2未知大样本均值的检验
• 1.
– –
假定条件
总体服从正态分布 若不服从正态分布, 可用正态分布来近似 (n30) 已知: Z
单侧检验
2 已知小样本均值的检验
(例题分析)
•H0: 1020 •H1: > 1020 = 0.05 •n = 16 •临界值(s):
拒绝域 0.05
检验统计量:
x 0 1080 1020 z 2.4 n 100 14
H1: 1500
单侧检验
(原假设与备择假设的确定)
一项研究表明,改进生产工艺后,会使 产品的废品率降低到2%以下。检验这一 结论是否成立
– 研究者总是想证明自己的研究结论(废品率 降低)是正确的