应用统计学(第五章 统计推断)

合集下载

统计推断的主要内容

统计推断的主要内容

统计推断的主要内容统计推断是统计学的一个重要分支,通常用来对未知参数做出推断,或实证研究中应用。

统计推断是统计学试验设计、实践和分析的重要部分,可以拓宽分析数据的内容范围,从而发现统计模型中可能错误的假设,揭示统计模型中可能忽视的问题和改善模型的方法。

统计推断主要包括参数估计和假设检验两个方面。

参数估计是指从样本数据中推断未知参数,以估计总体参数值的一种方法;假设检验是指从样本数据中检验给定假设,以考察总体参数是否符合预定假设的方法。

因为统计推断需要在统计学试验设计、实践和分析的基础上进行,所以统计推断的前提非常重要。

首先,必须选择一个合适的实证研究设计,使研究结果具有统计学意义;其次,必须准备足够的实证研究材料,使研究有效;最后,必须选择恰当的统计方法和统计分析技术,使研究结果具有可靠性和有效性。

对参数估计来说,最常用的统计推断方法是最大似然估计法、最小二乘估计法以及贝叶斯估计法。

最大似然估计法是由统计学家R.A.Fisher 1920年提出的,它将已知的总体参数数量限为最小,从而使样本数据更能代表总体参数;最小二乘估计法是由统计学家K.Pearson 1909年提出的,它是根据最小均方误差来估计未知参数;贝叶斯估计法是由统计学家T.Bayes 1763年提出的,它是根据贝叶斯定理,采用概率的方法来估计未知参数。

假设检验主要包括比例检验、均数检验和统计量检验三类。

比例检验是指在总体比例已知的情况下检验样本比例是否和总体比例相符;均数检验是指检验样本均值是否等于给定的总体均值;统计量检验是指在总体分布已知的情况下检验样本统计量是否符合预期的检验方法。

统计推断也可以应用于变量分析,其中包括线性分析,系数分析,因子分析等。

线性分析是指运用统计推断方法,从多变量中找出影响变量间相关关系的主成分;系数分析是指用数学模型从多变量中分解出各变量之间的相互关系;因子分析是指按照变量间相关关系计算出变量组中的主要因素,以及每个因素包含的变量。

统计学第五章课后题及答案解析

统计学第五章课后题及答案解析

第五章一、单项选择题1.抽样推断的目的在于()A.对样本进行全面调查 B.了解样本的基本情况C.了解总体的基本情况 D.推断总体指标2.在重复抽样条件下纯随机抽样的平均误差取决于( )A.样本单位数 B.总体方差C.抽样比例 D.样本单位数和总体方差3.根据重复抽样的资料,一年级优秀生比重为10%,二年级为20%,若抽样人数相等时,优秀生比重的抽样误差()A.一年级较大 B.二年级较大C.误差相同 D.无法判断4.用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将()A.高估误差 B.低估误差C.恰好相等 D.高估或低估5.在其他条件不变的情况下,如果允许误差缩小为原来的1/2,则样本容量()A.扩大到原来的2倍 B.扩大到原来的4倍C.缩小到原来的1/4 D.缩小到原来的1/26.当总体单位不很多且差异较小时宜采用()A.整群抽样 B.纯随机抽样C.分层抽样 D.等距抽样7.在分层抽样中影响抽样平均误差的方差是()A.层间方差 B.层内方差C.总方差 D.允许误差二、多项选择题1.抽样推断的特点有( )A.建立在随机抽样原则基础上 B.深入研究复杂的专门问题C.用样本指标来推断总体指标 D.抽样误差可以事先计算E.抽样误差可以事先控制2.影响抽样误差的因素有()A.样本容量的大小 B.是有限总体还是无限总体C.总体单位的标志变动度 D.抽样方法E.抽样组织方式3.抽样方法根据取样的方式不同分为( )A.重复抽样 B.等距抽样 C.整群抽样D.分层抽样 E.不重复抽样4.抽样推断的优良标准是( )A.无偏性 B.同质性 C.一致性D.随机性 E.有效性5.影响必要样本容量的主要因素有( )A.总体方差的大小 B.抽样方法C.抽样组织方式 D.允许误差范围大小E.要求的概率保证程度6.参数估计的三项基本要素有( )A.估计值 B.极限误差C.估计的优良标准 D.概率保证程度E.显著性水平7.分层抽样中分层的原则是( )A.尽量缩小层内方差 B.尽量扩大层内方差C.层量扩大层间方差 D.尽量缩小层间方差E.便于样本单位的抽取三、填空题1.抽样推断和全面调查结合运用,既实现了调查资料的_______性,又保证于调查资料的_______性。

《统计学原理》第5章:抽样推断

《统计学原理》第5章:抽样推断

σ
n )
抽样推断的基本原理
抽样推断的优良标准
设θ 为待估计的总体参数, θ为样本统计量,则 θ的优良标 准为: 1若 E(θ ) =θ ,则称 θ为 θ 的无偏估计量(无偏性)
更有效的估计量(有效性) 2若σθ1 < σθ2,则称θ1为比θ2
3若 越大σθ 越小,则称 θ 为θ 的一致估计量(一 致性)
即中选成分相同但中选顺序不同的视为同一样本
抽样推断的一般问题
抽样组织方式
简单随机抽样 类型抽样 整群抽样 等距抽样 多阶段抽样 多重抽样
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示. 考虑顺序的不重复抽样 考虑顺序的重复抽样 不考虑顺序的不重复抽样 不考虑顺序的重复抽样
抽样推断的一般问题
全及总体指标:参数 (未知量) 统计推断 样本总体指标:统计量 (已知量)
抽样推断的一般问题
抽样推断的特点 按随机原则抽取样本 运用概率论的理论和方法,用样本指标来推断 总体指标。 推断的误差可以事先计算和控制。
抽样推断的一般问题
抽样推断的应用 无法或 很难进行全面调查而又需要了解 其全面情况时 某些可以采用全面调查的社会经济现象, 也可采用抽样推断。 可用于生产过程的质量控制 进行假设检验
抽样推断的基本原理
抽样推断的优良标准——有效性 中位数的抽样分布
9 8 7 6 5 4 3 2 1 0 -1 45 50 55 60 65 70 75
平均数的抽样 分布
E(x) =
E ( me ) =
e
σx <σm
抽样推断的基本原理

统计学中的统计推断与统计估计

统计学中的统计推断与统计估计

统计学中的统计推断与统计估计统计学是一门研究数据收集、分析和解释的学科,它在各个领域的研究中发挥着重要的作用。

在统计学中,我们常使用统计推断和统计估计来推断总体参数和估计未知参数。

本文将深入探讨统计推断和统计估计的概念、方法和应用。

一、统计推断统计推断是指基于样本数据对总体特征进行推断的过程。

它主要通过分析样本数据来推断总体的未知参数,并给出相应的概率推断,以判断我们对总体的假设是否合理。

统计推断主要分为参数估计和假设检验两个方面。

1. 参数估计参数估计是统计推断的一个重要方法,它的目的是利用样本数据估计总体参数的值。

在统计学中,常用的参数估计方法有点估计和区间估计。

点估计是通过样本数据计算得到总体参数的一个单一估计值。

常用的点估计方法有最大似然估计和矩估计。

最大似然估计是选择能使观察到的样本数据发生概率最大的参数值作为估计值。

矩估计是利用样本矩和总体矩的对应关系得到参数估计值。

区间估计是指在给定置信水平下,通过样本数据给出一个总体参数的估计区间。

估计区间由一个下限和一个上限构成,称为置信区间。

置信水平通常选择为95%或99%。

区间估计的方法主要有正态分布的置信区间估计和大样本的置信区间估计。

2. 假设检验假设检验是统计推断的另一种重要方法,它是通过对样本数据进行统计量计算,然后根据统计量的分布情况判断总体参数是否满足我们的假设。

假设检验分为单样本假设检验、两样本假设检验和多样本假设检验。

单样本假设检验是将样本数据与总体参数进行比较,判断总体参数是否等于某个特定值。

两样本假设检验是将两个样本数据进行比较,判断两个总体参数是否相等。

多样本假设检验是将多个样本数据进行比较,判断多个总体参数是否相等。

二、统计估计统计估计是对总体参数进行估计的过程,它旨在利用样本数据来估计总体的未知参数,并给出相应的可信区间。

1. 点估计点估计是统计估计的一种方法,它通过样本数据估计总体参数的一个具体值。

点估计方法包括最大似然估计和矩估计。

第五章 统计推断-1

第五章  统计推断-1

解:
H0:μ=μ0 已知这批动物实际饲养的时间比根据以往 经验所需饲养的时间长的多,因此,μ不可 能小于μ0 (10.00g) H1:μ>μ0 ,为单侧检验
取α=0.05,查表得临界值uα=u0.05=1.645
拒绝域:u>1.645
根据样本计算统计量
x 0 10.23 10.00 u 1.82 / n 0.4 / 10
t检验-2 (t-test for pooled data) 成组设计的两样本均数比较
前提条件:从σi 未知的两个正态或近似 正态总体中,独立地抽取含量分别为n1 和n2的样本
H0:μ1=μ2 H1: 1 2 ,若已知μ1不可能小于μ2 or: 1 2 ,若已知μ1不可能大于μ2 or: 1 2 ,包括μ1>μ2和μ1<μ2
比较:u=0.57<μα ,落入拒绝域外,应在 0.05的显著性水平下接受H0 结论:第一号渔场的马面鲀体长并不显著 高于第二号渔场的
四、t检验(t-test)-1 在σ未知的情况下,单样本均数检验
前提条件:从σ未知的正态或近似正态总 体中,随机抽取含量为n的样本 H0:μ=μ0
H1:
or:
( x x
1
称为平均数差数的标准误差 2)
U检验应用举例2
问题:调查两个不同渔场的马面鲀体长, 每一渔场调查20条。
平均体长分别为 x1 19.8cm, x 2 18.5cm
已知
1 2 7.2cm
问在α=0.05水平上,第一号渔场的马面 鲀体长是否显著高于第二号渔场的马面鲀 体长?
0 ,若已知μ不可能小于μ0
0 ,若已知μ不可能大于μ0
or:
0 ,包括μ>μ0和μ<μ0

统计推断的应用

统计推断的应用

统计推断的应用统计推断是一种重要的统计学方法,通过对样本数据的分析和推理,来对总体特征做出推断和估计。

统计推断的应用涵盖了各个领域,如经济学、社会学、医学等。

本文将介绍统计推断的基本概念、应用范围以及其在实际问题中的应用。

一、统计推断的基本概念统计推断是通过对样本数据的统计分析和推理,对总体进行推断和估计的方法。

它基于概率论和数理统计的理论基础,通过对样本数据的分析,得到对总体参数的估计值,并通过概率的方法来评估这些估计值的可靠性。

统计推断主要包括两个方面的内容,即参数估计和假设检验。

参数估计是通过样本数据对总体参数进行估计,常用的参数估计方法有点估计和区间估计。

假设检验则是通过对样本数据的分析,对总体参数的某个假设进行检验,以确定是否拒绝该假设。

二、统计推断的应用范围统计推断的应用范围非常广泛,几乎涵盖了所有领域。

下面以几个典型的领域为例,介绍统计推断在实际问题中的应用。

1. 经济学领域统计推断在经济学领域起到了重要的作用。

例如,通过对采样数据的分析,可以对某个国家或地区的经济增长率进行估计,并评估其估计值的置信区间。

另外,通过对市场调查数据的分析,可以对某个产品的市场需求量进行估计,从而指导企业的生产和经营决策。

2. 医学领域统计推断在医学领域的应用也非常广泛。

例如,在药物临床试验中,通过对试验数据的统计分析,可以评估新药的疗效及其不良反应的风险,并判断新药是否具有临床应用的价值。

此外,通过对流行病学调查数据的分析,可以对某种疾病的患病率进行估计,并确定其与各种危险因素之间的关系。

3. 环境科学领域统计推断在环境科学领域的应用主要体现在环境监测和评估方面。

例如,通过对大气、水体和土壤样本数据的分析,可以对某个地区的环境质量进行评估,并对污染源的排放量进行估计。

此外,通过对环境调查数据的统计分析,可以对某种有害物质的迁移和转化规律进行推断,为环境污染治理提供科学依据。

三、统计推断的实际应用举例为了更直观地理解统计推断在实际问题中的应用,以下举两个具体例子。

f第五章 统计推断

f第五章 统计推断
双侧检验:在拒绝H0之后,接受HA:μ≠μ0 的检验称为双侧检验。 由专业知识确定单、双侧检验。
【例5.1-1b】
用 实 验 动 物 做 实 验 材 料 , 要 求 动 物 平 均 体 重 μ=10.00g, 若 μ<10.00g需再饲养,若μ>10.00g则应淘汰。已知总体标准差 σ=0.40g。从实验动物群体中,随机抽取含量n=10的样本, 样本平均数y=10.23g。这批动物实际饲养的时间比根据以往 经验所需饲养的时间长。问这批动物能否用于实验。
n 10
若假设成立,则得到实际样本这一事件为小概率事件。 假设不成立,拒绝零假设,接受备择假设。
在假设H0正确的情况下,计算样本实际发 生的概率P,若P>α,接受H0 ;若P<α, 拒绝H0 ,接受HA 。在实际应用时,并 不直接求出具体的概率值,而是建立在α 水平上H0的拒绝域和接受域。
拒绝域(rejection region):在上尾、或下尾、 或双侧检验中,U > uα、或U < -uα、或|U| > uα/2的区域,称为在α水平上H0的拒绝域。 接受域(acceptance region):相应的U < uα, 或U > -uα ,或-uα/2 < U < uα/2的区域,称为 在α水平上H0的接受域。 临界值(critical value):接受域的端点称为 临界值。
用实验动物做实验材料 , 要求动物平均体重 μ=10.00g,若 μ<10.00g需再饲养,若μ>10.00g则应淘汰。已知总体标准 差σ=0.40g。从实验动物群体中,随机抽取含量n=10的样本, 样本平均数y=9.77g。这批动物实际饲养时间比根据以往经 验所需饲养的时间短。问这批动物能否用于实验。

统计学05第五章抽样推断

统计学05第五章抽样推断

布来计算。
0
2019/11/22
第五章 抽样推断
40
2.3 区间估计
【例 5-4】 从某校学生中随机抽取 25人,调查到他们平均每天参加体育 锻炼的时间为25分钟,标准差为8分 钟。试以95%的置信水平估计该校学 生平均每天参加体育锻炼的时间。
2019/11/22
第五章 抽样推断
41
2.3 区间估计
Z~N ( 0, 1 )
Z
S
μ
ΔΔ
X X X
Z 0 Z
2019/11/22
第五章 抽样推断
31
2.3 区间估计
二 总体平均数的区间估计:
X : FZ 1
Δ
FZ , Z FZ Z

Δ
x
x x
2019/11/22
第五章 抽样推断
总体参数和样本统计量的计算公式
总体参数
样本统计量
X X1 X2 XN N
x x1 x2 xn n
P N1 N
p n1 n
X X X 2 N
S x x-x 2 n1
P P 1 P
p p 1 p
t X : x ,x
2019/11/22
第五章 抽样推断
39
2.3 区间估计
正态分布与 t 分布的比较
t 分布的应用
当 n 大,
N0, 1
S x自实由际 度 参数大估计中,当样本 t 分容布量大N 0于,13 0时,总体均值的
区t 间 0估 , σ 2计ν通 常还是用正态分
0.15
X : 4 0.45, 4 0.45 3.55, 4.45小时

统计学中的统计推断方法

统计学中的统计推断方法

统计学中的统计推断方法统计学是一门研究数据收集、分析和解释的学科,而统计推断方法则是统计学中的一项重要技术。

统计推断方法通过从样本数据中得出总体特征的估计值,并评估这些估计值的准确性和可靠性。

在本文中,我们将探讨统计推断方法的几个重要方面。

一、抽样方法在统计推断中,抽样方法是至关重要的。

抽样是从总体中选择一部分个体进行研究的过程。

合理的抽样方法可以确保样本具有代表性,从而使得对总体特征的估计更加准确。

常见的抽样方法包括简单随机抽样、分层抽样和系统抽样等。

不同的抽样方法适用于不同的研究场景,研究者需要根据具体情况选择合适的抽样方法。

二、参数估计参数估计是统计推断中的关键环节。

在参数估计中,我们根据样本数据来估计总体的某个特征。

常见的参数估计方法包括点估计和区间估计。

点估计是通过样本数据计算出一个数值作为总体特征的估计值,例如平均值或比例。

区间估计则是给出一个区间,该区间包含了总体特征的真实值的可能范围。

参数估计的准确性和可靠性取决于样本的大小和抽样方法的选择。

三、假设检验假设检验是统计推断中的另一个重要方面。

在假设检验中,我们根据样本数据对总体特征的某个假设进行推断。

假设检验分为单侧检验和双侧检验。

单侧检验用于检验总体特征是否大于或小于某个特定值,而双侧检验用于检验总体特征是否等于某个特定值。

在进行假设检验时,我们需要设置显著性水平,该水平表示我们能够接受犯错的概率。

常见的假设检验方法包括t检验、F检验和卡方检验等。

四、置信区间置信区间是统计推断中的一个重要概念。

置信区间是对总体特征的估计范围的一种度量。

置信区间通常由一个下限和一个上限组成,该区间包含了总体特征的真实值的可能范围。

置信区间的宽度取决于样本的大小和置信水平的选择。

较高的置信水平意味着更宽的置信区间,因为我们对总体特征的估计更加保守。

五、样本大小和效应大小在统计推断中,样本大小和效应大小是两个重要的概念。

样本大小指的是从总体中选择的个体数量,样本大小的增加可以提高估计值的准确性和可靠性。

《统计学原理》第5章:抽样推断

《统计学原理》第5章:抽样推断
lim P( x X ) 1
n
抽样推断的基本原理
统计推断的理论基础—样本的概率分布
按一定方法随机抽取样本时,所有可能样本的 特征值及其所对应的概率分布情况
学生 A B C D E F G 成绩 30 40 50 60 70 80 90
按随机原则考虑顺序重复抽样抽选出4名学生。
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示.
考虑顺序的不重复抽样 考虑顺序的重复抽样
M N! (N n)!
M Nn
不考虑顺序的不重复抽样 不考虑顺序的重复抽样
M N! n!(N n)!
全及指标与样本指标
•根据全及总体中各单位的标志值或标志属性计算得 来,反映总体某种特征的指标 •根据样本总体中各单位的标志值或标志属性计算得 来的综合指标.
抽样推断的一般问题
抽样方法
•重复抽样和不重复抽样
•考虑顺序的抽样和不考虑顺序的抽样
抽样推断的一般问题
抽样方法—重复抽样
从总体N个单位中随机抽取一个容量为n的样本,每 次抽取一个单位,把结果登记后再放回到总体中,重新 参加下一次的抽取.
抽出个体
登记特征
放回总体
继续抽取
抽样推断的一般问题
抽样方法—不重复抽样
从总体N个单位中随机抽取一个容量为n的样本, 每次抽取一个单位,把结果登记后不再放回到 总体参加下一次的抽取.
抽出 个体
登记 特征
继续 抽取
抽样推断的一般问题
抽样方法—考虑顺序的抽样
从总体N个单位中抽取n个单位构成样本,不但考虑样本 各单位成分的不同,而且还要考虑样本各单位的中选顺 序.

统计推断是根据样本和假定模型对总体作出的以概率形式

统计推断是根据样本和假定模型对总体作出的以概率形式
上一张 下一张 主 页 退 出
若|t|< t0.05 ,则说明试验的表面效应属于试验误差的概率P>0.05,即表面效 应属于试验误差的可能性大,不能否定 : = ,统计学上把这一检验结果表 述为:“两个总体平均数 与 差异不显著”,在计算所得的t值的右上方标记 “ns”或不标记符号;
H 0 1 2
(n1 1) (n2 1)
n1 n2
S x1x2
上一张 下一张 主 页 退 出
所得的统计量 t服从自由度 df =(n1-1)+(n2-1)的t分布。 根据两个样本的数据,计算得: - =11-9.2=1.8;
x1 x2
S x1x2
(x1 x1 )2 (x2 x2 )2 ( 1 1 )
平均数
xi i
ቤተ መጻሕፍቲ ባይዱ
i
x1 x2 xn
x xi n ( i)/ n
上一张 下一张 主 页 退 出
说明样本平均数并非总体平均数,它还包含试验 误差的成分。
对于接受不同处理的两个样本来说,则有:
x1 1 =1 +x2 ,2 =2 +
x1 x2 (1 2 ) (1 2 )
这说明两个样本平均数之差( x1 - x2 )也包括了两
对( - )进行显著性检验就是要分析:
x x 试1验的表2面效应( - )主要由处理效应(1
要 由试验误差所造成。
- 2 )引起的 ,还 是 主
x1 x2 x1 x2
1 2
x1 x2
上一张 下一张 主 页 退 出
虽然处理效应( - )未知,但试验的表面效应是可以计算的,借助数理
统计方法可以对试验误差作出估计。所以1 ,可从2 试验的表面效应与试验误差的权衡比

第五章 统计推断

第五章 统计推断

2019/4/2
22
本章习题
3. 某种产品生产过程设计规格为每批平均生产 120 个,超过或低于这个标准都是不合理的。有10批 产品组成的样本中,每批生产的产品数量如下: 108 118 120 122 119 113 124 122 120 123。 检验样本结果能否表示该生产过程运作正常? (假定总体服从正态分布,α=0.05。)
6
1、假设检验问题
【例5.1】 在超市上出售的某种品牌方便面,按规定每
包净重少于 100 克的比例不得超过 1%。技术监督部门 从某超市的货架上任意抽取 200包该种品牌的方便面, 经检验发现有 3包(1.5%)重量少于 100克,试问:超 市出售的这种方便面是否符合质量标准?
在本例中,超市上出售的这种方便面的不合格率是未 知的,我们关心的问题是:如何根据这 200 包方便面 (样本)的不合格率 p=1.5% 来判断超市上出售的这种 品牌的方便面(总体)的不合格率 P≤1% 是否成立?
并非因为它存在逻辑的绝对错误,只是因为它存
在的可能性很小。
2019/4/2 14
6、假设检验的一般步骤
( 1 )根据所研究的问题,提出原假设 H0 和备择 假设H1;
(2)构造检验统计量;
( 3 )计算检验统计量的值和检验统计量观测值 发生的概率; (4)给定显著性水平α(即发生第一类错误的最 大允许概率),并做出统计决策。
2019/4/2
15
5.2 单样本 t 检验
单样本的 T 检验,是一个正态总体在方差未知时,总体 均值与某一已知数是否有显著性差异的假设检验;检验 统计量为(该统计量服从自由度为n-1的t分布):
t
x 0 s/ n
x 0

5 应用统计学(教案)-抽样推断

5 应用统计学(教案)-抽样推断

4、抽样估计的一般步骤
设计抽样方案 抽取样本单位 收集样本资料
整理样本资料
推断总体指标
(1)抽样方案设计的基本准则
随机原则: 确保每个总体单位都有 被抽取的可能。 抽样误差最小: 控制和选择抽样数 目及抽样组织方式 费用最少: 在误差达到一定要求的 条件下,选择费用最少 的方案。
(2)抽样方案设计的主要内容 ① 编制抽样框 抽样框即总体单位的名单。 主要形式: 名单抽样框 区域抽样框 时间表抽样框 编制要求: 应包括全部总体单位 总体单位不应重复 应便于抽样的实施 应尽量利用资料,提高抽 样效果
第五章 抽样推断
基本概念
抽样误差
抽样估计 抽样组织方式
第一节 抽样估计的基本概念
一、抽样估计的意义和一般步骤 1、抽样估计的概念
抽样估计 按随机原则从总体中抽取一部 分单位进行调查,并以调查结 果对总体数量特征作出具有一 定可靠程度的估计与推断,从 而认识总体的一种统计方法。 也是一种收集资料的方法,所以也称为抽 样调查。
另外,分两个以上阶段完成抽取样本的多阶段抽 样,多在总体单位数量多分布广时采用。一般前阶段 采用分层或有关标志排队等距抽样;后阶段采用简单 随机或无关标志排队等距抽样。
④ 确定抽样数目 抽样数目: 即样本容量、样本单位数 大样本:n ≥ 30 小样本:n < 30 抽样数目的确定,与抽样误差、费 用及抽样组织方式有直接的关系。 误差小费用多时抽样数目多,误差 大费用少时抽样数目少;分层抽样除确 定整个样本容量外,还需确定子样本容 量;整群抽样需确定样本群数;多阶段 抽样需确定各阶段抽样数目。
| x - X |≤△ x (在一定概率下) 置信度、概率保证度、 可信度、把握程度,)与△x 是一对矛盾

第五章 统计推断

第五章   统计推断

为研究电渗处理对草莓果实中钙离子含量的影响, 选用10个草莓品种来进行电渗处理与对照的对比试验, 结果如下,问电渗处理对草莓钙离子含量是否有影响?
电渗处理草莓果实钙离子含量
品种号
1
2
3
4
5
6
7
8
910电渗ຫໍສະໝຸດ 理22.2323.42
23.25
21.38
24.45
22.42
24.37
21.75
19.82
三,假设测验的基本方法 ①对所研究的总体首先提出一个无效假设 ②规定测验的显著水平α(一般α=0.05有时α=0.01) ③在承认上述无效假设正确的前提下,获得平均数的抽样分布,计 算假设正确的概率 ④根据"小概率事件实际上不可能发生"的原理接受或否定无效假 设 如小麦品种 旧品种:0=300kg/亩 σ=75kg 新品种:1=330kg/亩 y=330kg 第一步:首先提出假设: HA:1≠0 第二步:平均数的抽样分布,计算概率: = 15 ( kg ) σ y = σ / n = 75 / 25 样本容量n=25 H0:1=0=300kg
135.2
135.2
133.5
(二),成对资料平均数的假设测验
若试验设计是将性质相同 若试验设计是将性质相同的两个供试单位配成一对, 性质相同的两个供试单位配成一对 配成一对, 并设多个配对,然后对每一配对的两个供试单位分别随机 成对数据. 地给予不同处理,所得的观察值为成对数据 地给予不同处理,所得的观察值为成对数据.
1.提出假设.H0:1-2=0,即两条生产线的平均日产量无显著 差异.对HA:1-2≠0,即两条生产线上的平均日产量有显著差 异. 2.确定显著水平.α=0.01. .确定显著水平.α 0.01. 3.检验计算. y1 = 65 . 83 S 2 = 59.7299 y 2 = 59 .77 S 2 2 = 42.8747

统计推断

统计推断

平均身高:X=173cm 标准差: S=3cm
统计学的目标:利用样本信息推断总体的性质
3
样本统计量

有以下常用的样本统计量 衡量中心位置的: 衡量离散程度的: 偏差 平方和 均方差(方差) 标准差
自由度df指的是独立偏差 的个数。
4
对总体参数进行估计

样本统计量的目的是对总体参数进行估计,存在 以下两类估计方法: 点估计
发电机A和B产出的样本统计量 样本量 平均值 标准差 A 10 84.24 2.90 B 10 85.54 3.65 两组数据平均值的差异δ=1.30

A和B之间样本平均值的差异δ =1.30是显著的差 异还是仅仅是偶然的差异?
假设检验可以回答这个问题
23
假设检验的思想
顾名思义,假设检验先对某个主张进行假设,然后 寻找答案去证明或者推翻这个主张(一般都是去推 翻原来的主张)。 假设检验的一般步骤: 阐述假设 寻找证据 作出结论 例如:当某人极力向你辩护他/她没有说谎时, 你会说 寻找证据 假设

“好,我先相信你没有说谎,以后要是我知道了你真
的说谎了,我再也不相信你了”
作出结论
24
假设检验的术语
备择假设(Alternative Hypothesis) 原假设(Origin Hypothesis) 我们预先假定的状态; 我们希望的状态; 发电机的例子中,原假设就 发电机的例子中,我们希望经过 是A和B的产出没有差异; 投资改造,B的产出会增加; 寻找证据是为了推翻这种假 寻找证据是为了证明这种假设; 设; 统计学上用符号Ho表示(H: 统计学上用符号Ha表示(H: Hypothesis;o:origin) Hypothesis;a:alternative) 统计学对原假设的描述: 统计学对原假设的描述:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
差与已知总体的方差存在显著差异
检验统计量: χ2 (n 1) s2 σ02
例题5 已知某农田受到重金属污染,抽样测定其镉含量
(μg/g)分别为:3.6、4.2、4.7、4.5、4.2、4.0、3.8、
3.7,试检验污染农田镉含量的方差与正常农田镉含量的方 差0.065是否相同。
解:假设 H0:σ 2 σ02 , H A:σ 2 σ02
P(μ-1.960 σ x ≤ x < μ+1.960 σ x)=0.95
否定区
接受区
否定区
左尾
0.025
μ-1.960σ x
0.95
0.025
0 μ+1.960σ x
右尾
临界值: ± uσ x= ± 1.960σ x
双尾检验 = 0.01
P(μ-2.576 σ x ≤ x < μ+2.576 σ x)=0.99
解: 假设: H0: μ ≤ μ0, HA : μ > μ0 确定显著水平:α=0.05 检验统计量:u x μ0 379.2 377.2 1.818 σ n 3.3 9 u0.05=1.645,计算得:u=1.818>u0.05,P<0.05
推断:否定H0,接受HA。
即:栽培条件的改善,显著提高了豌豆籽粒重量。
4)推断
接受/否定H0(HA,实际意义)
例题1 正常人血钙值服从的正态分布,平均值为2.29 mM,标准差为 0.61mM。现有8名甲状旁腺减退患者经治疗后,测得其血钙值平均为 2.01mM,试检验其血钙值是否正常。
1)提出假设 2)确定显著水平 3)计算概率 4)推断
1)提出假设
H0
零假设 /无效假设
对 /检验假设
=0
误差 效应

备择假设
/对应假设
0
处理 效应
HA
治疗后其血钙是否正常?
零假设H0:μ=μ0=2.29mM,
病人的血钙值与正常人的相同;
备择假设HA:≠0,
病人的血钙值与正常人的不同
接受H0就否定HA, 否定H0就接受HA。
2)确定显著水平
否定H0的概率标准称为显著水平,记作
统计学中,一般认为概率小于0.05或0.01的事件为小概 率事件,所以在小概率原理基础上建立的假设检验也常
推断:否定H0,接受HA (习惯进行单尾检验) 。
即污染农田镉含量的方差与正常农田的不相同
-1.645
0.95 接受区
左尾检验

否定区
接受区

否定区
u0.05=1.960 u0.01=2.576
接受区
否定区
u0.05=1.645 u0.01=2.326
单尾概率等于双尾概率除以2
7)假设检验的两类错误
否定H0 接受H0
H0正确
错误() 推断正确(1-)
H0 错误
推断正确(1-) 错误()
判断样品取自标准品总体的概率值。
|t|>t/2时, H0成立的概率小于 ,应否定H0 |t|<t/2时, H0成立的概率大于 ,应接受H0
查附录C,自由度df=6时,t0.05=1.943, t0.05/2=2.447 计算得:t=1.024 <t0.05/2,, 接受H0,样本取自标准品总体的概率大于0.05
例题2:已知豌豆籽粒重量服从N(377.2,3.32) (mg)的正态分
布,在改善栽培条件后,随机抽取9粒,其籽粒平均重为 379.2mg,若标准差仍为3.3mg,问改善栽培条件是否显著提 高了豌豆籽粒重量? 分析:
一个样本平均数的检验,总体标准差已知,u检验
改善栽培条件后的籽粒重只有高于377.2mg,才可认为 新栽培条件提高了豌豆籽粒重量,进行单尾检验
应用统计学
第五章 统计推断
一、假设检验的原理与步骤
1.假设检验的原理 假设检验(hypothesis test)/显著性检验(significance test)
是利用样本统计数推断总体参数的统计方法 根据数据和目的用不同的方法,检验的原理相同: 提出假设 确定显著水平(小概率的概率水平) 根据抽样分布计算统计量和概率 比较概率和显著水平,进行推断
取=0.05和=0.01两个显著水平
=0.05 =0.01
差异显著*
P<
差异极显著**
3)计算统计量、确定概率值 根据研究设计的类型和统计推断的目的选择使用
不同的检验方法 根据检验方法确定检验统计量和概率值的计算方
法,本例: u x μ 2.01 2.29 1.298 σx 0.61 / 8 P(u < -1.298)= 0.097 (P(u < -1.3)= 0.0968)
例题4:已知室内空气的甲醛含量达到0.3mg/m3为轻度污染。 现检测一新搬迁小区住户的室内甲醛含量,共检测了9户, 其测量值为:0.12、0.16、0.30、0.25、0.11、0.23、0.18 、0.15和0.09 (mg/m3),问该小区住户平均的室内空气甲醛 含量是否为轻度污染?
分析:
总体方差未知且为小样本,用s来代替σ进行t检验;
番茄汁样品取自标准品总体(样品中维生素C含量与规定的 6.50ppm的标准相同),两者间0.12ppm的差异是随机误差, 推断番茄汁样品的总体平均数也是6.50ppm。
要判断是随机误差还是真实差异,需进行假设检验
样品是从标准总体中随机抽取的,则:μ=μ0=6.50ppm 样品不是从标准总体中随机抽取的,则: μ≠μ0
;若样本为小样本(n≤30) ,只能进行t检验
➢ 生物学研究的数据通常为小样本数据,t检验在生物学研究的数据分 析中具有重要意义
检验统计量:u x μ0 σx
t(u) x μ0
sx
2.单个样本平均数检验的假设
根据零假设H0的不同情况,备择假设HA也不同: 零假设H0:=0,样本所在总体的平均数与已知总体 平均数0无显著差异; 备择假设HA: 0,即样本所在 总体的平均数与已知总体平均数0有显著差异 零假设H0:≤0,样本所在总体的平均数不大于已知 总体平均数0; 备择假设HA: >0,要求(或已知)样本 所在总体的平均数不小于已知总体平均数0 零假设H0:≥0,样本所在总体的平均数不小于已知 总体平均数0。 备择假设HA: <0,要求(或已知)样本 所在总体的平均数不大于对照总体平均数0
常用的检验方法: u检验、t检验、F检验和χ2检验
例:随机抽测7个样品,测得番茄原汁中维生素C的含量分别为 6.74、6.56、6.89、6.32、6.82、6.10、6.90(ppm)。问该
样品中维生素C的含量与规定的6.50ppm的标准值(μ0)是否
相同?
样本平均值:x =6.62ppm,标准差:s=0.31ppm 问题:样本平均值与标准值间的差异0.12ppm,
确定显著水平:α=0.05
检验统计量:χ 2
s2 (n 1)
0.38712 (8 1)
16.1373
σ02
0.065
χ2 0.975(7)
1.690
χ2 0.025(7)
16.013
χ2 0.95(7)
2.167
χ2 0.05( 7 )
14.067
∴ 2 > 20.025(7) , P< 0.05
单个样本(抽样总体与已知总体比较)
样本平均数的检验


样本方差的检验

样本频率的检验
据 的
两个样本(抽样总体间比较)


样本方差的同质性检验

验 样本平均数的比较检验
样本频率的比较检验
二、单个样本平均数的检验
适用范围: 检验样本平均数 所属总体的平均数,是否与指定的总体
平均数 0 相同。 若相同,样本属于平均数为 0 指定总体; 若不同,样本不属于平均数为 0 指定总体,即样本所属总
定 显
计 算

假 设
著 水
概 率


5)统计量与临界值比较进行推断
P(|u|>1.960) =0.05
0.025
0.95
0.025
P(|u|>2.576) =0.01
|u|>1.960 |u|>2.576
P<0.05 P<0.01
差异达显著水平 差异达极显著水平
6)双尾检验与单尾检验
双尾检验 = 0.05
抽样测定的平均含量可能低于标准值,故用单尾检验。
解: 假设: H0: μ ≥ μ0, HA : μ < μ0
确定显著水平:α=0.05
检验统计量:t x μ0 0.176 0.30 5.167
sx
0.072 / 9
t0.05(8)=-1.860, t0.01(8)=-2.896 计算得:t=-5.167<-t0.05,P<0.05 推断:否定H0,接受HA。 即该次抽样测定的住户的甲醛平均含量没有超标。
是随机误差还是真实差异
根据零假设成立的概率大小进行判断
概率较大
零假设成立
样品是从标准 品总体中随机
抽取的
概率很小
零假设不成立
样品不是从标 准品总体中随
机抽取的
小概率原理:小概率事件在一次试验中不应该发生。
如果在一定条件下,事件A发生的概率α很小,则在n次 独立的重复试验中,事件A将按预定的概率α发生,但在
一次试验中则不应该发生。
统计学上,通常认为概率α<0.05或0.01为小概率
零假设成立的概率如何计算呢?
根据抽样分布,计算统计量及其对应的概率
总体的标准差未知且为小样本,样本平均数服从t分布
根据H0,番茄汁样品是标准品总体的随机样本,计算统计 量t:
相关文档
最新文档