第四章 统计推断
统计推断1
小概率事件在一次观察中是不应发生的, 但是它现在发生了!!说明了什么? 一个合理的解释就是它本不是“小概率事件”, 是人们把概率算错了,算错的原因就是在 一开始就做了一个错误的假设 米
换句话说,此时应该认为: 即年来男孩的身高有明显增长。
【例2 】某地进行了两个水稻品种对比试验, 在相同条件下,两个水稻品种分别种植10个 小区,获得两个水稻品种的平均产量(kg/亩) 为:
第四章 统计推断
第一节 统计推断概述
研究样本的目的是以各种样本统计量的 抽样分布为基础去推断总体。 如何从一些包含有随机误差,又不完全的信息 中得出科学的、尽可能正确的结论是统计学 要解决的主要问题。
从样本中获得的信息所包含的不确定性,
主要来自以下几个方面:
(1)测量过程引入的随机误差;
(2)取样随机性所带来的变化,由于只取出 少数样品测量,那么取出的这一批样品的测量 结果与抽取另外一批当然会有差别; (3)我们所关心的性质确实发生了某种变化。 显然,只有第三种变化才是我们要检测的。
对于从有误差的实验数据中得出结论的科学工作者
来说,统计学是一种不可或缺的工具。
一、 统计推断的途径
1、 统计假设检验** 2、总体参量估计。
二、假设检验的基本思想 先看两个实例 【例1】 某地区10年前普查时,13岁男孩子的 平均身高是1.51米,现抽查200个12.5~13.5岁 的男孩子,身高平均值为1.53米,标准差为 0.073米,问:10年来该地区男孩身高是否有 明显增长?
3、选择显著性水平与建立拒绝域 (2)建立拒绝域
① 分位数法(临界值法) ② 概率法(P值法) 利用显著性水平(概率值)构成接受域和拒绝域。 根据统计量数值的大小,先计算(或查表)出 (X>统计量数值)出现的概率,这个概率称为P值, 用P值与显著性水平相比较进行判断。
第4章 统计推断2
成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2
x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d
第四章 统计推断
尾检验,应根据专业知识和试验目的来判断是否有充足的依据。
现在您浏览到是二十三页,共六十六页。
现在您浏览到是二十四页,共六十六页。
相伴概率:是指在原假设成立时检验统计量观测 值以及所有比它更为极端的可能值出现的概率之 和,用P表示。
例如:在上述例子中,检验统计量U的观测值为2.5,
现在您浏览到是六页,共六十六页。
这是否意味着注射与不注射催产素两种不同的处理,老鼠体
内血糖含量一定存在有显著差异,即两相应总体血糖含量不等
( ≠ )呢?1 2
由于抽样的原因,两样本平均数之差( x1 x2),即 表面效应,或实得差异中一定包含有抽样误差造成的部分, 同时也可能包含有由于处理不同造成的总体平均数不等的部分,
125
2.5
50
P U 2.5 2P U 2.5
查附表得:P U 2.5 0.00621;故:
P X 0 125 2 0.00621 0.0124
现在您浏览到是十二页,共六十六页。
在总体平均数为2250g(在H0成立下),方差为62500g2的正态
总体中以样本容量为25进行抽样,抽得的一个样本平均数与总体 平均数相差125g以上,由抽样误差造成的概率为0.0124。
无效假设H0:对需推知的总体参数提出的假设。(被直 验的假设称为原假设)
接检
备择假设HA:在拒绝无效假设后可供选择的假设。
H0和HA是一对立事件,且构成完全事件系,即否定H0 就意味着 接受HA,接受H0 就意味着否定HA。
本例鸡,组无成效的假样设本H0所为属:的总体平均0 值2与25指0,定即的用正中常药饲饲养养情的况25下羽的雏总
和原假设提供的信息,可以构造统计量:U X ;由于原总体服从正 n
第4章统计推断PPT课件
x x (3.41)
t
s x
sn
9
t分布的特征:
(1)曲线左右对称,围绕平均数μt=0向两侧递降。
(2) t分布受自由度df=n-1的制约,每个自由度都有一
条t分布曲线。
(3)和正态分布相比,t分布的顶部偏低,尾部偏高, df〉30时,其曲线接近正态分布曲线,当df→+∞时,则和正态 曲线重合。
拒绝域比较,若没落入,则认为有显著差异,单未 达极显著差异,拒绝H0
若也落入α=0.01拒绝域,则认为差异极显著,拒
绝H0
36
例3.1 已知豌豆重量(mg)服从N(377.2,3.32)。
在改善栽培条件后,随机抽取9粒,籽粒平均重 X =379.2,若标准差仍为3.3,问改善栽培条件是否显 著提高了豌豆籽粒重量?
解:1.小麦的株高是服从正态分布的随机变量
2.假设:
H0: σ=σ0(14cm)
HA: σ<σ0(14cm)
关于备择假设的说明:小麦经过提纯后株高只 能变得更整齐,绝不会变得更离散。即σ只能小于σ0 。因此, HA: σ<σ0
3.显著性水平:规定α=0.01
40
4.统计量的值: 2n 1 0 2S2 ~2n1
正态分布和t分布:双侧检验--取绝对值与分位数 比 ;单侧检验--下单尾是小于负分位数拒绝H0; 上单尾是大于分位数拒绝H0。
χ2分布:下侧分位数和上侧分位数
35
5.计算统计量
把样本观测值代入统计量公式,求得统计量取值 ,检查是否落入拒绝域。
若没落入,则认为无显著差异,接受H0
若落入α=0.05的拒绝域,则应进一步与α=0.01的
10
注: t1(n)t(n) 分位点
第4章 统计推断
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0
《数学教育测量与评价》第 4 章 成绩的推断统计
4.2 推断统计的基本思想和一般步骤
一 参数估计
参数估计(parameter estimation)是利用从总体中抽取的 样本来估计总体的未知参数的方法。人们常常需要根据手中的 数据,分析或推断数据反映的本质规律。即根据样本数据如何 选择统计量去推断总体的分布或数字特征等。统计推断是数理 统计研究的核心问题。所谓统计推断是指根据样本对总体分布 或分布的数字特征等做出合理的推断。参数估计是统计推断的 一种基本形式,是数理统计学的一个重要分支,分为点估计和 区间估计两部分。
二 总体参数和样本统计量
数理统计中把代表总体特征的量数成为参数,代表样本特 征的量数称为统计量。总体参数是根据总体中所有个体的相应 数值或属性计算的反映总体某种属性或特征的指标,又称为总 体指标。常用的总体指标有总体平均数(或总体中数)、总体 标准差(或总体方差 )、总体相关系数等。
样本统计量是由样本中所有个体的相应观测数值或属性计 算出来的反映样本特征的指标,又称样本指标或抽样指标,用 来估计总体指标。统计量用来估计总体参数,因此与总体参数 相对应,统计量有样本平均数(或样本中数)、样本标准差 (或样本方差 )、样本相关系数等。
通常,当样本容量较大时,样本平均数的抽样分布近似服 从正态分布,其分布以总体平均数为中心,即平均数抽样分布 的平均数等于总体平均数(平均数的抽样分布的平均数指的是 所有样本的平均数的平均数,可以验证它与总体的平均数相 等)。平均数抽样分布的标准差称为其抽样误差或者标准误, 可以用统计方法估计其大小。抽样误差的大小与样本容量的平 方根成反比,对特定总体,样本容量越大,抽样误差越小,用 样本统计量估计总体参数的可靠性就越高。但是,样本容量与 抽样误差之间不存在直线关系,即样本容量增加到一定程度时, 抽样误差减少的速度变得很慢,但是此时抽样成本就很高了, 从而样本容量也不是越大越好。
统计学第四章 统计推断1
求解似然方程
ˆ
1 1 7 i1 xi x 4
27
7
27
【例】总体均匀分布 X ∼ U(a,b),其中,a,b 是未知参数。设 X1,..., X n 为来自该总体的随机样本, x1 ,..., xn 为样本观察值,求未知参 数 a,b 的极大似然估计
1 x [a, b] b a f (x, a, b) 解:总体服从均匀分布,即 0 x [a, b]
ˆ X,
n n 1 1 ˆ 2 X i2 X 2 ( X i X ) 2 . n i 1 n i 1
16
16
例总体X的概分布为
X
1
1
2
„
1 „
θ
1
试求未知参数θ的估计量。
pi
E ( X ) 1
1 1 1 1 1 (1 ) (1 ) 2 (1 2 ) [ ] 2 2
12
(一) 矩估计法
统计学中,矩是指以期望值为基础而定 义的数字特征,如数学期望、方差、协方差等。 矩估计法是英国统计学家K.皮尔逊最早提 出来的,其理论基础是大数定理。 设X为随机变量,对任意的正整数k ,称E(Xk)、
E[(X-EX)] k分别为随机变量X的k 阶原点矩和k 阶中心矩。
由样本矩去估计总体矩的方法称为矩估计法; 由矩估计法得到的估计量称为矩估计量。
13
k E ( X ) 存在,则 由大数定律,若总体 k 阶原点矩
1 n k lim P X i E ( X k ) 0 n ,即样本的 n i 1
k 阶原点矩依概率收敛于总体
k k E ( X ) E ( X ) 知时,自然会想到用子样 k 阶 k 阶原点矩 ,所以当
【生物统计】4第四章统计推断
当 2未知
x
x
~ N(0,1)
2
(n 1) s 2
2
~ 2 (n 1)
x
x
x x (n 1) s ~ t (n 1) 2 sx (n 1) s n
参数估计 - 区间估计
x P(t t ) 1 sx
2
n
参数估计 - 点估计
均方误差:
2 2 ˆ ˆ ˆ E( ) Var( ) [E( ) ]
一致性:估计值随着样本的增大而更加接近 真值 有效性: 抽样方差达到最小的无偏估计 充分性: 估计函数包含了关于被估参数的全 部信息
参数估计 - 区间估计
以一定的置信度对参数可能取值范围的估计
(n 1) s ( x1 x ) 1.5460
2 2
ˆ x 是的无偏估计量 E( x )
参数估计 - 点估计
样本方差的期望
E[ ( xi x ) 2 ] E{ [(x ) (x )]2 } E[ ( x ) 2 2( x ) ( x ) n( x ) 2 ] E[ ( x ) n( x ) ] E ( x ) nE( x )
正态总体样本平均数的分布
正态总体样本平均数的分布
设样本来自正态总体 N( , 2),则样本平均数也 服从正态分布,其总体均数为 ,方差为 2/n。
X ~ N(, 2 )
x ~ N( , ) n
2
正态总体样本平均数的分布
正态总体样本平均数的分布
设样本来自正态总体 N( , 2),则样本平均数也 服从正态分布,其总体均数为 ,方差为 2/n。
《应用统计学》(04)第4章 用样本推断总体
1500 1520 1510 1470
*
应用统计学
Applied Statistics
一个总体均值的区间估计
(例题分析—小样本)
解:已知X~N(,2),n=16, 1- = 95%,t/2=2.131 根据样本数据计算得:x 1490 , s 24.77 总体均值在1-置信水平下的置信区间为
资 料 来 源 : GUDMUND R.IVERSEN 和 MARY GERGRN著,《统计学—基本概念和方法》
4-5
*
应用统计学
Applied Statistics
统计应用
小儿麻痹症实验
1954年,为了检验沙克疫苗对小儿麻痹症预防的有效 性而进行了一项实验。大约有20万名儿童注射了无效 的盐水,而另外20万名儿童注射了疫苗 这项实验是“双盲的”,因为接受注射的儿童不知道 是被注射了疫苗还是安慰剂,进行注射并评价结果的 医生也不知道 在20万名注射疫苗的儿童中,只有33人后来患了小儿 麻痹症,而注射了盐水的 20万名儿童中后来有 115 人 患了小儿麻痹症。根据这些结果和其他一些结果的统 计分析得出结论,沙克疫苗在预防小儿麻痹症方面确 实是有效的
4 - 20
应用统计学
Applied Statistics
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
P(ˆ ) 无偏 有偏Biblioteka A4 - 21
B
ˆ
*
应用统计学
Applied Statistics
有效性
(efficiency)
量,有更小标准差的估计量更有效
怎样解决下面的问题?
一个水库里有多少鱼? 一片原始森林里的木材储蓄量有多少?
第4章 统计推断 120
H0
1 2
1 2 1 2
H1
1 2
1 2 1 2
医学统计学
12
三 、双尾检验与单尾检验
2
否定区 接受区
2
否定区
双尾 检验
接受区 否定 区
单尾 检验
二 、假设检验的步骤
2.确定检验水准 检验水准(size of a test)亦称显著 性根水据准选(定sig的ni显fic著an性ce水le平ve(l)0,.0符5或号0为.0α1。),决定接受 还它是是拒判绝别H差0. 异有无统计意义的概率水准,其大小 应根据分析的要求确定。通常取α= 0.05。
u值。
医学统计学
15
二 、假设检验的步骤
4.确定概率P值 P值是指在H0所规定的总体中作随机抽样,获得等于
或及的样大前本于提(下间出或的小现差于观异)察由样现抽有本样统以误计及差更量所的极致概端的率情概。况即的率概在。率H0为。真
│t│≥ tα,υ ,则P≤ α;
可以认为差别不由抽样误差引起,可以拒绝H0
医学统计学
14
二 、假设检验的步骤
3.选定检验方法和计算统计量
的根选检据验择研方究法适设。计当如的完类的全型随统和机统计设计计推方中断,法的两目计样的本要算均求数H选的用0比不较同 可不成同用的t立检统验计的,检样可验本方能含法量,性较可大即得时到(概不n同>率1的00有统)计,可多量用,大Z如检t验值。和
假设检验的原理
反证法:当一件事情的发生只有两种可能A和B, 为了肯定其中的一种情况A,但又不能直接证实A, 这时否定另一种可能B,则间接的肯定了A。
小概率原理:概率很小的事件在一次抽样试验中
统计学 第四章 推断统计概述
第四章 推断统计概述第一部分 概率论基本知识← 一、概率的定义;二、概率的性质;三、概率的加法定理和乘法定理← 四、概率分布类型四、概率分布类型← 概率分布(probability distribution )是指对随机变量取不同值时的概率的描述,一般用概率分布函数进行描述。
← 依不同的标准,对概率分布可作不同的分类。
1、离散型分布与连续型分布← 依随机变量的类型,可将概率分布分为离散型概率分布与连续型概率分布。
← 教育统计学中最常用的离散型分布是二项分布,最常用的连续型分布是正态分布。
2、经验分布与理论分布← 依分布函数的来源,可将概率分布分为经验分布与理论分布。
← 经验分布(empirical distribution )是指根据观察或实验所获得的数据而编制的次数分布或相对频率分布。
← 理论分布(theoretical distribution )是按某种数学模型计算出的概率分布。
3、基本随机变量分布与抽样分布← 依所描述的数据的样本特性,可将概率分布分为基本随机变量分布与抽样分布(sampling distribution )。
← 基本随机变量分布是随机变量各种不同取值情况的概率分布,← 抽样分布是从同一总体内抽取的不同样本的统计量的概率分布。
第二部分 几种常见的概率分布← 一、二项分布← 二项分布(binomial distribution )是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里创始的,因此又称为贝努里分布。
← 2.二项分布函数← 二项分布是一种离散型随机变量的概率分布。
← 用 n 次方的二项展开式来表达在 n 次二项试验中成功事件出现的不同次数(X =0,1…,n )的概率分布,叫做二项分布函数。
← 二项展开式的通式(即二项分布函数):← ←← ← ←← 成功概率 p ;样本容量 n← 在成功概率为p 的总体中随机抽样,抽取样本容量为n 的样本中,有X 次为成()011111100q p C q p C q p C q p C q p n n n n n n n n n n n ++++=+---Λ()Xn X X n X q p C P -⋅⋅=()X n X q p X n X n -⋅-=!!!功的概率: ←(X =0,1…,n ) ←称X 服从参数为n ,p 的二项分布,记为: ←X ~B(n ,p ) 其中,0<p<1 ←二项分布的性质 ←二项分布有如下性质: ←①当p=q 时,图形是对称的。
4第四章 统计推断
0.01
四、假设检验中的两类错误 如果H0不是真实的
µ ≠ µ 0 µ = µ1
假设检验却接受了它
第二类错误,β 错误,纳伪错误,II型错误
β µ = P( II型错误)=P(接受H 0 , 而H 0是错误的,即µ ≠ µ0,µ=µ1 )
矽肺病患者的血红蛋白含量
总体平均数
µ0 = 126
x = 136
治疗后患者的血红蛋白含量
样本平均数
µ
x
= µ
0
= 126
µ
x
= µ
0
= 126
如果从正态分布总体N(μ,σ2)进行抽样,其样本平均数x是 一具有平均数 μ,方差σ2/n的正态分布,记作N(μ,σ2/n)。
σ
n
2
σ
2 x
=
=
240 = 40 6
α=0.05 α= 0.01
显著水平* 极显著水平**
统计中,常把概率小于0.05或0.01作为小概率。
P>0.05(0.01) P≤0.05(0.01)
的假设可能是正确的,应该接受,同时否定H H0的假设可能是正确的,应该接受,同时否定HA;
否定H 接受H 否定H0,接受HA;
二、假设检验的步骤 确定统计量, 3. 确定统计量,计算概率
α
u0.01 = 2.33
接受区
否定区
查表时,单尾概率等于双尾概率乘以2
单尾检验比双尾检验容易对H0进行否定
三、双尾检验与单尾检验
α
2
α
2
否定区
第四章统计推断
概率。从样本平均数的 抽样分布入手。
第三章里讲到:
x
~
N (x
,
2 x
),
其中 x
, x
n
所以,u x x x ~ N (0,1) x / n
在本题中, x 308, 300, 9.5, n 9,带入上式得到
从本题中样本观察到的 u 308 300 2.526 9.5 / 9
5 总结:假设检验的基本程序
(a)根据题意,书写零假设H0和备择假设HA (b)确定检验所需的统计量,如u统计量,t统计量等,并计 算其数值 (c)根据备择假设确定拒绝域 (d)如果统计量的值落在拒绝域内,则否定H0接受HA,如果 统计量的值落在拒绝域外,则不否定H0
第二节 样本平均数的假设检验
用来否定或接受零假设的小概率标准称为显著性水平,记 为α。在生物学研究中,常取α=0.05,称为显著;或α= 0.01,称为极显著。
在例一中, 0.05,因为尾区概率 P(| u | 2.562) 0.014 ,所以否定H0。
u (双侧) u /2 1.96
这一推断过程等同于将u 2.562同 0.05的
(三)假设检验的两类错误
(1)第一类错误:若客观上H0为真,我们 的结论却是“拒绝H0”,就会犯第一类错误。
犯第一类错误的概率恰好等于显著水平α。
(2)第二类错误:若客观上H0为假,而我 们的结论却是“不拒绝H0”,就会犯第二类
错误。第二类错误的概率用β表示。凡是有
利于做出“拒绝H0”的结论的措施,都能降
但是,在我们的实验中确实得到了现有的样本,这只能说明H0成立 的前提是错误的。因此,我们在显著性水平为0.05的情况下,否定 H0,而接受HA。所以这种药剂对玉米单穗重有显著的影响。
第四章 统计推断
第四章统计推断(statistical inference)第四章统计推断统计推断由一个样本或一糸列样本所得的结果来推断总体的特征假设检验参数估计任务分析误差产生的原因确定差异的性质排除误差干扰对总体特征做出正确判断第四章第一节第二节第三节第四节第五节假设检验的原理与方法样本平均数的假设检验样本频率的假设检验参数的区间估计与点估计方差的同质性检验第一节假设检验一概念:假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
小概率原理概率很小的事件在一次抽样试验中实际是几乎不可能发生的。
如果假设一些条件,并在假设的条件下能够准确地算出事件A出现的概率α 为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能发生。
=0.05/0.01假设检验参数检验非参数检验平均数的检验频率的检验方差的检验秩和检验符号检验游程检验秩相关检验二、假设检验的步骤治疗前μ0=126σ2 =240N ( 126,240 )治疗后n =6 x =136 μ未知那么μ=μ0? 即克矽平对治疗矽肺是否有效?例:设矽肺病患者的血红蛋白含量具平均数μ0=126(mg/L),σ 2 =240(mg/L)2的正态分布。
现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。
1 、提出假设对立无效假设/零假设/检验假设备择假设/对应假设μ0=μμ0≠μ误差效应处理效应H0H A例:克矽平治疗矽肺病是否能提高血红蛋白含量?平均数的假设检验检验治疗后的总体平均数μ是否还是治疗前的126(mg/L)?x-μ0=136-126=10(mg/L)这一差数是由于治疗造成的,还是抽样误差所致。
统计学的研究方法——统计推断
统计学的研究方法——统计推断常常存在这种情况,我们所掌握的数据只是部分单位的数据或有限单位的数据,而我们所关心的却是整个总体甚至是无限总体的数量特征。
例如民意测验谁会当选主席,体育锻炼读增强心脏功能是否有益,某种新药是否提高疗效,全国因而性别比例如何,等等。
这是只靠部分数据的描述是无法获得总体特征的知识。
我们利用统计推断的方法来解决。
所谓统计推断就是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。
统计推断是逻辑归纳法在统计推的应用。
所以称为归纳推理的方法。
统计推断可以用于总体数量特征的估计,也可以用于对总体某些假设的检验,所以又有不同的推断方法。
(1)参数估计法。
当总体的界限已经划定,总体某一数量特征的数值就是唯一确定的,所以把总体的数量特征称为总体参数。
但是总体参数通常不知道,这就需要通过样本数据计算样本统计量,并以此作为总体参数的估计量来估计总体参数的取值或取值区间,这种方法称为参数估计法。
例如,实割实测若干样本点的粮食产量来推测全区的粮食产量,对若干种选的样本居民户的家庭收支进行经常性的登记,以估计全市居民家庭生活的收支水平等,由于统计分析中经常需要对总体的各项综合指标作出客观的评价,因此参数估计方法在实际工作被广泛地采用。
(2)假设检验法假设检验的特点是,由于对总体的变化情况不了解,不妨相对总体的状况作出某种假设,然后根据样本实际观察的资料对所做假设进行检验,来判断这种假设的真伪,以决定行动的取舍。
例如,工厂生产某种产品,经过工艺改革,不知道产品质量是否有所提高,我们不妨假设工艺改革没有效果,产品质量和以往正常生产的产品质量没有显著性的差异,所有差异仅仅由随机性的原因引起的。
我们从假设为真的前提出发,比较样本指标的实际值和假设的总体参数之间的差异是否超过给定的显著性标准。
如果超过这标准,我们就有理由否定原来的假设,而采纳其对立的假设,即工艺改革是有效的,提高了产品质量,如果差异没有超过显著性标准,则接受原来的假设,即认为公益改革是无效的,产品质量没有显著性提高,假设检验的方法是统计推断常用的方法。
第四章-多元正态分布的统计推断
y)2
( y k ni
i1 j1
ij
yi )2
( y k ni
i1 j1
ij
y)2
k 1 nk n 1
SS A k 1 SSe nk
—
SSA SSe k 1 n k
—
—
NEXT
查F分布表得临界值
F0.05(2,18) 3.554 F0.01(2,18) 6.013
a1 i1
a1 i1
由于交叉乘积项为零,故
组间叉积矩阵+组内叉积矩阵=总叉积矩阵
组内叉积矩阵:主要由随机因素构成
k na
SSE
(xi(a) x (a) )(xi(a) x (a) )
a1 i1
组间叉积矩阵:主要由系统因素构成
k
SS (TR) na (x (a) x )(x (a) x ) a1
故可以将霍特林分布的统计量换算成F统计量。
对给定的显著性水平α,检验的规则
nk k(n 1)
T
2
F
(k , n
k ), 拒绝原假设
nk k(n 1)
T
2
F
(k , n
k ), 接受原假设。
某地区农村男婴的体格测量数据如下
编号 1
身高(cm) 78
胸围(cm) 60.6
上半臂长(cm) 16.5
i j (i j,i, j 1,2, , k)
因而还应该进一步讨论到底是哪些总体之间存在差异。
Scheffe检验
H0 : i j (i j,i, j 1,2, , k) H1 : i j (某些i j)
《统计推断》课件
01
单因素方差分析用于比较一个分类变量对数值型因 变量的影响。
02
它通过分析不同组之间的均值差异,判断各组之间 是否存在显著差异。
03
通常使用F统计量进行检验,并结合显著性水平判断 结果的可靠性。
双因素方差分析
1
双因素方差分析用于比较两个分类变量对数值型 因变量的影响。
2
它通过分析两个因素不同水平组合下的均值差异 ,判断各组合之间是否存在显著差异。
非参数回归分析
总结词
一种回归分析方法,不假设响应变量和 解释变量之间的关系形式,而是通过数 据驱动的方法来探索变量之间的关系。
VS
详细描述
非参数回归分析是一种回归分析方法,它 不假设响应变量和解释变量之间的关系形 式,而是通过数据驱动的方法来探索变量 之间的关系。这种方法能够适应各种复杂 的回归模型,并且能够有效地处理解释变 量和响应变量之间的非线性关系。
非参数秩次检验
总结词
一种不依赖于总体分布假设的统计检验方法,通过对观察值进行排序并比较秩次来推断统计显著性。
详细描述
非参数秩次检验是一种不依赖于总体分布假设的统计检验方法,它通过对观察值进行排序并比较秩次 来推断统计显著性。这种方法适用于总体分布未知或不符合正态分布的情况,能够提供稳健和可靠的 统计推断结果。
02
03
04
社会学
在调查研究中,统计推断用于 估计人口特征和趋势,如性别
比例、年龄分布等。
医学
统计推断用于临床试验和流行 病学研究,以评估治疗效果、
疾病发病率和死亡率等。
经济学
统计推断用于预测市场趋势、 评估政策效果和评估经济指标
等。
商业
统计推断用于市场调查、消费 者行为分析、产品质量控制等
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一尾检验与两尾检验的步骤相同,不同的是一尾检 验将显著水平 的概率值放到一侧,而不是将其均分到 左、右两侧,因此实际上采用的假设检验临界值是 u2 和 t 2 。
在相同 水平下,一尾检验否定区范围大于两尾 检验,所以一尾检验更易否定H0(对差异识别能力强), 因此,选用一尾检验,应根据专业知识和试验目的来判 断是否有充足的依据。
统计上,把否定H0的概率标准叫显著水平。用 表示, 是个小概率,在生物学研究中,一般取0.05和0.01两个等级。 假设检验的步骤可概括为: (1)对样本所属总体提出无效假设H0,并设立备择假设HA; (2)确定检验的显著水平 ,在假定H0成立的前提下,根据 统计量的抽样分布,计算实得差异(表面效应)由抽样误差 造成的概率; (3)根据这个概率与显著水平 比较的结果,由小概率事 件实际不可能性原理进行差异显著性推断。 (4)根据统计推断结果,结合相应的专业知识,给出一个专 业的结论。
查附表得:P U 2.5 0.00621 ;故: P X 0 125 2 0.00621 0.0124
在总体平均数为2250g(在H0成立下),方差为62500g2 的正态总体中以样本容量为25进行抽样,抽得的一个样本 平均数与总体平均数相差125g以上,由抽样误差造成的概 率为0.0124。
总体 (N)
总体特征(参数)一般未知
统计推断 假设检验 (定性)
随机抽样 样本容量n 样本1 样本2 样本N
n
参数估计(定量) 样本特征(统计量)可知
样本3
图1 随机抽样和统计推断示意图
三、假设检验 1.假设检验的基本原理 我们结合一个实例说明统计假设检验的基本原理。 例如:将20只老鼠随机分为数目相等的两组,一组作对照 不注射催产素,另一组注射,然后在规定的时间内测定每 组各个体的血糖值。 假定测定的结果对照组平均值为:=109.17, 注射催产素组为:=106.88, 两样本平均数并不相等,其差值(表面效应)为: =109.17-106.88=2.29,
第二节 对单个和两个总体平均数的假设检验
一、单个平均数的假设检验
单个平均数的假设检验是检验一个样本所属的总体平 均数μ与一个特定总体平均数μ0间是否存在显著差异的一 种统计方法,也可理解为检验一个样本是否来自某一特定 总体的统计分析方法。根据统计假设检验的基本原理可知, 假设检验的关键是根据统计量的分布计算实得差异(表面 效应)由抽样误差造成的概率。
5.假设检验的两类错误
当原假设实际上是正确的,而依据某一样本作出拒绝愿假设的判 断,这就将正确的假设误认为是错误的,我们将这种“以真为假”的 错误称为弃真错误,习惯叫它第一类错误或I型错误。 犯这种错误的原因在于我们是根据小概率事件原理来确定否定域 进而进行推断的,但事实上小概率事件并不是绝对不发生,一旦发生 了就否定原假设,因而就犯了弃真错误。犯弃真错误错误的概率就等 于我们所规定的小概率,即显著性水平。 我们可以通过选择显著性 水平来控制犯弃真错误的概率。
抽样误差出现的概率可利用前面所介绍的抽样分布来 计算,这里只要设定一概率标准,例如,表面效应由误差 造成的概率不大于5%便可推断表面效应不大可能由误差 所引起
统计假设检验的基本原理:
是根据试验目的对要比较的总体提出假设, 先承认待检验的假设成立,然后观察在此假设前 提下样本的出现是否属于小概率事件,如果是小 概率事件,则有充分的理由怀疑或否定原假设, 反之则不能否定原假设。
在生物学研究中两尾检验应用最为广泛。
在假设检验中,只有一个否定域(一侧)的假设检 验叫一尾检验。即否定域在检验统计量抽样分布的 一侧.
H 0: 0;H A: 0(左尾或左侧检验)或 H 0: 0;H A: 0(右尾或右侧检验) 课本(P63 ): H 0: 0;H A: 0(左尾或左侧检验) 或H 0: 0;H A: 0(右尾或右侧检验)
相伴概率:是指在原假设成立时检验统计量观测 值以及所有比它更为极端的可能值出现的概率之 和,用P表示。
例如:在上述例子中,检验统计量U的观测值为2.5, 如果是右尾检验,相伴概率就是:P=P U >2.5 0.00621, 这说明这是个发生概率很小的事件,小于我们常用标准0.05 或0.01;如果是双尾检验,相伴概率就是:P=P U >2.5 P U 2.5 P U >2.5 0.0124,同样也是个很小的概 率。但如果是左侧检验,相伴概率就是:P=P U 2.5 0.9938;这就不是一个小概率事件。
62500 X 0 2375g; 2500 g n 25 X X X 0 2375 2250 125 U 2.50 X X 50 2500
2 X
2
X 0 125 P X 0 125 P 2.5 x 50 P U 2.5 2 P U 2.5
的总体均值之间存在极显著差异。
因此,假设检验步骤简写成:
1、建立假设; 2、计算检验统计量; 3、确定否定域(临界值),作出统计推断
4.两尾(双侧)检验和一尾(单侧)检验
既考虑左边否定域又考虑右边否定域,即考虑统计量 抽样分布曲线两侧(两个尾部)的检验称之为两尾检验。
H0: 0;HA: 0
2.统计假设检验基本步骤
例: 设某一肉用仔鸡常规饲养条件下50d体重的总 体平均值为: 0 =2250g,方差为: 2 =62500 g 2。从该群体中随机选择25羽初生雏鸡,在常规饲 养基础上添加某种中药添加剂饲养50d,测得该样本 平均值为: x =2375g,问添加中药添加剂是否对仔 鸡50d体重有影响? 假设检验的基本步骤为:
上例中 | u | 2.5,大于 u 0.05 = 1.96,所以u落在否定 区域内,但又小于 u 0.01 = 2.58,所以实得差异由误差造 成的概率在0.01~0.05间,“差异显著”。故否定 H0。 假设检验的第二步也可以不直接计算实得差异(表面 效应)由抽样误差造成的概率,而是用实得差异相对应的 检验统计量的值与假设检验的临界值比较,判断差异显著 性。方法如下:
(1)根据实际需要对未知或不完全知道的总体提出假设 无效假设H0:对需推知的总体参数提出的假设。(被直 接检验的假设称为原假设) 备择假设HA:在拒绝无效假设后可供选择的假设。
H0和HA是一对立事件,且构成完全事件系,即否定H0 就 意味着接受HA,接受H0 就意味着否定HA。 本例,无效假设H0为: 0 2250 ,即用中药饲养的25 羽雏鸡组成的样本所属的总体平均值与指定的正常饲养情况 下的总体平均值之间无实质差异。 备择假设HA为: 0 2250 ,即用中药作添加剂和不 用中药作添加剂,该肉鸡种50d体重的确存在着显著差异。
第四章 统计推断
第一节
统计推断的意义与原理
一、统计推断的意义和内容 统计推断,就是根据统计量的分布和概率理论,由样本 统计量来推断总体的参数。 统计推断包括统计假设检验和参数估计两部分内容。
统计假设检验又称显著性检验,它是根据某种实际需 要,对未知的或不完全知道的总体参数提出一些假设,然 后根据样本的实际结果和统计量的分布规律,通过一定的 计算,作出在一定概率意义下应当接受哪种假设的方法。 显著性检验的方法很多 ,常用的有t检验、F检验和2检验 等。尽管这些检验方法的用途及使用条件不同,但其检验 的基本原理是相同的。 参数估计包括两个方面,一是参数的点估计,二是参 数的区间估计。 二、统计量的抽样分布与统计推断的关系
(一)、总体方差已知时单个平均数的假设检验
当总体方差 2 已知时,根据样本平均数抽样分布的性 质,无论样本容量是大是小,均可用u分布计算实得差异 由抽样误差造成的概率,所以称u检验。
(2)在假定H0成立的前提下,根据统计量的抽样分布,计 算实得差异由抽样误差造成的概率。(构造合适的统计量)
就越大, X X X 发生的可能性就越小,说明抽样误差造成的概率就越小,计算 X 偏离
程度大小用P X 0 X i 0 表示。因此计算实得差异由抽样误差
另一种错误,原假设实际上是错的,而依据某一样本作出了接受 原假设的推断,也就是将错误的假设误认为是正确的,我们将这种“ 以假为真”的错误叫做纳伪错误,习惯叫它第2类错误或II型错误。 犯这种错误的原因是在原假设(错误的)下检验统计量抽样分布 的接受域与检验统计量的真实抽样分布发生部分重叠,当检验统计量 的取值落在了这个重叠的区域中时,我们将它当成了原假设下抽样分 布的抽样值。因而犯了纳伪错误。犯这种错误的概率等于真实抽样分 布中重叠部分的面积,用 表示。
1当 U
u0.05时,P 0.05,统计假设检验接受H 0,即要比较的
总体均值之间无显著差异。
2 当u0.05 U 3 当 U
u0.01时, P 0.05,假设检验否定H 0,接受H A, 0.01
即要比较的总体均值之间存在显著差异。 u0.01时,P 0.01,假设检验否定H 0,接受H A,即要比较
在H0成立的前提下,根据统计量的分布,计算实得 差异(表面效应)由抽样误差造成的概率大于0.05,则实 得差异(表面效应)由抽样误差造成的可能性较大,没有 理由认为实得差异(表面效应)由两总体平均值不同而造 成,检验的结果应当接受H0,两个总体平均值“差异不显 著”;如果实得差异(表面效应)由抽样误差造成的概率 在0.01~0.05之间,表示两个总体平均值“差异显著”, 应否定H0,接受HA;如果其概率值小于0.01,同样否定 H0,接受HA,表示两总体间存在“极显著差异”。
(3)根据小概率事件实际不可能性原理判断是否 接受H0
本例,在假定H0成立的前提下,经计算一个样本平 均数与总体平均数相差125以上,这一事件由抽样误差造 成的概率为0.0124,小于0.05,所以是一个小概率事件, 根据小概率事件实际不可能性原理,可以获得如下结论: