Chapter4统计推断概述
生物统计学-4-统计推断
Ⅰ
µ0 µ
Ⅱ
Ⅰ和Ⅱ重合
0.025 0.95
α错误
µ = µ0
0.025
犯第一类错误的概率等于显著水平 α 值
Ⅰ和Ⅱ不重合
C1
β
C2
Ⅰ
Ⅱ
α 2
α 2
-uα
µ0
uα
µ
犯第二类错误的概率记为 β 值
为了降低犯两类错误的概率,一般从选取适当的显 为了降低犯两类错误的概率,一般从选取适当的显 来考虑; 著水平α 和增加试验重复次数 n 来考虑; 结论: 结论: 1. 两类错误既有联系又有区别:α 错误只在否定 H 时 两类错误既有联系又有区别: 0 发生,β 错误只在接受 H 0时发生;α 错误增加时 β 发生; 发生, 错误减小, 错误减小; 错误减小,β 错误增加时 α 错误减小; 2. β 还依赖于 µ − µ0 的距离; 的距离; 3. 可使两类错误的概率都减小; n ↑, σ ↓ 可使两类错误的概率都减小;
1.3 对二个样本平均数相比较的假设:假设二个样本平均 对二个样本平均数相比较的假设: 数 的总体, x1和 x 2 来自于具有平均数 µ1和µ 2 的总体,即: H 0 : µ1 = µ 2
H A : µ1 ≠ µ 2
2. 确定显著性水平: 确定显著性水平: 在确定无效假设和备择假设后, 在确定无效假设和备择假设后,要确定一个否定 H 0 的 概率标准,即显著性水平( 概率标准,即显著性水平(significance level)或概率 ) 水平( ),记作 水平(probability level),记作 α ,生物统计中常取 ), 两个显著水平; α = 0.05和α = 0.01 两个显著水平; 3. 计算概率; 计算概率; 4. 推断是否接受假设 小概率原理:如果根据假设条件能够确定事件 出现 小概率原理:如果根据假设条件能够确定事件A出现 为很小, 的概率 α 为很小,则在此假设条件下的 n 次独立重复 试验中,事件 将按预定的概率发生 将按预定的概率发生, 试验中,事件A将按预定的概率发生,而在一次试验 中则几乎不可能发生; 中则几乎不可能发生;
4.统计推断
u= u=
x−µ
σX
x−µ SX
= =
x−µ
σ
S
n
(总体方差已知) (大样本数)
x−µ n
上述式实际上是当 > 时 单样本t检验的近似式。 检验的近似式 上述式实际上是当n>30时,单样本 检验的近似式。
为了解某一地区硝基苯污染问题, 例 : 为了解某一地区硝基苯污染问题 , 随机抽取了 208水样品, GC测得均数为 144. ppb,标准差为35 82。 测得均数为144 35. 208 水样品,用 GC 测得均数为 144 . 9 ppb , 标准差为 35 . 82 。 水样品 现已知全国的均数为130,问该地区是否与全国水平相同? 现已知全国的均数为130,问该地区是否与全国水平相同? 130 本研究的样本例数n=208>30,属于大样本;又已 =208>30,属于大样本; 知一个总体指标130。故本题可用大样本u检验。 检验。 知一个总体指标130。 130
σ
x - µ S
X
X
x - µ S
X
X
假设检验的概念
假设检验( 假设检验(hypothesis test)又称显著性检验 ) test)是统计推断中另一类非常重 (significance test)是统计推断中另一类非常重 要的方法,是统计学中应用最广泛的方法。 要的方法,是统计学中应用最广泛的方法。其意义 和思维逻辑可通过下面的例题说明。 和思维逻辑可通过下面的例题说明。
统计推断
统计推断
• 统计推断是根据总体理论分布,从样本的估计数对总体参 统计推断是根据总体理论分布, 数作出的推断。 数作出的推断。 • 统计推断包括假设检验和参数估计。 统计推断包括假设检验和参数估计。 • 假设检验是在总体理论分布和小概率原理基础上,通过提 假设检验是在总体理论分布和小概率原理基础上, 出假设,确定显著水平,计算统计数,作出推断。 出假设,确定显著水平,计算统计数,作出推断。 • 总体参数估计又分区间估计和点估计,与假设检验比较, 总体参数估计又分区间估计和点估计,与假设检验比较, 形式不同,性质一样。 形式不同,性质一样。
第4章 统计推断(g)1PPT课件
原品种 µ0 =300kg ,σ=75kg
新品系 n=25,-x=330kg
µ
? µ≠µ0
3
一、数据结构
从服从正态分布N(μ0=300,σ=75)的原品种总体中,随 机抽取n个个体构成样本,则样本观察值可表示为
xi = μ0 + εi (i=1,2 ,… ,n)
(4.1)
而从新品系总体中随机抽取的样本观察值,则为
xi = μ + εi (i=1,2 ,… ,n)
(4.2)
新品系与原品种的产量差异为
τ = μ - μ0
(4.3)
将(4.3)代入(4.2)得
xi = μ0 + τ + εi (i=1,2 ,… ,n)
(4.4)
4
二、统计假设测验的基本思路
对一个样本的n个观察值xi求平均数,由(4.4)有
x0i
为试验误差的概率。
9
标准正态离差 u=
x- _ µ0 σ x-
=
330-300 75/√25
=2
(σ
x-
=σ √n
)
查附表2,即得u值对应的概率p<0.05。表明30Kg差异 属于试验误差的概率小于5%。
根据小概率事件实际不可能性原理,这个假设应被否定, 即表面差异不全为试验误差,新品系与原品种之间存在真实 差异。
12Байду номын сангаас
四、统计假设测验的几何意义
α=0.05时,由附表2得u=1.96
若要在0.05水平上接受H0: µ= µ0
则
u=
︳x- _ µ0 σ x-
︳ <
1.96
(σ
x
=σ √n
)
假设接受区域(acceptance region)
统计学-第四章-统计推断的理论基础
1,ω = 正 = , X(ω) 0,ω = 反
随机变量也是变量,是变量就要有值。投币事件X的值可以设为 随机变量也是变量,是变量就要有值。投币事件 的值可以设为1 的值可以设为 表示正面, 表示反面 当然,也可将X设为 表示反面; 设为1或 表示正面 表示正面, 或0,1表示正面,0表示反面;当然,也可将 设为 或2,1表示正面, , 表示正面 2表示反面。 表示反面。 表示反面
第一节: 第一节:概率与概率分布
(1)古典(等可能)概型的概率 )古典(等可能) 古典概型确定概率的三个步骤: 古典概型确定概率的三个步骤: 第一,找到随机实验的样本空间,即样本数 ; 第一,找到随机实验的样本空间,即样本数n; 第二,事件A发生的样本数 ; 发生的样本数m; 第二,事件 发生的样本数 第三,计算 的值。 第三,计算P(A)=m/n的值。 的值
第一节: 第一节:概率与概率分布
离散型随机变量举例: 离散型随机变量举例:
在一个箱子中有10个大小、材质完全相同的小球,其中红色的有 个 在一个箱子中有 个大小、材质完全相同的小球,其中红色的有2个, 个大小 蓝色的5个 黄色的有3个 从箱子中随机摸出一个小球, 蓝色的 个,黄色的有 个。从箱子中随机摸出一个小球,摸出红球的概 率为0.2,摸出篮球的概率为0.5,摸出黄球的概率为0.3。随机变量X的 率为 ,摸出篮球的概率为 ,摸出黄球的概率为 。随机变量 的 概率分布情况就可用下表表示: 概率分布情况就可用下表表示:
P ( AB) P( A) P( B) 若事件A与 相互独立 相互独立, 若事件 与B相互独立,则: P( B A) = = = P( B) P( A) P( A)
第一节:概率与概率分布 第一节:
事件关系的文氏图计算法
第4章 统计推断2
成对数据平均数的比较
在生物学或医学试验中,经常将试验配成若干配对,分 别作以不同处理,例如:用高粱的若干父本与两个不同 母本杂交,同一父本的两个杂交种是一个配对;用若干 同窝的两只动物作不同处理,每一窝的两只动物是一个 配对;在做药效试验时,测定若干试验动物服药前后的 有关数值,服药前后的一对数值是一个配对,等等。
2 2 x1 120.17( g ) s1 451.97( g ) 2 2 x2 101.00( g ) s2 425.33( g )
n1 12 n2 7
(1)假设 H0:σ12=σ22=σ2
HA: σ12 ≠ σ22
(2)水平 选取显著水平α=0.05 (3)检验
s12 451.97 F 2 1.063 s2 425.33
差异?
B法:调查200株,平均天数为70.3d
试比较两种调查方法所得黑麦从播种到开花天数有无显著差别。
分 析
(1)这是两个样本(成组数据)平均数比较的假设检 验,σ12=σ22=(6.9d)2,样本为大样本,用u检验。
(2)因事先不知A、B两方法得到的天数孰高孰低,用 双尾检验。
6
(1)假设 (2)水平 (3)检验
2 e 2 1 2 2
s x1 x2
2 2 se se 10 .005 n1 n2
x1 x2 t 1.916 sx x
1 2
x1 x2 t 1.916 sx x
1 2
df=(n1-1)+(n2-1)=17 t 0.05(17) =2.110 P>0.05
差值样本的平均数等于样本平均数的差值
25
样本差数的方差
s
2 d
第4章统计推断PPT课件
x x (3.41)
t
s x
sn
9
t分布的特征:
(1)曲线左右对称,围绕平均数μt=0向两侧递降。
(2) t分布受自由度df=n-1的制约,每个自由度都有一
条t分布曲线。
(3)和正态分布相比,t分布的顶部偏低,尾部偏高, df〉30时,其曲线接近正态分布曲线,当df→+∞时,则和正态 曲线重合。
拒绝域比较,若没落入,则认为有显著差异,单未 达极显著差异,拒绝H0
若也落入α=0.01拒绝域,则认为差异极显著,拒
绝H0
36
例3.1 已知豌豆重量(mg)服从N(377.2,3.32)。
在改善栽培条件后,随机抽取9粒,籽粒平均重 X =379.2,若标准差仍为3.3,问改善栽培条件是否显 著提高了豌豆籽粒重量?
解:1.小麦的株高是服从正态分布的随机变量
2.假设:
H0: σ=σ0(14cm)
HA: σ<σ0(14cm)
关于备择假设的说明:小麦经过提纯后株高只 能变得更整齐,绝不会变得更离散。即σ只能小于σ0 。因此, HA: σ<σ0
3.显著性水平:规定α=0.01
40
4.统计量的值: 2n 1 0 2S2 ~2n1
正态分布和t分布:双侧检验--取绝对值与分位数 比 ;单侧检验--下单尾是小于负分位数拒绝H0; 上单尾是大于分位数拒绝H0。
χ2分布:下侧分位数和上侧分位数
35
5.计算统计量
把样本观测值代入统计量公式,求得统计量取值 ,检查是否落入拒绝域。
若没落入,则认为无显著差异,接受H0
若落入α=0.05的拒绝域,则应进一步与α=0.01的
10
注: t1(n)t(n) 分位点
生物统计第4章 统计推断
4.1.5 变异性的显著性检验:2检验
一个混杂的小麦品种,株高标准差0 =14cm,经 提纯后随机抽取10株,它们的株高为:90, 105, 101, 95, 100, 100, 101, 105, 93, 97, 考察 提纯后的群体是否比原群体整齐?
1、小麦株高是服从正态分布的随机变量 2、提出假设 关于备择假设的说明:小麦经提纯后只 能变得更整齐,绝不会更离散,即只能 小于0,因此HA:< 0 。
2014-8-4
4.1.5 变异性的显著性检验:2检验(续) 3、显著性水平规定=0.05 4、统计量的值:
5、建立的拒绝域:因HA: < 0 ,故为下尾 单侧检验,当2<21-时拒绝H0 ,从附表6中可 以查ቤተ መጻሕፍቲ ባይዱ29,0.99 = 2.09 6、结论,因2<29,0.99,拒绝H0 ,接受HA , 提纯后株高比原株高整齐。
2014-8-4
小概率原理
在一次试验中,几乎是不会发生的,若根 据一定的假设条件计算出来的该事件发生 的概率很小,而在一次试验中它竟然发生 了,则可认为原假设条件不正确,给予否 定。 在生物统计的显著性检验中,通常取5%或 1%小概率为显著性水平,记为“”
2014-8-4
小概率原理用于显著性检验
2014-8-4
两种类型的错误
–Ⅰ型错误:假设是正确的,却错误地拒绝了它。 犯Ⅰ型错误的概率不会大于 。(以真为假) –Ⅱ型错误:当 0但错误地接受了 = 假设时所犯的错误。(以假为真)
0的
2014-8-4
关于两种类型错误的三点解释
• 当1越接近于0时,犯Ⅱ型错误的概率愈 大;当1越远离0时,犯Ⅱ型错误的概率 愈小。 • 在样本含量和样本平均数都固定时,为了 降低犯Ⅰ型错误的概率 (就应将图5-2 中的竖线右移),必然增加犯Ⅱ型错误的 概率。 • 为了同时降低和就需增加样本含量。
第四章 统计推断
因此,假设检验步骤简写成:
1、建立假设; 2、计算检验统计量;
3、确定否定域(临界值),作出统计推断
第20页,本讲稿共65页
4.两尾(双侧)检验和一尾(单侧)检验
既考虑左边否定域又考虑右边否定域,即考虑统计量抽样
分布曲线两侧(两个尾部)的检验称之为两尾检验。
H 0: 0 ; H A: 0
犯这种错误的原因在于我们是根据小概率事件原理来确定否定域 进而进行推断的,但事实上小概率事件并不是绝对不发生,一旦发生 了就否定原假设,因而就犯了弃真错误。犯弃真错误错误的概率就等
于我们所规定的小概率,即显著性水平。 我们可以通过选择显著性
水平来控制犯弃真错误的概率。
第26页,本讲稿共65页
另一种错误,原假设实际上是错的,而依据某一样本作出了接受 原假设的推断,也就是将错误的假设误认为是正确的,我们将这种“ 以假为真”的错误叫做纳伪错误,习惯叫它第2类错误或II型错误。
1当U u0.05时,P 0.05,统计假设检验接受H0,即要比较的
总体均值之间无显著差异。
2当u0.05 U u0.01时,0.01 P 0.05,假设检验否定H0,接受HA,
即要比较的总体均值之间存在显著差异。
3当U u0.01时,P 0.01,假设检验否定H0,接受HA,即要比较
的总体均值之间存在极显著差异。
第7页,本讲稿共65页
统计假设检验的基本原理: 是根据试验目的对要比较的总体提出假设,先承认
待检验的假设成立,然后观察在此假设前提下样本的出 现是否属于小概率事件,如果是小概率事件,则有充分
的理由怀疑或否定原假设,反之则不能否定原假设。
第8页,本讲稿共65页
2.统计假设检验基本步骤
第4章 统计推断
第一节 假设检验的方法 第二节 单个样本平均数假设测验 第三节 两个样本平均数假设测验 第四节 参数的区间估计
学习目的
理解假设检验与区间估计的原理
掌握假设检验的步骤 对实际问题进行统计测验及总体参数估 计
第一节 假设检验的方法
统 计 推 断 的 概 念
总体
抽样分布
样本1
表2 两种栽培方法的地瓜产量 单位(kg/亩)
有机
2722.2
2866.7
2675.9
2169.2
2253.9
2315.1
标准
951.4
1417
1275.3
2228.5
2462.6
2715.4
(一) 成组数据的平均数比较
1. u检验
两个样本总体方差已知,或总体方差未知, 但为大样本时采用 例1 已知早稻佳辐品种σ2=1.35,用A、B两种方 法取样,A取15个样点,平均产量x1=7.69;B法取9 个样点,平均产量x2=8.77。检验两种取样法测得
t = d sd
[例4-7] 选生长期、发育
进度、植株大小和其他方
面皆比较一致的两块地的 红心地瓜苗配成一对,共 有6对。每对中一块地按 标准化栽培,另一块地进
表 两种栽培方法的地瓜产量 单位(kg/亩)
有机 2722.2 2866.7 2675.9 2169.2 2253.9 2315.1
标准 951.4 1417 1275.3 2228.5 2462.6 2715.4
两尾测验与一尾测验
假设 双尾测验 左尾测验 右尾测验
H0 HA
μ=μ0 μ≠μ0
μ≥μ0 μ<μ0
μ≤μ0 μ>μ0
生物统计第4章 统计推断.
小概率原理用于显著性检验(续)
• 解: 1 样本平 均数满足何种 分布?
• 2 从正态分布表查出 P = 0.03438 < 0.05,这是一个小概率事件,该样本 几乎不可能抽自 = 10.00 g 的总体。
2018/12/8
单侧检测(one-sided test)
• 上尾检验(upper tailed test):拒绝H0后, 接受 > 0,如下左图。 • 下尾检验(lower tailed test):拒绝H0后, 接受 < 0 ,如下右图。
2018/12/8
4.1.2单个样本显著性检验的程序(续)
3. 两种类型的错误 不宜定得太严,太严会增加 。尽量增 加样本含量n 4. 确定检验方法:u检验、t检验、卡方检 验、F检验等。 5. 建立在水平上的H0的拒绝域(注意单 侧或双侧):单侧检验时,拒绝域只在 零假设的一侧有一个区间。做双侧检验 时,拒绝域在零假设的两侧各有一个区 间。
2018/12/8
小概率原理
在一次试验中,几乎是不会发生的,若根 据一定的假设条件计算出来的该事件发生 的概率很小,而在一次试验中它竟然发生 了,则可认为原假设条件不正确,给予否 定。 在生物统计的显著性检验中,通常取5%或 1%小概率为显著性水平,记为“”
2018/12/8
小概率原理用于显著性检验
• 例:用实验动物作实验材料,现从一批动 物中抽取含量n = 10的样本并已经计算出 平均值为 10.23 g 。要求动物满足平均体 重 =10.00 g, = 0.4 的正态分布总体, 若 < 10.00 g 须再饲养,若 >10.00 g 则应淘汰,问此批动物材料是否合适?
2018/12/8
2018/12/8
【生物统计】4第四章统计推断
当 2未知
x
x
~ N(0,1)
2
(n 1) s 2
2
~ 2 (n 1)
x
x
x x (n 1) s ~ t (n 1) 2 sx (n 1) s n
参数估计 - 区间估计
x P(t t ) 1 sx
2
n
参数估计 - 点估计
均方误差:
2 2 ˆ ˆ ˆ E( ) Var( ) [E( ) ]
一致性:估计值随着样本的增大而更加接近 真值 有效性: 抽样方差达到最小的无偏估计 充分性: 估计函数包含了关于被估参数的全 部信息
参数估计 - 区间估计
以一定的置信度对参数可能取值范围的估计
(n 1) s ( x1 x ) 1.5460
2 2
ˆ x 是的无偏估计量 E( x )
参数估计 - 点估计
样本方差的期望
E[ ( xi x ) 2 ] E{ [(x ) (x )]2 } E[ ( x ) 2 2( x ) ( x ) n( x ) 2 ] E[ ( x ) n( x ) ] E ( x ) nE( x )
正态总体样本平均数的分布
正态总体样本平均数的分布
设样本来自正态总体 N( , 2),则样本平均数也 服从正态分布,其总体均数为 ,方差为 2/n。
X ~ N(, 2 )
x ~ N( , ) n
2
正态总体样本平均数的分布
正态总体样本平均数的分布
设样本来自正态总体 N( , 2),则样本平均数也 服从正态分布,其总体均数为 ,方差为 2/n。
计量经济学 第四章 统计推断: 估计与假设检验
第四章统计推断:估计与假设检验4.1 统计推断的含义总体和样本总体是指我们所关注现象出现的可能结果的全体,样本是总体的一个子集(例如,杭州的人口;下沙开发区的人口)。
宽泛地说,统计推断研究的是总体与来自总体的样本之间的关系。
国内股票交易市场共有1500多支股票。
假定某一天从中随机选取50支,并计算这50支股票价格与收入比的平均值—即P/E比值。
(例如,一支股票的价格为50元,估计年收益为2.5美元,则P/E为20;也就是说,股票以20倍的年收益出售。
)根据50支股票的平均P/E值,能否说这个P/E值就是总体的1000多股票的平均P/E值呢?如果令X表示一支股票的P/E值,X表示50支股票的平均P/E值,能否得知总体的均值E(X)呢?此处统计推断的实质就是从样本值均值(X)归纳出总体值E(X)的过程。
4.2 参数估计通常假定某一随机变量X服从某种概率密度,但并不知道其分布的参数值。
例如,X服从正态分布,想知道其两个参数,均值E(X)=u X,及方差2 xδ。
为了估计未知参数,一般的步骤是:假定有来自某一总体,样本容量为n的随机样本,根据样本估计总体的未知参数。
因此,可将样本均值作为总体均值(或期望)的估计量,样本方差作为总体方差的估计量。
这个过程称为估计问题,估计问题有两类:点估计(point estimation)和区间估计(interval estimation)。
假定随机变量X(P/E值)服从某一未知均值和方差的正态分布。
但是,有来自该正态总体的一个随机样本(50个股票的P/E值),如何根据这些样本数据计算总体的均值u X (=E(X))和方差2 x δ?表4 - 1点估计据表4 - 1的数据 50个P/E 的样本均值为11.5,显然我们可以选择X 作为u X的估计值。
我们称这个单一数值为u X 的点估计值。
(注意:点估计量是一个随机变量,因为其值随样本的不同而不同。
)某一特殊的估计值(比如11.5)的可信度有多大呢?虽然X 可能是总体均值的“最好的”估计值,但是某个区间,比如8~10,更可能包括了总体均值。
第04章 统计推断
7
例题
• 设矽肺病患者癿血红蛋白含量具平均数0=126(mg/L), 2 =240 (mg/L) 癿正态分布 • 现用克矽平对6位矽肺病患者迚行治疗,治疗后化验测得其平均血红 蛋白含量
x =136(mg/L)
• 克矽平治疗矽肺病是否能提高血红蛋白含量?
– 总体方差σ2已知时,无论样本数量是多少,均采用u检验
– 总体方差σ2未知时,大样本采用u检验,小样本采用t检验
27
一个样本平均数的检验
• 总体方差σ2已知癿样本平均数检验——u检验 • 总体方差σ2未知癿样本平均数检验
u
x
x
x u sx x , df=n-1 – 小样本平均数检验——t检验 t sx
• 接受H0,否定HA
– P< • H0可能错误 • 否定H0,接受HA
– 差值10 mg/L应归亍误差所
致
13
显著水平与u临界值
• P(|u|>1.96) =0.05,P(|u|>2.58) =0.01 • u >1.96,P(|u|) <0.05,差异达显著水平 • u >2.58,P(|u|) <0.01,差异达极显著水平
右尾
-1.96x
否定区
接受区
0
+1.96x
否定区
17
双尾检验(α=0.01)
P( 2.58 x x 2.58 x ) 0.99
u x 2.58 x
左尾
0.005
0.99
0.005
右尾
-2.58x
否定区
接受区
0
+2.58x
第4章 统计推断
ux1 361 261.5 8 1
x
2 4/06
P(u1.58)10.1142
即所得样本平均数与126相差为10以上的概率为0.1142, 注意:0.1142不是实得差异的概率,而是超过实得差异的概率。
6
概率的计算方法: U检验
总体方差已知 总体方差未知,但n>30
t检验
样本容量n<30且总体方差未知
2 合理建立统计假设 ,正确计算检验统计量
确定单尾检验还是双尾检验 选用正确的统计量,U检验或t检验
17
3 正确理解差异显著或极显著的统计意义
结论中的“差异显著”或“差异极显著”不要误解为相 差很大或非常大,也不能认为在专业上一定就有重要或很重 要的价值。
“显著”或“极显著”指表面上如此差别的不同样本来 自同一总体的可能性小于0.05或0.01,已达到了可以认为它 们有实质性差异的显著水平。
34
按题意,此例应采用单侧检验。 1、提出无效假设与备择假设
H0:= 246,HA:> 250 2、计算 t 值
经计算得: x =114.5,S=1.581
35
所以
t
x
Sx
=
252 9.115
19
4 结论不能绝对化
同一试验,试验本身差异程度不同, 样本含量不同,显著 水平高低不同, 统计推断的结论可能不同。
否定H0时可能犯Ⅰ型错误,接受H0时可能犯Ⅱ型错误。
尤其在P 接近α时,下结论应慎重,有时应用重复试验来证 明。 总之,具有实用意义的结论要从多方面综合考虑,不 能单纯依靠统计结论。
12
四、双侧检验与单侧检验 检验目的不同(HA不同): ɑ的否定域不同
13
即 U >1.96,拒绝
4第四章 统计推断
0.01
四、假设检验中的两类错误 如果H0不是真实的
µ ≠ µ 0 µ = µ1
假设检验却接受了它
第二类错误,β 错误,纳伪错误,II型错误
β µ = P( II型错误)=P(接受H 0 , 而H 0是错误的,即µ ≠ µ0,µ=µ1 )
矽肺病患者的血红蛋白含量
总体平均数
µ0 = 126
x = 136
治疗后患者的血红蛋白含量
样本平均数
µ
x
= µ
0
= 126
µ
x
= µ
0
= 126
如果从正态分布总体N(μ,σ2)进行抽样,其样本平均数x是 一具有平均数 μ,方差σ2/n的正态分布,记作N(μ,σ2/n)。
σ
n
2
σ
2 x
=
=
240 = 40 6
α=0.05 α= 0.01
显著水平* 极显著水平**
统计中,常把概率小于0.05或0.01作为小概率。
P>0.05(0.01) P≤0.05(0.01)
的假设可能是正确的,应该接受,同时否定H H0的假设可能是正确的,应该接受,同时否定HA;
否定H 接受H 否定H0,接受HA;
二、假设检验的步骤 确定统计量, 3. 确定统计量,计算概率
α
u0.01 = 2.33
接受区
否定区
查表时,单尾概率等于双尾概率乘以2
单尾检验比双尾检验容易对H0进行否定
三、双尾检验与单尾检验
α
2
α
2
否定区
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9个x1
x2
3 4 5 6
N=2 (3, 6) μ=4.5 σ2=9/4=2.25
f2 1 3 3 1 8
n 3 N 2 n=3 8个x 2
Experimental Design and Biostatistics China Agricultural University
C4.20
2006
2
n)
C4.10
2006
中心极限定理的应用:
• 抽样平均数的分布为正态分布的情况
基础总体为正态分布 样本容量足够大,n=30为一个公认的大小样本的界 限
• 可以通过u变换来估计抽样平均数的概率区间
u
1999
xx
x
x
n
11
样本平均数的分布
• 样本平均数 x 是以μ为中心,并按 x 指定的范围 而作正态分布 (在总体为非正态时,样本容量需有 适当大).
normal with mean μ and varianceσ2 /n, if n is large
x
l
l
As n → ∞
x
~N (μ,
σ2 /n )
Experimental Design and Biostatistics China Agricultural University
C4.14
2006
36 72 12 Experimental Design and Biostatistics 4 8 4/3
China Agricultural University
8 3 1.633
C4.4
2006
正态总体抽样统计数的分布特点:
a.样本平均数 x 是对总体的平均数 的无偏估计
2 b.用 n 做除数计算所得样本方差的平均数 S n 小于总体的方差 , S n 不是
1999
5
在统计上,如果所有可能样本的某一统计数的平均 数等于总体的相应参数,则称该统计数为总体相应 参数的无偏估值( unbiased estimate)
1999
6
样本
总体
n
X1
2
µ
2
б
?
n
S1 n
X2
2
S2
Xm
2
Sm
Experimental Design and Biostatistics 利用随机抽样样本的统计数对总体参数进行估计 C4.7 China Agricultural University
1999
x
x 的抽样误差。
17
样本标准差与样本标准误的关系:
二者是既有联系又有区别的两个统计量,样本标准误计算 公式反映了二者的联系。 二者的区别在于:
样本标准差S 是反映样本中各观测值 变异程度大小的一个指标,它的大小说明了 x 对该样本代 表性的强弱。 样本标准误是样本平均数 x , x ,..., x 的标准差,它是抽 1 2 k 样误差的估计值。
x1- x 2
-4 -3 -2 -1 0 1 2 3
f
1 5 12 18 18 12 5 1 72
x x
1
2
fx f 0.5 4 4.5 1 2
fx )2 fx 2 f 150 / 72 f (
x x
1
2
2
8
3
2
2 x1
f
C4.9
x
2006
样本平均数分布特点:
a.样本平均数分布的平均数等于基础总体的平均数,即 x =
2 2 b.样本平均数分布的方差等于总体方差除以样本容量,即 x , x n
n.
c.如果 X~N( , ),则样本平均数 X 是一个具有平均数为 ,方差为
9
4
3
China Agricultural University
2 x2
C4.22
2006
Experimental Design and Biostatistics
样本平均数差数总体的参数:
x x 1 2
1 2
x1 x2 n1 n2
2 2 x1
2 1
2 2
2006
2、样本平均数的分布及其参数
n=1 2 f 1 2 n=2 f 1 2.0 2.5 3 2 3.0 3.5
分布
n=4 f 1 4 10 16 19 16 10 4 1 81
n=8 2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75 6.00 26244 4 (8/3)/8 f 1 8 36 112 266 504 784 1016 1107 1016 784 504 266 112 36 8 1 C4.8 6561
1999
2 x2
23
平均数差数抽样分布的特性:
(1)两个样本平均数差数分布的平均数必等于两个总体平均数的差数, 即 x1 x2 = 1 2 (2)两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,
2 x1 x2
x1 , x2
,…
xn
1999
18
【例】已知μ =4.73头, σ=2.63,试求以n=30随机抽样时, 得到样本平均数等于或小于4.37的概率为多少?
n 30 u
x 4.73 x
x
2.63 30
0.480 0.75
4.37 4.73 0.48
P( x 4.73) P(u 0.75) 0.2266
4
fx ) 2 1 4 fx 3 4.0 f 2 2 x 4.5 n f (
5
2
5.0 5.5
总数 平均数 方差
6 Experimental 1 6 and Biostatistics 1 6.0 Design 12 3 36 9 324 China Agricultural University 4 4 4 8/3 (8/3)/2 (8/3)/4
2ห้องสมุดไป่ตู้06
不同样本容量抽样平均数的分布
1.20 1.00 0.80 f 0.60 0.40 0.20 0.00 2 4 x 6 基础总体 3.5 3.0 f 2.5 2.0 1.5 1.0 0.5 0.0 2 3 x 4 5 6 n=2
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
China Agricultural University x
因此知道μ和 x,就能应用u分布求得 x 在任一 区间出现的概率
1999
12
The normal Distribution is a good description of
l l
- Many naturally occurring phenomena - the average of non-normal phenomena It is the 2nd type that is helpful to us because we often rely on averages as a description of the phenomenon of interest. This will lead us to the central limit theorem
2
2
n 的正态
分布,即 X ~N( ,
2
n)
2
d.对于一个具有平均数 和方差 的非正态分布,随样本容量 n 的不断增大,样本
X ~N ( , 平均数的分布逐渐趋近正态分布,即 Experimental Design and Biostatistics
——中心极限定理
China Agricultural University
Chapter 4
统计推断概述
1999
1
第一节 抽样分布
统计学的一个主要任务是研究总体和样本之间的 关系。这种关系可以从两个方向进行研究。 从总体到样本的方向,其目的是要研究从总体中 抽出的所有可能样本统计量的分布及其与原总体的关 系。这就是本节所要讨论的抽样分布(sampling distribution) 。 从样本到总体的方向,即从总体中随机抽取一个 样本或一系列样本,所得结果去推断原来的总体。这是 统计推断问题。抽样分布是统计推断的基础。
2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75 6.00
20 18 16 14 12 10 8 6 4 2 0
n=4
1200 1000 800 600 400 200 0 n=8
f
Experimental Design and Biostatistics
2
2
2 2 的无偏估计; 用 n-1 (即自由度) 做除数计算所得样本方差的平均数 S n 1
2 等于总体 的方差, S n 1 是 无偏估计
2 2
c.因为 S n1 < ,所以 S n1 不是 的无偏估计。 因此,若有 k 个样本来合并估计基础总体的变异水平,应用其样本方差平 均,而不要用其标准差平均
1999 2
总体和样本之间的关系
y
Experimental Design and Biostatistics China Agricultural University
y
C4.3
2006