4第五章(一)统计推断概述1抽样分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
40
正态总体方差 正态总体方差的区间估计 总体方差的区间估计
α/2
1-α
c
2 1- a 2
α/2
2 χα 2
41
统计推断概述内容1 统计推断概述内容1小节
一 二 三 四 五 统计推断的概念 抽样分布的概念 统计量的概率分布-抽样分布 统计量的概率分布正态总体样本平均数的抽样分布 参数估计
42
�
13
2 值表 χ
χ2 分布上侧分位数表(P346):对于Y- χ2(n), 分布上侧分位数表(P346):对于Y 当给定其上侧(右侧)尾部的概率α 当给定其上侧(右侧)尾部的概率α时,该分布在横 坐标上的临界值为 坐标上的临界值为χ2 α
P( X ? c )
2 a
a
14
例:df=9, α=0.05,查表得: df=9, =0.05,查表得: χ2 0.05 = 16.9 ,意为大于16.9的概率(右侧)为0.05; 意为大于16.9的概率 右侧) 0.05; 的概率(
Biostatistics and Experimental Design
畜牧,兽医专业
生物统计 附 试验设计
1
第五章( 第五章(一)统计推断概述
抽样分布 参数估计简介 假设检验的基本原理
2
统计推断概述内容1 统计推断概述内容1
一 二 三 四 五 统计推断的概念 抽样分布的概念 统计量的概率分布-抽样分布 统计量的概率分布正态总体样本平均数的抽样分布 参数估计
n
29
2 正态总体样本平均数的分布
设样本来自正态总体 设样本来自正态总体 N( , σ 2),则样本平均数也服从 正态分布, 正态分布,其总体均数为 ,方差为σ 2/n.
X ~ N( , σ )
2
σ2) x ~ N( ,
n
Z= x- m s
2
~ N(0,1)
30
n
中心极限定理
(1) 无论样本所来自的总体是否服从正态 分布, 只要样本足够大,样本平均数就 只要样本足够大,样本平均数就 近似服从正态分布,样本越大,近似程度 越好. (2)所需的样本含量随原总体的分布而异, 30,无论原总体是何 但只要样本含量 ≥ 30,无论原总体是何 分布,都足以满足近似的要求. (3)设原总体的期望为 ,方差为σ 2, 则样本平均数的期望为 ,方差为σ 2 /n.
38
正态总体平均数 正态总体平均数的区间估计 总体平均数的区间估计
对于t分布来说,对于给定的置信度1- 和自 由度,可以查得两尾概率为 的临界t值 t分布两尾 分布两尾 概率分位点
x- m P (- ta # sx
ta ) = 1- a
P( x - ta sx #m
x + ta sx ) = 1- a
5
统计推断概述内容 二 抽样分布的概念
6
二 抽样分布的概念
1 随机抽样(random sampling):是指总体 随机抽样( sampling):是指总体 中每一个个体都有同等的机会被抽取到样本 中去,这种抽样方法叫随机抽样. 中去,这种抽样方法叫随机抽样. 2 抽样分布(sampling distribution):从 抽样分布( distribution):从 一个总体中独立,随机地抽取含量为n 一个总体中独立,随机地抽取含量为n的样 本,并由样本计算各种统计量,则由 本,并由样本计算各种统计量,则由样本统 计量相对应的随机变量的概率分布为抽样分 计量相对应的随机变量的概率分布为抽样分 布.
8
统计推断概述内容 统计量的概率分布三 统计量的概率分布-抽样分布
9
三 统计量的概率分布-抽样分布 统计量的概率分布原总体
样本1 样本 样本2 样本 样本n 样本 n→∞ 统计量
x1
x2
新总体
x2
X2分布,F分布 分布, 分布
正态或t分布
10
2 (chi-square)分布 1,χ (chi-square)分布
31
正态总体样本方差的 分布
样本方差的期望和方差 设样本来自均数为 ,方差为σ 2的总体 设样本为简单随机样本
s =
2
( xi - x ) n- 1
2
32
正态总体样本方差的 分布
样本方差的分布
邋( x i
x)
2
s
2
= =
( xi - m) - n( x - m) s
2 2 2
2
2
骣 骣i - m÷ x - m÷ x ÷ ~ c 2 (n - 1) - ÷ s ÷ s n ÷ ÷ 桫 桫
2
s =
2
( xi - x ) 2 n- 1
(n - 1) s 2 ~ c (n - 1) 2 s
33
统计推断概述内容 五 参数估计
34
五 参数估计
参数估计(Parameter 参数估计(Parameter estimation ):以样本 ):以样本 统计量对总体参数进行估计. 基本方法:
点估计(point estimation) 点估计(point estimation) 区间估计( 区间估计(interval estimation) estimation)
3
统计推断概述内容 一 统计推断的概念和内容
4
一 统计推断的概念和内容
统计推断:根据抽样分布规律和概率论,由样本统 统计推断:根据抽样分布规律和概率论,由样本统 计量来推论总体参数;对未知总体的分布特征进行 检验. 内容: (1)参数估计(parameter estimation):用样本统计量 参数估计( estimation):用样本统计量 估计(点估计,区间估计)总体参数(平均数,方 差). (2)假设检验(hypothesis testing):又称显著性检验, 假设检验( testing) 即利用样本统计量对所属总体的分布特征进行检验.
F ~ F(m, n)
21
F 分布曲线
22
F 分布性质
(1)F分布随机变量的取值范围为(0,∞) 分布随机变量的取值范围为( (2)F分布的分布曲线受两个自由度的影响 n), (3)若F ~ F(m, n),则 1/F ~ F(n, m) (4)若t ~ t(n),则 t 2 ~ F(1, n)
28
1 样本平均数的期望和方差
方差 Var ( x ) = s 2 = Var ( 1 xi ) x n 1 = 2 Var ( x1 + x2 + + xn ) n 1 2 2 2 = 2 (s + s + + s ) n 2 1 s 2 = 2 ns = n n s 标准差 sx = 平均数的标准误) (平均数的标准误)
39
正态总体方差 正态总体方差的区间估计 总体方差的区间估计
(n - 1) s 2 ~ c (n - 1) 2 s
2
χ2分布上尾 概率分位点
P (c
2 1- a 2
(n - 1) s # 2 s
2
2wk.baidu.com
c
2 a 2
) = 1- a
2
(n - 1) s 2 P( 2 #s c 1- a 2
(n - 1) s ) = 1- a 2 ca 2
7
抽样分布的概念
简单随机样本
抽样是完全随机的 - 总体中的每个个体都有相同 的机会被抽中 抽样是彼此独立的 - 每次抽样的结果都不会影响 到其他抽样的结果
样本统计量的概率分布称为抽样分布
样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布 若干统计量又组成不同于原总体的新总体,其概率 分布为抽样分布
定义(P156) 定义(P156)
设有n个随机变量X 设有n个随机变量X1, X2, , Xn,彼此独立且都 服从标准正态分布 N(0, 1),则称随机变量 1),
xi - m 2 Y = 邋X = ( ) s 服从自由度为n的 分布, 服从自由度为 的χ2分布,记为
2 i
Y ~ χ ( n)
2
11
25
统计推断概述内容 四 正态总体样本平均数的抽样分布
26
四 正态总体样本平均数的抽样分布
1 样本平均数的期望和方差
设样本来自均数为 ,方差为σ 2的总体 设样本为简单随机样本
1 x = xi n
27
1 样本平均数的期望和方差
期望
1 E ( x ) = mx = E ( xi ) n 1 = E ( x1 + x2 + + xn ) n 1 = (m+ m+ + m) n 1 = nm = m n
x + ua s x ) = 1- a
37
正态总体平均数 正态总体平均数的区间估计 总体平均数的区间估计
2 当σ 2未知,为小样本时(P88) 未知,为小样本时( )
x- m ~ N(0,1) sx
x- m sx
2
(n - 1) s 2 ~ c (n - 1) 2 s
2
x- m x- m (n - 1) s = = ~t(n - 1) 2 s (n - 1) s n sx
χ2 分布曲线
12
2 分布性质 χ
(1)χ2 分布随机变量的取值范围为(0,∞) 分布随机变量的取值范围为(0 (2) χ2分布的可加性: 若Y1 ~ χ2 (n),Y2 ~ χ2 (m),且相互独立, 则:Y1 ± Y2 ~ χ2 (n ± m) (3)χ2 分布为非对称分布,其分布曲线的形 分布为非对称分布,其分布曲线的形 状由自由度决定,自由度越大,分布越趋于 对称 当 n → ∞, χ2 (n) → N(n, 2n) N(n 2n
36
正态总体平均数 正态总体平均数的区间估计 总体平均数的区间估计
已知或为大样本时: 1 当σ 2已知或为大样本时:
σ ) x ~ N ( ,
2
n
x- m ~ N(0,1) sx ua ) = 1- a
标准正态分 布两尾概率 分位点
x- m P (- ua # sx
P( x - ua s x #m
15
2 ,t 分布
定义(P64) 定义(P64) 设随机变量Z ~ N(0, 1),Y ~ χ2 (n),且相互独 1), 立,则 随机变量
t=
Z Y n
服从自由度为n的 分布, 服从自由度为 的 t 分布,记为
t ~ t ( n)
16
t 分布曲线
17
t 分布性质
(1) t 分布与标准正态分布相似,是对称分布;关 分布与标准正态分布相似,是对称分布;关 于 t = 0对称,只有一个峰,峰值在t = 0 0对称,只有一个峰,峰值在t (2)分布曲线受自由度影响,自由度越小,离散程 度越大 (3)当 n → ∞,t(n) → N(0, 1)
35
参数估计 - 区间估计
以一定的置信度对参数(如总体平均数) 以一定的置信度对参数(如总体平均数)可能 取值范围的估计 使得对于给定的α 常用 常用α 求统计量 t1和 t2 ,使得对于给定的α (常用α =0.05和α =0.01),如有: 和 ,如有:
P (t1 #q
t2 ) = 1- a
1 - α :置信度(置信水平) [t1, t2]:置信区间 t1,t2:置信限(置信下限,置信上限)
18
t 分布与正态分布的比较
19
t 值表
t分布双侧分位数表:P337,即对t--t(n) 当上侧和 分布双侧分位数表:P337,即对 --t(n) 下侧两尾概率之和为α 每侧为α/2) 两尾概率之和为 下侧两尾概率之和为α(每侧为α/2)时,t分布在 横坐标上的临界值的绝对值.记为: 临界值的绝对值 横坐标上的临界值的绝对值.记为:
23
F 值表
F分布的上侧分位数表:P339即对于F ~ F (m, n), 分布的上侧分位数表:P339即对于 n), 当给定其上侧概率为α 当给定其上侧概率为α时,该分布在横坐标上的临 界值,记为: 界值,记为:
P( F ? Fa )
a
24
例:df1=4,df2=20,上尾概率为α的上侧分位 , ,上尾概率为α 数为F0.01(4,20) 数为F0.01(4,20) =4.43
1- P (- ta #t
ta ) = a
20
3 F 分布
定义(P99) 定义(P99) 若随机变量 X ~ χ2 (m),Y ~ χ2 (n),且相互独 立,则随机变量
X m F= Y n
服从自由度为m(第一自由度) 服从自由度为 (第一自由度)和n(第二自 ( 由度) 分布, 由度)的 F 分布,记为
正态总体方差 正态总体方差的区间估计 总体方差的区间估计
α/2
1-α
c
2 1- a 2
α/2
2 χα 2
41
统计推断概述内容1 统计推断概述内容1小节
一 二 三 四 五 统计推断的概念 抽样分布的概念 统计量的概率分布-抽样分布 统计量的概率分布正态总体样本平均数的抽样分布 参数估计
42
�
13
2 值表 χ
χ2 分布上侧分位数表(P346):对于Y- χ2(n), 分布上侧分位数表(P346):对于Y 当给定其上侧(右侧)尾部的概率α 当给定其上侧(右侧)尾部的概率α时,该分布在横 坐标上的临界值为 坐标上的临界值为χ2 α
P( X ? c )
2 a
a
14
例:df=9, α=0.05,查表得: df=9, =0.05,查表得: χ2 0.05 = 16.9 ,意为大于16.9的概率(右侧)为0.05; 意为大于16.9的概率 右侧) 0.05; 的概率(
Biostatistics and Experimental Design
畜牧,兽医专业
生物统计 附 试验设计
1
第五章( 第五章(一)统计推断概述
抽样分布 参数估计简介 假设检验的基本原理
2
统计推断概述内容1 统计推断概述内容1
一 二 三 四 五 统计推断的概念 抽样分布的概念 统计量的概率分布-抽样分布 统计量的概率分布正态总体样本平均数的抽样分布 参数估计
n
29
2 正态总体样本平均数的分布
设样本来自正态总体 设样本来自正态总体 N( , σ 2),则样本平均数也服从 正态分布, 正态分布,其总体均数为 ,方差为σ 2/n.
X ~ N( , σ )
2
σ2) x ~ N( ,
n
Z= x- m s
2
~ N(0,1)
30
n
中心极限定理
(1) 无论样本所来自的总体是否服从正态 分布, 只要样本足够大,样本平均数就 只要样本足够大,样本平均数就 近似服从正态分布,样本越大,近似程度 越好. (2)所需的样本含量随原总体的分布而异, 30,无论原总体是何 但只要样本含量 ≥ 30,无论原总体是何 分布,都足以满足近似的要求. (3)设原总体的期望为 ,方差为σ 2, 则样本平均数的期望为 ,方差为σ 2 /n.
38
正态总体平均数 正态总体平均数的区间估计 总体平均数的区间估计
对于t分布来说,对于给定的置信度1- 和自 由度,可以查得两尾概率为 的临界t值 t分布两尾 分布两尾 概率分位点
x- m P (- ta # sx
ta ) = 1- a
P( x - ta sx #m
x + ta sx ) = 1- a
5
统计推断概述内容 二 抽样分布的概念
6
二 抽样分布的概念
1 随机抽样(random sampling):是指总体 随机抽样( sampling):是指总体 中每一个个体都有同等的机会被抽取到样本 中去,这种抽样方法叫随机抽样. 中去,这种抽样方法叫随机抽样. 2 抽样分布(sampling distribution):从 抽样分布( distribution):从 一个总体中独立,随机地抽取含量为n 一个总体中独立,随机地抽取含量为n的样 本,并由样本计算各种统计量,则由 本,并由样本计算各种统计量,则由样本统 计量相对应的随机变量的概率分布为抽样分 计量相对应的随机变量的概率分布为抽样分 布.
8
统计推断概述内容 统计量的概率分布三 统计量的概率分布-抽样分布
9
三 统计量的概率分布-抽样分布 统计量的概率分布原总体
样本1 样本 样本2 样本 样本n 样本 n→∞ 统计量
x1
x2
新总体
x2
X2分布,F分布 分布, 分布
正态或t分布
10
2 (chi-square)分布 1,χ (chi-square)分布
31
正态总体样本方差的 分布
样本方差的期望和方差 设样本来自均数为 ,方差为σ 2的总体 设样本为简单随机样本
s =
2
( xi - x ) n- 1
2
32
正态总体样本方差的 分布
样本方差的分布
邋( x i
x)
2
s
2
= =
( xi - m) - n( x - m) s
2 2 2
2
2
骣 骣i - m÷ x - m÷ x ÷ ~ c 2 (n - 1) - ÷ s ÷ s n ÷ ÷ 桫 桫
2
s =
2
( xi - x ) 2 n- 1
(n - 1) s 2 ~ c (n - 1) 2 s
33
统计推断概述内容 五 参数估计
34
五 参数估计
参数估计(Parameter 参数估计(Parameter estimation ):以样本 ):以样本 统计量对总体参数进行估计. 基本方法:
点估计(point estimation) 点估计(point estimation) 区间估计( 区间估计(interval estimation) estimation)
3
统计推断概述内容 一 统计推断的概念和内容
4
一 统计推断的概念和内容
统计推断:根据抽样分布规律和概率论,由样本统 统计推断:根据抽样分布规律和概率论,由样本统 计量来推论总体参数;对未知总体的分布特征进行 检验. 内容: (1)参数估计(parameter estimation):用样本统计量 参数估计( estimation):用样本统计量 估计(点估计,区间估计)总体参数(平均数,方 差). (2)假设检验(hypothesis testing):又称显著性检验, 假设检验( testing) 即利用样本统计量对所属总体的分布特征进行检验.
F ~ F(m, n)
21
F 分布曲线
22
F 分布性质
(1)F分布随机变量的取值范围为(0,∞) 分布随机变量的取值范围为( (2)F分布的分布曲线受两个自由度的影响 n), (3)若F ~ F(m, n),则 1/F ~ F(n, m) (4)若t ~ t(n),则 t 2 ~ F(1, n)
28
1 样本平均数的期望和方差
方差 Var ( x ) = s 2 = Var ( 1 xi ) x n 1 = 2 Var ( x1 + x2 + + xn ) n 1 2 2 2 = 2 (s + s + + s ) n 2 1 s 2 = 2 ns = n n s 标准差 sx = 平均数的标准误) (平均数的标准误)
39
正态总体方差 正态总体方差的区间估计 总体方差的区间估计
(n - 1) s 2 ~ c (n - 1) 2 s
2
χ2分布上尾 概率分位点
P (c
2 1- a 2
(n - 1) s # 2 s
2
2wk.baidu.com
c
2 a 2
) = 1- a
2
(n - 1) s 2 P( 2 #s c 1- a 2
(n - 1) s ) = 1- a 2 ca 2
7
抽样分布的概念
简单随机样本
抽样是完全随机的 - 总体中的每个个体都有相同 的机会被抽中 抽样是彼此独立的 - 每次抽样的结果都不会影响 到其他抽样的结果
样本统计量的概率分布称为抽样分布
样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布 若干统计量又组成不同于原总体的新总体,其概率 分布为抽样分布
定义(P156) 定义(P156)
设有n个随机变量X 设有n个随机变量X1, X2, , Xn,彼此独立且都 服从标准正态分布 N(0, 1),则称随机变量 1),
xi - m 2 Y = 邋X = ( ) s 服从自由度为n的 分布, 服从自由度为 的χ2分布,记为
2 i
Y ~ χ ( n)
2
11
25
统计推断概述内容 四 正态总体样本平均数的抽样分布
26
四 正态总体样本平均数的抽样分布
1 样本平均数的期望和方差
设样本来自均数为 ,方差为σ 2的总体 设样本为简单随机样本
1 x = xi n
27
1 样本平均数的期望和方差
期望
1 E ( x ) = mx = E ( xi ) n 1 = E ( x1 + x2 + + xn ) n 1 = (m+ m+ + m) n 1 = nm = m n
x + ua s x ) = 1- a
37
正态总体平均数 正态总体平均数的区间估计 总体平均数的区间估计
2 当σ 2未知,为小样本时(P88) 未知,为小样本时( )
x- m ~ N(0,1) sx
x- m sx
2
(n - 1) s 2 ~ c (n - 1) 2 s
2
x- m x- m (n - 1) s = = ~t(n - 1) 2 s (n - 1) s n sx
χ2 分布曲线
12
2 分布性质 χ
(1)χ2 分布随机变量的取值范围为(0,∞) 分布随机变量的取值范围为(0 (2) χ2分布的可加性: 若Y1 ~ χ2 (n),Y2 ~ χ2 (m),且相互独立, 则:Y1 ± Y2 ~ χ2 (n ± m) (3)χ2 分布为非对称分布,其分布曲线的形 分布为非对称分布,其分布曲线的形 状由自由度决定,自由度越大,分布越趋于 对称 当 n → ∞, χ2 (n) → N(n, 2n) N(n 2n
36
正态总体平均数 正态总体平均数的区间估计 总体平均数的区间估计
已知或为大样本时: 1 当σ 2已知或为大样本时:
σ ) x ~ N ( ,
2
n
x- m ~ N(0,1) sx ua ) = 1- a
标准正态分 布两尾概率 分位点
x- m P (- ua # sx
P( x - ua s x #m
15
2 ,t 分布
定义(P64) 定义(P64) 设随机变量Z ~ N(0, 1),Y ~ χ2 (n),且相互独 1), 立,则 随机变量
t=
Z Y n
服从自由度为n的 分布, 服从自由度为 的 t 分布,记为
t ~ t ( n)
16
t 分布曲线
17
t 分布性质
(1) t 分布与标准正态分布相似,是对称分布;关 分布与标准正态分布相似,是对称分布;关 于 t = 0对称,只有一个峰,峰值在t = 0 0对称,只有一个峰,峰值在t (2)分布曲线受自由度影响,自由度越小,离散程 度越大 (3)当 n → ∞,t(n) → N(0, 1)
35
参数估计 - 区间估计
以一定的置信度对参数(如总体平均数) 以一定的置信度对参数(如总体平均数)可能 取值范围的估计 使得对于给定的α 常用 常用α 求统计量 t1和 t2 ,使得对于给定的α (常用α =0.05和α =0.01),如有: 和 ,如有:
P (t1 #q
t2 ) = 1- a
1 - α :置信度(置信水平) [t1, t2]:置信区间 t1,t2:置信限(置信下限,置信上限)
18
t 分布与正态分布的比较
19
t 值表
t分布双侧分位数表:P337,即对t--t(n) 当上侧和 分布双侧分位数表:P337,即对 --t(n) 下侧两尾概率之和为α 每侧为α/2) 两尾概率之和为 下侧两尾概率之和为α(每侧为α/2)时,t分布在 横坐标上的临界值的绝对值.记为: 临界值的绝对值 横坐标上的临界值的绝对值.记为:
23
F 值表
F分布的上侧分位数表:P339即对于F ~ F (m, n), 分布的上侧分位数表:P339即对于 n), 当给定其上侧概率为α 当给定其上侧概率为α时,该分布在横坐标上的临 界值,记为: 界值,记为:
P( F ? Fa )
a
24
例:df1=4,df2=20,上尾概率为α的上侧分位 , ,上尾概率为α 数为F0.01(4,20) 数为F0.01(4,20) =4.43
1- P (- ta #t
ta ) = a
20
3 F 分布
定义(P99) 定义(P99) 若随机变量 X ~ χ2 (m),Y ~ χ2 (n),且相互独 立,则随机变量
X m F= Y n
服从自由度为m(第一自由度) 服从自由度为 (第一自由度)和n(第二自 ( 由度) 分布, 由度)的 F 分布,记为