抽样分布
抽样分布和七种理论分布
抽样分布与理论分布一、抽样分布总体分布:总体中所有个体关于某个变量的取值所形成的分布。
样本分布:样本中所有个体关于某个变量大的取值所形成的分布。
抽样分布:样品统计量的概率分布,由样本统计量的所有可能取值和相应的概率组成。
即从容量为N 的总体中抽取容量为n 的样本最多可抽取m 个样本,m 个样本统计值形成的频率分布,即为抽样分布。
样本平均数的抽样分布:设变量X 是一个研究总体,具有平均数μ和方差σ2。
那么可以从中抽取样本而得到样本平均数x ,样本平均数是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数x 所构成的总体称为样本平均数的抽样总体。
它具有参数μx 和σ2x ,其中μx 为样本平均数抽样总体的平均数,σ2x 为样本平均数抽样总体的方差,σx 为样本平均数的标准差,简称标准误。
统计学上可以证明x 总体的两个参数 μx 和σ2x 与X 总体的两个参数μ和σ2有如下关系:μx = μ σ2x = σ2 /n由中心极限定理可以证明,无论总体是什么分布,如果总体的平均值μ和σ2都存在,当样本足够大时(n>30),样本平均值x 分布总是趋近于N (μ,n2)分布。
但在实际工作中,总体标准差σ往往是未知的,此时可用样本标准差S 估计σ。
于是,以nS估计σx ,记为X S ,称为样本标准误或均数标准误。
样本平均数差数的抽样分布:二、正态分布2.1 正态分布的定义:若连续型随机变量X 的概率密度函数是⎪⎭⎫ ⎝⎛--=σμπσx ex f 22121)( (-∞<x <+∞)则称随机变量X 服从平均数为μ、方差为σ2的正态分布,记作X~N (μ,σ2)。
相应的随机变量X 概率分布函数为 F (x )=⎰∞-x dx x f )(它反映了随机变量X 取值落在区间(-∞,x )的概率。
2.2 标准正态分布当正态分布的参数μ=0,σ2=1时,称随机变量X 服从标准正态分布,记作X~N (0,1)。
常用的三种抽样分布
常用的三种抽样分布
概述
在统计学中,抽样分布是指从总体中抽取一定数量的样本,并计算样本统计量的分布。
根据中心极限定理,当样本数足够大时,样本的均值和标准差会呈正态分布。
然而,并非所有的抽样分布都符合正态分布。
本文将介绍统计学中常用的三种抽样分布,包括正态分布、t分布和χ²〔卡方〕分布。
1. 正态分布〔Normal Distribution〕
正态分布是最常见的一种抽样分布,也被称为高斯分布。
它具有以下特点: - 均值为μ,标准差为σ; - 对称分布,其曲线呈钟型,两侧尾部逐渐下降; - 总体分布和抽样分布均为正态分布; - 标准正态分布
的均值为 0,标准差为 1。
可以通过标准化计算将任意正态分布转换为标准正态分布。
正态分布在实际应用中非常重要,尤其是在假设检验和置信区间计算中的应用广泛。
2. t分布〔Student’s t-Distribution〕
t分布是由英国统计学家William Sealy Gosset〔也被称为。
抽样分布基本概念
抽样分布基本概念引言抽样分布是统计学中一个重要的概念,它描述了在进行统计推断时所使用的样本统计量的分布情况。
在本文中,我们将讨论抽样分布的基本概念,包括样本、样本统计量、抽样分布的性质以及样本均值和样本比例的抽样分布。
样本与样本统计量在统计学中,样本是指从总体中随机选取的一部分观察对象。
样本的大小通常用字母n表示。
通过对样本进行测量和观察得到的某一特定数值称为样本统计量。
样本统计量是对总体参数的估计。
常见的样本统计量有样本均值、样本方差和样本比例。
样本均值是指样本中所有观察值的平均值,用符号X表示。
样本方差是指样本中所有观察值与样本均值之差的平方和的均值。
样本比例是指符合某一特征的观察值占样本总体的比例。
抽样分布的性质抽样分布是指在总体参数未知的情况下,对总体进行抽样并计算样本统计量后得到的分布。
在大样本情况下(样本容量n足够大),根据中心极限定理,样本均值的抽样分布近似呈正态分布。
这意味着无论总体是什么样的分布,当样本容量足够大时,样本均值的抽样分布都可以近似看作是正态分布。
当总体分布为正态分布时,样本均值的抽样分布仍然是正态分布。
但是当总体分布为非正态分布时,样本均值的抽样分布仍然近似为正态分布,但不再是精确的正态分布。
样本均值的抽样分布样本均值的抽样分布被称为抽样分布。
当总体分布为正态分布时,不论样本容量大小,样本均值的抽样分布都是正态分布。
当总体分布为非正态分布时,当样本容量足够大时,样本均值的抽样分布近似为正态分布。
样本均值的抽样分布的均值等于总体均值,标准差等于总体标准差除以样本容量的平方根。
抽样分布的均值等于总体均值是因为样本均值是总体均值的无偏估计,即样本均值的期望值等于总体均值。
抽样分布的标准差等于总体标准差除以样本容量的平方根是因为样本均值的抽样分布的方差等于总体方差除以样本容量。
样本比例的抽样分布样本比例的抽样分布也是一个重要的抽样分布。
样本比例的抽样分布是二项分布的一种特殊情况。
《统计学》第9章 抽样与抽样分布
二、抽样中的基本概念
⚫ 样本比例(成数)
p = n1 ,q = n0 = 1− p
n
n
⚫ 样本是非标志的标准差
(n = n0 + n1)
sp =
n p (1− p) =
n −1
n pq n −1
⚫ 样本是非标志的方差
s
2 p
=
n n −1
p(1 −
p)
=
n n −1
pq
第一节 抽样和抽样方法
三、抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 在实践中总体所包括的单位数很多,分布很广,通过一次 抽样就选出有代表性的样本是很困难的。此时可将整个抽 样过程分为几个阶段,然后逐阶段进行抽样,最终得到所 需要的有代表性的样本。
第一节 抽样和抽样方法
三、抽样方法
⚫ 多阶段抽样
⚫ 阶段数不宜过多,一般采用两个、三个阶段,至多四个阶 段为宜,否则,手续繁琐,效果也不一定好。
第一节 抽样和抽样方法
二、抽样中的基本概念
⚫ 总体参数
⚫ 总体参数是根据总体各单位的标志值或特征计算的、反 映总体某一属性的综合指标。
⚫ 总体参数是唯一的、确定的常数,但一般情况下又是未 知的。
⚫ 常用的总体参数有 ⚫ 总体均值 ⚫ 总体标准差、总体方差 ⚫ 总体比例(成数)
第一节 抽样和抽样方法
⚫ 样本标准差
s =
1 n −1
n i =1
(xi
−
x )2,或s
=
1
m
m
(xi − x )2 fi
fi −1 i=1
i =1
⚫ 样本方差
( ) ( ) s2 = 1 n n −1 i=1
8-抽样分布
样本方差的抽样分布
1. 在重复选取容量为n的样本时,由样本方差的所有 可能取值形成的相对频数分布 2. 对于来自正态总体的简单随机样本,则比值
(n 1) s 2
的抽样分布服从自由度为 (n -1) 的2分布,即
2
(n 1) s 2 ~ (n 1) 2
2
2分布(图示)
不同容量样本的抽样分布
统计量
抽样分布
抽样分布 ( sampling distribution) 抽样误差
抽样分布
一、抽样分布的概念 二、样本均值抽样分布的形式 三、样本均值抽样分布的特征
三种不同性质的分布
总体分布
样本分布
抽样分布
总体分布(population distribution)
1. 2. 3.
M为样本数目
比较及结论:1. 样本均值的均值(数学期望) 等于总 体均值。 2. 样本均值的方差等于总体方差的1/n。
总体分布
.3 P(x)
抽样分布
.3 .2 .1 0 1 2 3 4
.2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
= 2.5
σ2 =1.25
x 2.5 2 x 0.625
2.
3.
称F为服从自由度n1和n2的F分布,记为
U n1 F V n2
F ~ F (n1 , n2 )
例: (X1,X2,…,X5)为取自正态总体X~(0,σ2)的样本,
2 3( X 12 X 2 ) 求统计量 2 2( X 32 X 4 X 52 )
的分布
Xi
解
X i ~ N (0, 2 )
抽样分布
1. 抽样分布 2. 样本均值的抽样分布 3、样本方差的抽样分布 4、样本均值与样本标准差之比的抽 样分布
1.3.1抽样分布
1、定义:统计量的概率分布称为抽样分布。 2、抽样分布的类型: (1)精确(抽样)分布:即当总体X的分布已知时, 如果对任一自然数n都能导出统计量T( x1, x2 ,, xn ) 的分布显示表达式。(这是在小样本问题中使用, 大多是在正态总体下得到。) (2)渐近(抽样)分布:即在大多数场合,精确 抽样分布不容易导出,或者导出的精确分布过于复 杂而难以应用,这时人们借助于极限工具,寻求在 样本量n无限大时统计量T( x1, x2 ,, xn )的极限分 布。(这是在大样本问题中使用)
X n 1
i 1
i
X
1.3、3样本均值与样本标准差之比的 抽样分布:
0 1, Pt n 则 称为n个自由度的t分布 水平上侧分位数。记为 t n
4、t分布的上侧分位数 设随机变量 t(n) 服从自由度为n的 t分布,
1.3、3样本均值与样本标准差之比的 抽样分布:
0-1分布
二项分布 泊松分布
p np
pq npq
均匀分布 正态分布
ab 2
1
(b a ) 2 12
2
1 2
指数分布
1.3、1样本均值的抽样分布
结论:有了渐近分布就可作出一些统计推断。 例如:在总体为均匀分布 的场合,若 U 1,5 ,试问样本 要以0.99的概率保证 量n至少取多少? x 3 0.5 同样 ,类似于上述的问题可对另外两个分布 提出。
例题:
设
x1 , x2 ,, x17
抽样分布公式t分布卡方分布F分布
抽样分布公式t分布卡方分布F分布抽样分布公式:t分布、卡方分布、F分布抽样分布是统计学中的重要概念,用于推断总体参数以及进行假设检验。
本文将重点介绍三种常见的抽样分布公式:t分布、卡方分布和F分布。
一、t分布公式t分布是用于小样本情况下进行参数估计和假设检验的重要分布。
它的定义如下:假设有一个总体,样本容量为n,总体的均值和标准差未知。
如果从该总体中随机抽取一个样本,计算样本均值与总体均值的差异,用t 值来衡量。
那么,t值的概率分布就是t分布。
t分布的公式如下:t = (x - μ) / (s / √n)其中,x为样本均值,μ为总体均值,s为样本标准差,n为样本容量。
t分布的自由度为n-1。
在实际应用中,可以利用t分布表或统计软件来查找不同自由度下的t值对应的概率。
二、卡方分布公式卡方分布是应用于统计推断的重要分布,主要用于分析分类资料或定类变量的相关性。
它的定义如下:假设有一个总体,样本容量为n,比较观察值与理论值之间的差异。
我们将差异的平方进行求和,并除以理论值,得到统计量,称为卡方统计量。
卡方分布的公式如下:χ^2 = Σ((O - E)^2 / E)其中,O为观察值,E为理论值。
卡方分布的自由度取决于总体参数的个数减去估计的参数个数。
在实际应用中,同样可以利用卡方分布表或统计软件来查找不同自由度下的卡方值对应的概率。
三、F分布公式F分布是应用于统计推断的另一重要分布,主要用于比较两个或多个总体方差是否相等。
它的定义如下:假设有两个总体A、B,分别进行抽样,计算两个样本方差的比值,得到F统计量。
F分布的公式如下:F = (s1^2 / σ1^2) / (s2^2 / σ2^2)其中,s1^2和s2^2分别为样本A和样本B的方差,σ1^2和σ2^2分别为总体A和总体B的方差。
F分布的自由度取决于样本容量和总体个数。
在实际应用中,同样可以利用F分布表或统计软件来查找不同自由度下的F值对应的概率。
概率论抽样分布
例1-1 设X1, X2,, Xn为来自正态总体N (, 2 )
的一个简单随机样本,则样本均值X n
服从____,又若 ai为常数,则 ai X i i 1
服从____. 解 因同为样相互独立的正态随机变量的线性和服从
正态分n布
n
n
n
E[
因而
i
ai X
1EX
i]
, DiX1
ai ,D2[i
确定样本容量n,使得两样本均值的距离
超过的概率不超过0.01.
解
由于X
~
N(,
2
), i
1,2,且独立,故
X1
X2
n ~
N (0, 2 2
n
)
于是
P(
X1
X2
)
P(
X1 X2
2 2 / n
) 2 2 / n
2[1 ( n)] 0.01 2
等价于
n
n
Φ( ) 0.995 2
2 u10.995 2.575 n 13.26
n
X n1
~
N (,
2)
所以,由正态分布的线性性得
因此
(
X n1
X
)
~
N (0, n n
1
2)
( Xn1 X ) n ~ N (0,1)
n1
从而有
[( Xn1 X ) n ]2 ~ 2(1)
n1
另一方面,有样本方差的性质知
nSn2
2
~
2(n
1)
且
[( Xn1 X )
n
n
]2 1
例2-2
设X
1
,
X
§6.2抽样分布定理
F0.05(14,30)2.0374. 2
F分布的上 分位点具有
如下性:F 质 1(n1,n2)F(n 12,n1).
F0.95(12,9)
1 F0.05(9,
12)
1 2.796375
0.35760. 6
上页 下页 返回
二、抽样分布定理
当总体为正态分布时,我们简单地叙述几个抽样分布 定理.
S/ n
(3)X与S2独立 .
上页 下页 返回
2. 两个正态总体
定理3 X1, X2, , Xn1与Y1,Y2, ,Yn2 分别是具有相同
方差的两正态总N体 (1,2), N(2,2)的样本, 且这
两个样本互
相
独, 设立X
1 n1
n1
Xi
i1
,Y
1 n2
n2
Yi
i1
分别是
这两个样本的均,S值 12
当 n 充分 2(大 n )1 2 (z时 2 n , 1 )2
上页 下页 返回
2. t 分布 (1). 定义:
设X~N(0,1) , Y~ 2(n), 且相互独立,
则称随机变量 T X Yn
服从自由度为 n的 t 分布,也称为t 变量. 记为 T~t(n). t 分布又称学生氏(Student)分布. 经过计算 :t(得 n)分布的概率密度函数为
§6.2 抽样分布定理
一、常用分布 二、抽样分布定理
一、常见分布
统计量是样本的函数,它是一个随机变量,
统计量的分布称为抽样分布.
1. 2分布
(1). 定义 若 X ~ N ( 0 ,1 ),则 X 2 ~2 ( 1 ).
4.3抽样分布
(3) X与S2相互独立
(4) X ~ t(n 1)
Sn
已知, 2未知
(5) n ( Xi )2 ~ 2 (n)
i1
已知
LOGO
例1 设总体X 服从正态分布N (12, 2 ), 抽取容量为
25的样本,求样本均值X大于12.5的概率.如果(1)已
知 12;(2)未知,但已知样本方差S2 3.6.
n1 n2
服
从
F(n1,
n
)
2
分
布
.
LOGO
4.3.2 正态总体的抽样分布
由于要求具体抽样分布是困难的,有时甚至是不可 能的。正态总体的抽样分布有详尽的研究,本节主要 学习正态总体的抽样分布。
掌握正态分布、 2分布、t分布、F分布的一些结论
对于正态总体抽样分布的学习非常有用. 主要学习单个正态总体的抽样分布以及多个正态总
i1
于是P
10
i1
Xi 2
4
P
1 0.52
10 i1
Xi2
16
查表求02.10(10) 16.由此可得
P
10 i1
Xi
2
4
0.10.
(2) 由题设及定理4.3.2, 9S 2
0.52
10
P i1
(Xi
X )2
1
2.85
P
0.52
10 i1
查表得02.25(9) 11.4,由此可求得
n
n
该定理的证明由正态分布的性质3.1.10可得。
注意:当样本来自非正态总体时,若总体均值为,方差 为 样 本量2(充有分限大且时不,X为近零似)服,从由N中(心, 极)2.限定理可以证明当
抽样分布公式的详细整理
抽样分布公式的详细整理抽样分布是统计学中的一个重要概念,它描述的是在特定条件下,从总体中抽取的样本所形成的样本统计量的分布情况。
在实际应用中,我们常常需要根据已知的总体参数来估计未知的总体参数。
此时,抽样分布公式能够帮助我们进行相应的推断统计。
以下是常见的抽样分布公式的详细整理:1. 抽样分布公式在统计学中,常见的抽样分布公式有以下几种:1.1. 正态分布如果总体近似服从正态分布,那么从中抽取的样本均值就近似服从正态分布。
抽样分布公式如下所示:\[ \bar{X} \sim N(\mu, \frac{\sigma}{\sqrt{n}}) \]其中,\(\bar{X}\) 表示样本均值,\(\mu\) 表示总体均值,\(\sigma\)表示总体标准差,\(n\) 表示样本量。
1.2. t分布在实际应用中,当总体近似服从正态分布但总体标准差未知时,我们使用t分布进行推断统计。
抽样分布公式如下所示:\[ t = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} \]其中,\(\bar{X}\) 表示样本均值,\(\mu\) 表示总体均值,\(s\) 表示样本标准差,\(n\) 表示样本量。
1.3. 卡方分布在某些情况下,我们需要估计总体方差或总体标准差,此时可以使用卡方分布进行推断统计。
抽样分布公式如下所示:\[ \chi^2 = \frac{(n-1)s^2}{\sigma^2} \]其中,\(\chi^2\) 表示卡方统计量,\(s\) 表示样本标准差,\(\sigma^2\) 表示总体方差,\(n\) 表示样本量。
1.4. F分布在某些情况下,我们需要进行总体方差比较或回归分析,此时可以使用F分布进行推断统计。
抽样分布公式如下所示:\[ F = \frac{MSB}{MSW} \]其中,\(MSB\) 表示组间平均平方和,\(MSW\) 表示组内平均平方和。
2. 应用案例为了更好地理解抽样分布公式的应用,以下是一个具体的案例:假设我们从一批电子产品中随机抽取了20个样品,测得平均寿命为3000小时,样本标准差为200小时。
统计学中的抽样分布和抽样误差
统计学中的抽样分布和抽样误差统计学是一门研究数据收集、处理和分析的学科,而在进行统计分析时,抽样是一项重要的技术。
抽样分布和抽样误差是统计学中关键的概念,本文将具体介绍它们的定义、特点和应用。
一、抽样分布在统计学中,抽样分布指的是从总体中抽取样本的过程中得到的样本统计量的概率分布。
样本统计量可以是样本均值、样本方差等。
抽样分布是由大量不同的样本所形成的,它们具有一定的数学特性。
抽样分布的特点有:1. 抽样分布的中心趋向于总体参数。
当样本容量足够大时,抽样分布的中心会接近总体参数的真值。
2. 抽样分布的形状可能与总体分布相同,也可能近似于正态分布。
中心极限定理是解释抽样分布接近正态分布的重要定理。
3. 样本容量越大,抽样分布的方差越小。
样本容量增大,抽样误差减小。
抽样分布在实际应用中具有重要价值。
通过了解抽样分布的性质,我们可以进行假设检验、构建置信区间以及进行参数估计等统计推断。
二、抽样误差抽样误差是指由于从总体中抽取样本而导致的估计值与总体参数值之间的差异。
它是统计推断中常见的误差来源,也是统计分析中需要控制的重要因素。
抽样误差的大小受到多个因素的影响,包括样本容量、总体变异性以及抽样方法等。
通常情况下,样本容量越大,抽样误差越小,因为更大的样本容量能够更好地代表总体。
为了降低抽样误差,我们可以采取以下策略:1. 增加样本容量。
增大样本容量可以减小抽样误差,提高估计值的准确性。
2. 采用随机抽样方法。
随机抽样可以降低抽样误差,确保样本的代表性。
3. 控制变异性。
尽量减少总体的变异性,可以减小抽样误差。
抽样误差的存在对于统计推断的可靠性有着重要的影响。
在进行数据分析和解释时,我们需要正确理解抽样误差的概念,并将其考虑在内。
总结:统计学中的抽样分布和抽样误差是进行统计推断不可或缺的概念。
抽样分布是样本统计量的概率分布,具有一定的数学特性,可以用于进行假设检验和置信区间估计。
抽样误差是由于从总体中抽取样本而导致的估计值与总体参数值之间的差异,它的大小受到多个因素的影响。
06 抽样分布
4.虽然总体不呈正态分布,如果样本容量
较大,反映总体μ 和σ 的样本平均数的抽样分布,
也接近于正态分布。
即当样本足够大时,我们可以不考虑总体是
正态的还是非正态的,我们可以直接把样本作为 正态分布来推断。
平均数抽样分布的形态及特征
形态上,如果是大样本,不管总体是正态分布的还 是非正态分布的,平均数的抽样分布都是正态分布或接近 正态分布;如果是小样本,那么只有总体呈正态分布时, 平均数的抽样分布才是正态分布的。
2.σ已知条件下总体平均数的区间估计 总体正态,σ已知(不管样本容量大小),
或总体非正态,σ已知,大样本
平均数离差的的抽样分布呈正态,平均数的
置信区间为:
X Z
2
n
X Z
2
n
(6.7)
例1:某小学10岁全体女童身高历年
来标准差为6.25厘米,现从该校随机抽 27名10岁女童,测得平均身高为134.2 厘米,试估计该校10岁全体女童平均身 高的95%和99%置信区间。
表示样本的标准差
x
n表示样本容量
三.平均数离差统计量的分布
由样本的平均数对总体平
均数进行估计,首先要了解
平均数离差统计量的分布,
才能根据一定的概率,由样 本的平均数对总体的平均数 做出估计。
1.总体正态,σ已知(不管样本容量大小),
或总体非正态,σ已知,大样本
平均数离差的的抽样分布呈正态分布
n
n
X 1.96 X 1.96
n
) 0.95 ) 0.95
n
n
要对总体参数值进行区间估计,即要在一定可 靠度上求出总体参数的置信区间的上下限,需要以 下条件:
抽样分布的名词解释
4.F分布:F分布是指F统计量的分布情况。F分布常用于F检验,用于比较两组样本的方差差异是否显著。
抽样分布的类型和使用场景不同,但都在统计学中扮演着重要的角色。通过对抽样分布的了解,可以帮助我们更加准确地进行统计分析,更好地掌握数据的分布情况。
抽样分布是指根据总体数据的抽样结果的分布情况。在统计学中,通过对样本的观察,可以推断出总体的分布情况。
常见的抽样分布包括正态分布、t分布、卡方分布、F分布等。
1.正态分布:正态分布是指数据呈现出高峰在中间,两侧逐渐递减的分布形态。正态分布常用于表示自然界中许多变量的分布情况,例如人群身高、体重等。
2.t分布:t分布是指在总体方差未知的情况下,样本方差的分布情况。t分布常用于统计分析中的t检验,用于比较两组样本的差异是否显著。
抽样分布
Fn (x)
0
x1
x
2
x
3
x
4
x
5
x
6
图 6.6 经验分布函数
该次抽样中事件{X x} 发生的频率(见
(6-19)式),它完全由样本决定,而样本 是随机的,所以,Fn (x)是随机变量. Fn (x) 的 这种双重性恰好反映了抽样前后不同的统 计观点,请注意领会. 进一步地,根据分布 函数的定义 F(x) P{X x},F(x)是事件{X x}发 生的概率,又nFn (x) 恰是在n次“试验”(抽样) 中事件 {X x} 发生的次数,这样,还有以 下结论:
2
均值与样本方差,S w 是‘合样本’ (X1, X 2, , X ,n1Y1,Y2 ,,Yn2 )
的标准差,定义为
Sw
(n1
1)S12
(n2
1)
S
2 2
n1 n2 2
. (6-28)
生 活 中 的 辛 苦阻挠 不了我 对生活 的热爱 。20.11.1720.11.17Tuesday, November 17, 2020 人 生 得 意 须 尽欢, 莫使金 樽空对 月。01:47:1501:47:1501:4711/17/2020 1:47:15 AM 做 一 枚 螺 丝 钉,那 里需要 那里上 。20.11.1701:47:1501:47Nov-2017-Nov-20 日 复 一 日 的 努力只 为成就 美好的 明天。 01:47:1501:47:1501:47Tuesday, November 17, 2020 安 全 放 在 第 一位, 防微杜 渐。20.11.1720.11.1701:47:1501:47:15November 17, 2020 加 强 自 身 建 设,增 强个人 的休养 。2020年 11月 17日上 午1时47分 20.11.1720.11.17 精 益 求 精 , 追求卓 越,因 为相信 而伟大 。2020年 11月 17日星 期二上 午1时47分 15秒 01:47:1520.11.17 让 自 己 更 加 强大, 更加专 业,这 才能让 自己更 好。2020年 11月 上午 1时47分 20.11.1701:47November 17, 2020 这 些 年 的 努 力就为 了得到 相应的 回报。 2020年 11月17日 星期 二1时47分 15秒 01:47:1517 November 2020 科 学 , 你 是 国力的 灵魂; 同时又 是社会 发展的 标志。 上午1时 47分15秒 上午 1时47分 01:47:1520.11.17 每 天 都 是 美 好的一 天,新 的一天 开启。 20.11.1720.11.1701:4701:47:1501:47:15Nov-20 相 信 命 运 , 让自己 成长, 慢慢的 长大。 2020年 11月17日 星期 二1时47分 15秒 Tuesday, November 17, 2020 爱 情 , 亲 情 ,友情 ,让人 无法割 舍。20.11.172020年 11月 17日 星 期二 1时47分 15秒 20.11.17
抽样分布
x
/ n
x s/ n
N (0,1)
t=
N ( , )
2
t分布
总体方差未知或样本容量n小于30时,标准离差的分布呈t分布。
四、 t 分布
对于不同的自由度,t分布有不同的曲线。
四、 t 分布
( 1 ) t分布曲线左右对称,围绕平均数μt =0 向两侧递降。 (2)t分布受自由度df=n-1制约,每个df都有一条t分布曲线。 (3)df小,t值离散程度大。 (4)和正态分布相比,t分布的顶端偏低,尾部偏高,自由度
2 s1 F 2 s2
此F值具有s12的自由度df1=n1-1和s22的自由度 df2=n2-1。
六、 F 分布
df1 df1 df2 1 ( ) df1 df 2 2 F 2 2 2 f (F ) df1 df2 df1 df 2 df1 df2 ( ) ( ) (df1 F df2 ) 2 2 2
F分布是随自由度df1和df2进行变化的一组曲线。
F分布的概率累积函数
f (F )
F
0
f ( F )dF
六、F 分布
1
F分布的平均数μF=1 ,F的取值区间为[0,+∝ )
F分布曲线的形状仅决定于df1和df2。在df1=1或2时, 2 F分布曲线呈严重倾斜的反向J型,当df1≧ 3时,转
为左偏曲线。
第四章:统计数的分布——抽样分布
从总体中抽取的样本提供的信息仅是总体的一部分,它不能 提供完全准确的信息,必然存在着一定的误差。 对于样本容量相同的多次随机抽样样本,其统计量是变异的, 且其取值有一定的概率,即样本统计量也是一个随机变量,此 分布规律称为抽样分布(sampling distribution)。
抽 样 分 布
抽样估计的效果关键看抽样平均误差的控制。抽样平均 误差小,抽样效果从整体上看就好;否则,抽样效果就不理 想。从前面的分析知道,抽样平均误差受以下几方面因素的 影响:一是总体的变异性,即与总体的标准差大小有关;二 是样本容量;三是抽样方法;还有一个重要的因素,就是抽 样的组织形式。抽样的组织形式有简单随机抽样、分层抽样、 整群抽样和等距抽样等。不同的抽样组织形式设计意味着对 总体信息不同程度的利用,意味着不同的调查成本,它们之 间的抽样效果存在较大的差异。
一、抽 样 分 布
一、 抽样的基本概念
1. 总体和样本
抽样推断是从统计总体中抽取部分单位组成样本进行调查的。 统计总体简称为总体,是指所要研究的客观现象的全体,组成总体 的每一个元素称为个体。例如,我们要研究某市居民的家庭收入水 平,那么该市所有居民的家庭收入便构成了研究总体,而每一户居 民的家庭收入就是个体。一般来说,我们所研究的总体,即研究对 象的某项数量指标X,是一个随机变量,它的取值在客观上有一定的 分布。实际上,我们对总体的研究就是对相应的随机变量X的分布的 研究。因此,今后将不区分总体和相应的随机变量。
一、抽 样 分 布
分层抽样是一种常用的抽样方式。它具有以下优 点:一是分层抽样除了可以对总体进行估计外,还可以 对各层的子总体进行估计;二是分层抽样可以按自然区 域或行政区域进行分层,使抽样的组织和实施都比较方 便;三是分层抽样的样本分布在各个层内,从而使样本 在总体中的分布比较均匀;四是如果分层抽样做得好, 可以提高估计的精度。
一、抽 样 分 布
(2)分层抽样。
分层抽样是按一定标志对总体各单位进行分类,然后分别从每 一类中按随机原则抽取一定的单位构成样本。类型抽样的前提是对 总体的结构有一定的了解,为了充分利用这些信息,提高估计的精 确性,对总体按确定标志进行分类,保证抽出的样本与总体尽可能 保持相似的结构。例如,抽样调查一个城市的居民收入分配状况, 如果历史资料反映了该城市居民的贫富结构(如高收入者、中等收 入者与低收入者的比例结构),那么就可以按此结构分类分别从高 收入者、中等收入者和低收入者中按一定的比例抽取样本。这样就 可以避免样本全来自于某一收入阶层所产生的系统偏差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(
)
由于曲线的对称性,对于单侧分位数可以表示为
P ( t ≥ tα ) = P ( t ≤ −tα ) = α
t分布的分位数表(附表)给出了不同自由 度下, t分布的单侧分位数,表头上的各概 率 α 是大于表中所列值时的概率。如可以 查 df = 9 ,概率 α = 0.05的t单侧分位 数 t0.05 = 1.833 。其意义为,当时 t ≥ 1.833 , 曲线下的面积(或概率)为0.05。
生物学中遇到的多为正态总体。对于 正态总体,可用数学方法得出样本统 计量的抽样分布。有了样本分布规 律,就可以由样本来推断总体。
如无特别说明,假设所有样本均抽自正态总体。
生物学研究中所遇总体几乎 是无限的,从该总体抽取含 量为n的样本,其样本统计量 取值的个数也是无限的。由 计算机完成上述抽样,称 “Monte Carlo”研究。
tdf1 +df2 =
( x1 ± x2 ) − ( μ1 ± μ2 )
2 ⎛ 1 df1s12 + df2 s2 1 ⎞ + ⎜ ⎟ df1 + df2 ⎝ df1 + 1 df2 + 1 ⎠
•
若两个总体互相独立且都是正态分布的,同时 σ 1 = σ 2 = σ ,则上式服从自由 度 df1 + df 2 的分布。式中的 df1 = n1 − 1,df 2 = n2 − 1 。因此上式又可以写为
⎛ d f1 ⎞ ⎜ ⎟ ⎝ df2 ⎠
d f1 2
⎛ d f1 ⎞ ⎛ d f1 + d f 2 ⎞ −1 ⎟ ⎜ Γ⎜ ⎟ ⎝ 2 ⎠ F 2 ⎝ ⎠ i , i d f1 + d f 2 ⎛ d f1 ⎞ ⎛ d f 2 ⎞ Γ⎜ Γ⎜ 2 ⎛ ⎞ d f1 ⎟ ⎟ F ⎟ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎜1+ df2 ⎝ ⎠
积等于1,即值落入区 间 ( −∞, ∞ ) 内的概率为1。 t 值落入任一区间( t1 , t2 ) 内的概率等于该区间内 曲线和横轴所夹的面 积。
α
不同自由度下的 t 分布
t分布曲线关于纵轴对称( γ 1:t = 0)。随自由度的增加, t 分布越来越接近于 标准正态分布。 df = ∞ 时,μ = 0 , σ = 0 , γ 1 = 0 ,γ 2 = 0。就是 N ( 0, 1) 分
2 σ2 2 s2
s12
2 2 σ 12 和 σ 2 可以相等也可以不等。不论 σ 12 和σ 2 相等与否,当用 σ i2去除 s i 之 后, s i2 就被标准化了。F分布是由一对自由度 df1 和df 2 确定的。
2
•
F分布的密度函数是:
f d f1 , d f 2
(F )
⎧ ⎪ ⎪ ⎪ = ⎨ ⎪ ⎪ ⎪ ⎩
tn1 +n2 −2 =
( x1 ± x2 ) − ( μ1 ± μ2 ) ( n1 −1) s12 + ( n2 −1) s22 ⎛ 1 + 1 ⎞ ⎟ n n ( n1 −1) + ( n2 −1) ⎜ ⎝ 1 2⎠
( x1 ± x2 ) − ( μ1 ± μ2 )
2 s12 + s2 n
•
当 n1 = n2 = n 时,上式可以简化为
第四章 抽样分布
统计检验过程中,把样本中我们关心的信 息集中起来,以便加以检验;即通过计算 统计量取到观测值的可能性大小,并把这 种可能性与指定标准(即显著性水平)进 行比较。为了计算这种可能性,需要知道 统计量所服从的理论分布。
统计量 理论分布 总体与样本间的关系
¾ 由已知总体研究样本的分布规律,即由总体到样本的研究过程; ¾ 由样本去推断未知的总体,属于从样本到总体的研究过程。
是比较两个总体,并做出关于它们参数的各种推断。
4.2.1 标准差 σ i已知时,两个平均数的和与差的分布
回顾:根据中心极限定理:设随机变量X由相互独立的随机变量X1,X2,…,Xn 组成,即, n n X = X 1 + X 2 + + X n = ∑ X i , 则 μ X = μ1 + μ 2 + + μ n = ∑ μi
t2 n − 2 =
4.2.3 两个样本方差比的分布——F分布
并分别求出它们的样本方差 s1 和 s2 。标准化的样本方差之比称为F。 从两个正态总体 ( μ1 , σ 12 ) 和 ( μ 2 , σ 22 ) 中随机抽取含量分别为 n1 和 n2的样本,
2 2
Fdf , df =
1 2
σ 12
生物统计学中的最基本问题。总体可以分为数字总体 和由研究对象构成的总体两类。后者也可变为数字总 体。如人的身高的集合就构成一个数字总体。 从该总体随机选一人测其身高X的值,便是一随机试 验。而X作为在随机试验中非测量的量是一随机变量。 这时总体的分布就是表征总体的随机变量的分布。
§4.1 从一个正态总体中抽取的 样本统计量的分布
将平均数标准化,则
u=
x −μ
σ
n
☆ 如果变量是正态的或近似 正态的,则标准化的变量服从 或近似服从 N 0, 1 分布。
( )
s σ 未知时的平均数分布——分布(t-distribution) 2.标准差
σ 未知时,可以用样本标准差s代替总体标准差,标准化变量 若标准差 σ
并不服从正态分布,而是服从具有 n − 1自由度的 t 分布 x −μ • ,具 n − 1 自由度 t= s n
X −μ s n
s 其中的 n 称为样本(平均数)标准误差。 t 分布也是一种对称分布,它只
有自由度这一个参数。
自由度:指独立观测值的个数。因为计算 s 时所使用的 n个观测值受到平 均数 x 的制约,即有一个观测值不能独立取值,因此自由度 df = n − 1。
t 分布的密度函数:
f d f (t ) = ⎛ df + 1 ⎞ df + 1 − Γ⎜ ⎟ 2 ⎛ t ⎞ 2 ⎝ 2 ⎠ , −∞ < t < ∞ ⎜1 + ⎟ d f df ⎠ ⎛ ⎞⎝ df (π )Γ ⎜ ⎟ ⎝ 2 ⎠
μi 是各Xi的总体平均数。如果Xi(i=1, 2, …, n)是相互独立的,且全部都 2 有有限方差 σ i(i=1, 2, …, n),则
σ X = σ +σ2 +
2 2 1 2
i =1
i =1
+ σ n = ∑σ i2
2 i =1
n
从
x1 ± x2
抽样分布:从一已知的总体中,独立随机地抽取含量为n的样本,研
究所得样本的各种统计量的概率分布,谓之。
例
只有10个数构成的总体中,抽取含量为5的样本。样本平均数、方差和标准
5 差分别可以取得C10 = 252 个值。列出上述各统计量的频率分布表,即可得到 各统计量的分布规律。或可以得到这些统计量的抽样分布。
式中的 df = n − 1 ,是分布的自由度。随 df 增加, t 分布越来越接近于标 准正态分布。 t 分布的特征数: μt = 0 ( df >1) •
σt =
df df − 2
( df > 2) ( df > 3) ( df > 4)
γ1:t = 0 γ 2:t =
6 df − 4
t 分布曲线下的总面
χ 2分布的下侧分位点示意图
¾ 若要查下侧分位数,只要查 1 − α 时的分位数即可。如查 df = 9 , α = 0.05 的 2 下侧分位数,只要查 df = 9 行, 概率 α = 1 − 0.05 = 0.95 列,得 χ = 3.33。因 为 χ 2 分布是不对称的,所以这两个值并不以9自由度的 χ 2 平均数为轴对称 (见上图)。
4.1.3 样本标准差的分布
从正态总体中抽取样本,其标准差的理论分布是由卡方分布的 密度函数式经过变量变换得到的。μ s 和 σ s 分别为:
μ s = c4σ
σ s = σ 1 − c4 2 = c5σ
其中,c4 和 c5(样本标准差分布的矩系数)由附表给出。从表 中可见,c4 的值都小于1,当随n的增加, c4 的值迅速接近于 1。 γ 1 和 γ 2 的公式较为复杂,在此不再给出。但 s 分布的偏斜度 2 很低,可见它在任何自由度下都比 s 分布更接近于正态分 布。 2 需特别指出的是,虽然 s 的理论平均数是σ 2 ,但 s 的理论平 均数并不是 σ 。即 μs = σ 2 与 μ s ≠ σ 。
2
2
2 χ ¾ 分布的上侧分位数表(附表6 ) 。表头的χ 2 概率是大于表内所列χ 2值 的概率。如查 df = 9 ,概率 α = 0.05 的 χ 2 值等于16.9,即χ 2 值大于16.9的
概率 α = 0.05,或记为 P ( χ 2 ≥ 16.9 ) = 0.05 。
χ 2分布的上侧分位点示意图
σ 12
n1
+
2 σ2
σ (x −x ) =
1 2
σ 12
n1
+
2 σ2
n2
n2
标准化的变量服从标准正态分布。 利用该式可推断在 标准差已知时,两个样本平均数的差异是否显著。
4.2.2 标准差 σ i未知但相等时,两个平均数的和与差的分布
• 当 σ 1 和 σ 2 未知时,可以用 s1 和s2 代替,
4.1.1 样本平均数的分布
1.标准差σ 已知时的平均数分布 从平均数为 μ ,标准差为 本,则
σ
的正态总体中,独立随机地抽取含量为 n 的样
μx = μ
•
σx =
σ
n
(平均数的标准误差)
样本平均数是一服从正态分布的随机变量,记为 X 。 简写为: