第三章 抽样分布

合集下载

统计学第3章-概率、概率分布与抽样分布

统计学第3章-概率、概率分布与抽样分布
3-15
互斥事件及其概率
(例题分析)

解:由于每一枚硬币出现正面或出现反面的概率 都是1/2,当抛掷的次数逐渐增大时,上面的4个 简单事件中每一事件发生的相对频数 (概率)将近 似等于 1/4 。因为仅当 H1T2 或 T1H2 发生时,才会 恰好有一枚硬币朝上的事件发生,而事件 H1T2 或 T1H2 又为互斥事件,两个事件中一个事件发 生或者另一个事件发生的概率便是 1/2(1/4+1/4) 。 因此,抛掷两枚硬币,恰好有一枚出现正面的概 率等于 H1T2 或 T1H2 发生的概率,也就是两种事 件中每个事件发生的概率之和
解:设 A = 某住户订阅了日报 B = 某个订阅了日报的住户订阅了晚报
依题意有:P(A)=0.75;P(B|A)=0.50
P(AB)=P(A)·P(B|A)=0.75×0.5=0.375
3-31
独立事件与乘法公式
(例题分析)
【例】从一个装有3个红球2个白球的盒子里摸球 (摸出后球不放回),求连续两次摸中红球的概率
3-17
互斥事件的加法规则
(例题分析)
【例】抛掷一颗骰子,并考察其结果。求出其点 数为1点或2点或3点或4点或5点或6点的概率
解:掷一颗骰子出现的点数(1,2,3,4,5,6)共有
6个互斥事件,而且每个事件出现的概率都为1/6 根据互斥事件的加法规则,得
P(1或2或3或4或5或6) P(1) P(2) P(3) P(4) P(5) P(6) 1 1 1 1 1 1 1 6 6 6 6 6 6


合计
从这200个配件中任取一个进行检查,求 (1) 取出的一个为正品的概率 (2) 取出的一个为供应商甲的配件的概率 (3) 取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件,它是正品的概率

统计学 第三章抽样与抽样分布

统计学 第三章抽样与抽样分布

=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取

3 理论分布与抽样分布

3 理论分布与抽样分布

【例3.7】 已知u~N(0,1),试求: (1) P(u<-1.64)=?
(2) P (u≥2.58)=?
(3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?
(1) P(u<-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤x<μ+σ)= 0.6826
P(μ-2σ≤x<μ+2σ) = 0.9545 P (μ-3σ≤x<μ+3σ) = 0.9973
P (μ-1.96σ≤x<μ+1.96σ) = 0.95
P (μ-2.58σ≤x<μ+2.58σ)= 0.99
在数理统计分析中,不仅注意随机变量x落在平均数加减不 同倍数标准差区间(μ-kσ , μ+kσ)之内的概率,更关心的是x落在 此区间之外的概率。
二项分布---二项分布的定义及其特点
二项分布的应用条件: (1)各观察单位 只具有相互对立 的一种结果,如合格或不 合格, 生存或死亡等等,非此即彼; (2)已知发生某一结果 (如死亡) 的概率为p,其对立结果 的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较 稳定的数值; (3)n次观察结果互相独立,即每个观察单位的观察结果不
P (-2.58≤u<2.58)=0.99
标准正态分布的三个常用概率如图示
u变量在上述区间以外取值的概率分别为: P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1) =1-0.6826=0.3174 P(|u|≥2)=2Φ(-2) =1- P(-2≤u<2) =1-0.9545=0.0455 P(|u|≥3)=1-0.9973=0.0027 P(|u|≥1.96)=1-0.95=0.05 P(|u|≥2.58)=1-0.99=0.01

统计学第3章抽样与抽样分布PPT资料(正式版)

统计学第3章抽样与抽样分布PPT资料(正式版)
统计学第3章抽样与抽样分布
3.1 常用的抽样方法
概率抽样
(probability sampling)
1. 也称随机抽样
按一定的概率以随机原则抽取样本
简单随机抽样
(simple random sampling)
1. 从总体N个单位中随机地抽取n个单位作为样本, 每个单位入抽样本的概率是相等的
2. 有重复抽样和不重复抽样
3 2.0 2.5 3.0 3.5
4
.3
2.5
.2
3.0
3.5 .1
4.0 0
P (X ) 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
样本均值的抽样分布
样本均值的分布与总体分布的比较 P101
总体分布
.3
.2
.1 0
1
234
= 2.5
σ2
.3 P ( X ) 抽样分布
.2
.1
0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布
有重复抽样和不重复抽样
既可以 对总体 参数进 行估计 ,也可 以对 从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的
各层的目标量进行估计
3.1.3 系统抽样
(systematic sampling)
1. 将总体中的所有单位按一定顺序排列,按 某规则确定一个随机起点, 然后每隔一定 的间隔抽取一个单位,直到抽取n个样本单 位.
2. 优点:操作简便,可提高估计的精度
3.1.4 整群抽样
1. 将总体中若干个单位合并为组(群),抽样 时直接抽取群,然后对中选群中的所有单 位全部实施调查

3、抽样分布

3、抽样分布

第3章 抽样和抽样分布
第三节
x
的抽样分布
如前所述, 如前所述,样本均值 一、
x 所有可能取值的概率分布
x
的期望值和标准差
1、数学期望
E (x ) =
2、标准差
σx
表示
x
的抽样分布的标准差 计算式如下: 计算式如下:
第3章 抽样和抽样分布
有限总体
σx = σ
n N n N 1
无限总体
σx =
2
σ
商务与经济统计
第3章 抽样和抽样分布
一、统计抽样的几个基本概念 1、全及总体和样本 全及总体:研究对象全体,又称母体。容量用N表示。具 全及总体 备惟一性。 样本总体:按随机原则从总体中抽出的部分单位的全体, 样本总体 简 称样本,被抽出的每个单位称样本单位。容量用n表示。样 本不具惟一性。 样本容量、样本单位数、样本个数
x2
X
-Z
0
Z
Z
第3章 抽样和抽样分布
第四节 p 的抽样分布 样本比例 p 的所有可能取值的概率分布
一、 p 的期望值和标准差 1、期望
第3章 抽样和抽样分布
在第一部分K个单位中(顺序为1、2、3、…、i、…、K )随 机抽取一个单位i,而在第二部分中抽取第i+K单位。第三部分 中抽取第i+2K单位……在第n部分抽取第i+(n-1)K单位,共n个 单位组成一个样本,而且每个样本的间隔均为K,这种抽样方 法称等距抽样。
}
n
1、2、3、…、 、…、K
0.05 0.04 0.03 0.02 0.01 140 150 160 170 180 190
身高
当组数n→无穷大,折线→曲线。

第三章抽样和抽样分布

第三章抽样和抽样分布
第三章抽样和抽样分布
Probability Sample
• Probability Sample • A probability sample is a sample chosen
by chance. We must know what samples are possible and what chance, or probability, each possible sample has.
第三章抽样和抽样分布
统计应用
“抓阄”征兵计划
➢ 然而结果是,有73个较小的号码被分配给了前半
年的日子,同时有110个较小的号码被分配给了后 半年的日子。换句话说,如果你生于后半年的某 一天,那么,你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人
➢ 在这种情况下,两个数字之间只应该有随机误差,
convenience sampling chooses the individuals
easiest to reach. Here is an example
of convenience sampling.
Both voluntary response samples and
convenience samples produce samples that are almost guaranteed not to represent the entire
被分配的号码较大的人也许永远轮不上到军队服役
➢ 这种抓阄看起来对决定应该被征召入伍是一个相当不错
的方法。然而,在抓阄的第二天,当所有的日子和它们 对应的号码公布以后,统计学家们开始研究这些数据。 经过观察和计算,统计学家们发现了一些规律。例如, 我们本应期望应该有差不多一半的较小的号码(1到183) 被分配给前半年的日子,即从1月份到6月份;另外一半 较小的号码被分配给后半年的日子,从7月到12月份。 由于抓阄的随机性,前半年中可能不会分到正好一半较 小的号码,但是应当接近一半

第3章 抽样分布

第3章 抽样分布

第三章 抽样分布
χ (一)
2
分布
• 设 X 1 , X 2 ,L, X n 是来自总体 N (0,1) 的样本,则称统计量 的样本,
χ 2 = X 12 + X 22 + L + X n2
2 2 2 为服从自由度为 n 的 χ 分布,记为 χ ~ χ (n) 分布,
第三章 抽样分布
χ 2 分布的密度函数 曲线 分布的密度函数 密度函数f(y)曲线
2
χ 2 分布的数学期望和方差
E (χ 2 ) = n , D (χ 2 ) = 2n
3
χ 2 分布的分位点
对于给定的数 α ,且 0 <
α < 1 ,称满足条件
2 P{ χ 2 > χ α ( n )} =
∫χ

α
2
(n)
f ( y ) dy = α
第三章 抽样分布
(二) t 分布
• 设 X ~ N (0,1) , ~ χ 2 (n),且设X 与 Y 独立,则称统计量 独立, Y
X t= Y /n
为服从自由度为 n 的 t 分布,记为 t ~ t (n) 。 分布, t • 可以证明,当 n 充分大时, 分布趋向于标准正态分 可以证明, 充分大时, 布。
第三章 抽样分布
t(n) 的概率密度为 (n) n + 1) Γ( n +1 t 2 )− 2 , − ∞ < t < ∞ 2 f (t) = (1 + n nπ Γ( n ) 2
第三章 抽样分布 三、 样本比例的抽样分布 • (一)重复抽样下样本比例的抽样分布 可以证明,
P(1 − P) p ~ N ( P, ) n

第三章抽样与抽样分布

第三章抽样与抽样分布

1、抽样分布:

全部可能样本统计量的频率分布叫
做抽样分布。
2、样本均值的抽样分布:

全部可能样本的平均数的概率分
布。
3、样本成数(比例)的抽样分布:

全部可能样本的成数的概率分布。
抽样分布
(sampling distribution)
4、抽样分布的特征值
•统计量:即样本指标

x

xi
每个单位被抽中的概率是已知的,或是可以计 算出来的
当用样本对总体目标量进行估计时,要考虑到 每个样本单位被抽中的概率
3-9
抽样框与抽样单位
抽样框:为便于抽样工作的组织,在抽样前在可 能条件下编制的用来进行抽样的记录或表明总体所有 抽样单元的框架。抽样框可以是一份清单(名单抽样 框)、一张地图(区域抽样框),它是设计和实施随 即抽样所必备的基础条件。
合格品(或不合格品) 与全部产品总数之比
2. 总体比率可表示为
N1 或
N
3. 样本比率可表示为
4. p n1 或 n
3-35
1 N0
N
1 p n0 n
样本比率(成数)的抽样分布的形成 抽样
比率 N1 / N
比率 p n1 / n
所有可能的样本的比率( p1, p2 , pn )所形成 的分布,称为样本比率(成数)的抽样分布。
n
ˆ P

ni
n
S
2

n
1 1
(
xi


x)2
3-21
样本均值的抽样分布
全部可能样本的平均数的概率分布
注意: • 1)在重复选取容量为n的样本时,由样

第三章 抽样分布

第三章 抽样分布
等于1。
.
④ F分布曲线与横坐标轴所围成的面积
.
.
.
.
(三)F分布的临界值 F分布的上侧临界值记为Fa,满足 P(F>Fa)=a;下侧临界值记为F1-a,满足 P(F<F1-a)=a。 ①在自由度df1和df2下, F分布的上侧临界 值Fa由附表7查出。 例如,df1 =4 ,df2=20, a=0.05 的上侧临界 值 F0.05,4, 20 2.866 ,满足 P F 2.866 0.05
2 s1
.
.
F
s 12
2 s2
2 s2
.
.
2 s 1 2 2 F 当 s 1 s 2 时,上式简化为 2 s2 F服从自由度 df1 n1 1 和 df 2 n2 1的F分布。
(二)F分布的特性
.
.
.
.
.
① F分布曲线呈偏态。 ② F分布曲线的形状由分子自由度df1和
.
分母自由度df2决定。 ③ F分布的取值范围0—+∞。
.
.
.
.
.
P(c2<3.325)=0.05示意图
.
(一)两个样本平均数差分布的定义
假定有两个相互独立的正态总体 N(m1,s12) 和 N(m2,s22) ,从第一个正态总 体 N(m1,s12 ) 中以样本含量 n1 随机抽取 k 个样本,计算样本平均数 x11 , x12 ,, x1k. 从第二个正态总体 N(m2,s22) 中以样本含 量 n2 随机抽取 m 个样本,计算样本平均 数 x21 , x22 ,, x2m ;将来自两个总体的 样本平均数进行所有可能的比较,求得 km个差数,由km个差数所构成的概率分 布称为两个样本平均数差的分布。

理论分布与抽样分布

理论分布与抽样分布

统计学证明,服从二项分布B(n,p)旳随
机变量之平均数μ、原则差σ与参数n、p有
如下关系:(即次数平均数、原则差)
当试验成果以事件A发生次数k表达时
μ=np
σ2= npq
(3-7)
σ= npq
当试验成果以事件A发生旳频率k/n或
百分数表达时(即样本平均数、原则差)
p p ( pq) / n
xpx qnx
n
x0
c c c
0 6
0.850
0.156
1 6
0.851
0.155
2 6
0.852
0.154
c c
3 6
0.853
0.153
4 6
0.854
0.152
0.22350
二项分布旳应用条件有3点:
(1) 一对互斥事件 (2) (p+q=1),P是稳定值。 (3) n次成果相互独立
1.1.4二项分布旳平均数与原则差
由图2-6做100听罐头净重资料旳频率分 布直方图 ,能够设想 ,假如样本取得越来 越大(n→+∞),组分得越来越细(i→0),某一 范围内旳频率将趋近于一种稳定值 ── 概率。 这时 , 频率分布直方图各个直方上端中点 旳联线 ── 频率分布折线将逐渐趋向于正态 分布曲线。
上一张 下一张 主 页 退 出
(1)随机单位时间和单位空间旳稀有事件; (2)在n→∞,p→0, 且 n p =λ(较小常数)情 况下 ,二项分布 趋于泊松分布; (3)每次试验成果相互独立。 对于在单位时 间、单位面积或单位容积内,所观察旳事物 因为某些原因分布不随机时,不是泊松分布。 (Such as contagion, Bacteria Group in milk)

数理统计第3章 随机抽样与抽样分布

数理统计第3章 随机抽样与抽样分布

E ( X i ) = E ( X ) = µ , D( X i ) = D( X ) = σ 2 , i = 1,2,L , n
1 n 1 n 所以 E ( X ) = E ( ∑ X i ) = ∑ E ( X i ) = µ , n i =1 n i =1
1 1 . D ( X ) = D( ∑ X i ) = 2 ∑ D( X i ) = n n i =1 n i =1
11
它反映了总体 二、样本数字特征 均值的信息 它反映了总体 1 n 样本均值 X = ∑Xi 方差的信息 n i=1 1 n 1 n 2 2 2 2 样本方差 S = ∑( Xi − X) = n −1 ∑Xi − nX n −1 i=1 i =1
推导: 推导:
( Xi − X)2 = ∑( Xi2 − 2Xi X + X 2 ) ∑
因此, 应视为一组随机变量, 因此,抽样值 ( x1 , x2 ,L, xn ) 应视为一组随机变量,我们把 的一个样本 子样), 样本( ),其中 称为该样本的容量 容量。 它称为总体 X 的一个样本(或子样),其中 n 称为该样本的容量。
7
二、简单随机抽样
由于抽样的目的是为了对总体的分布进行统 计推断, 计推断,为了使抽取的样本能很好地反映总体的 信息,必须考虑抽样方法 信息,必须考虑抽样方法. 最常用的一种抽样方法叫作“ 最常用的一种抽样方法叫作“简单随机抽 它要求抽取的样本满足下面两点: 样”,它要求抽取的样本满足下面两点: 1. 代表性: X1,X2,…,Xn中每一个与所考察的总体 代表性: 有相同的分布. 有相同的分布 2. 独立性: X1,X2,…,Xn是相互独立的随机变量 独立性: 是相互独立的随机变量. 由简单随机抽样得到的样本称为简单随机样本 简单随机样本, 由简单随机抽样得到的样本称为简单随机样本, 今后如不加声明,均指简单随机样本。 今后如不加声明,均指简单随机样本。

抽样分布

抽样分布

第三章 抽样分布一、样本统计量二、抽样误差=总体参数-样本统计量估计值表现现象:在同一总体中的不同抽样,其样本统计量之间存在差异。

三、样本量和样本个数的概念例3.1,已知某地高中三年级男生的平均身高为168.15厘米,这里,将该地高中三年级男生的身高视为一个总体,其总体均数168.15μ=,总体标准差 6.00σ=。

现从该总体中重复随机抽样5次,每次抽取一个样本含量n=10的样本,得到的5个样本的数据及各样本均数如下:2样本号样本观测值(n=10)X 抽样误差1 161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 157.4 164.82 -3.33 2 166.8 159.1 159.1 166.1 173.3 173.3 169.1 169.1 165.2 165.2 166.63 -1.52 3 157.4 174 172.3 175.8 166.6 182.1 163.1 159.4 159.4 177.3 168.74 0.59 4 174.5 182.1 168.5 171.3 174.1 165.6 173.7 171.9 167.5 164.1 171.33 3.18 5164.1 166.6 169.6 169.6 173.8 173.2 164.3 166.6 182.1 165.4169.531.38四、抽样误差是随机的、但在概率意义下是有规律的,在大量重复抽样的情况下,可以展示其规律性:抽样分布,并且抽样分布与样本分布有一定的关系。

因此只要了解抽样分布的规律性以及与样本之间的关系,这样即使只有一个样本,也能了解抽样分布情况。

五、正态分布样本的样本均数分布样本含量n=4样本含量n=16样本含量n=36X 的平均数=168.198X的标准差=2.9995 3.0≈=X 的平均数=168.185X 的标准差=1.4868 1.5 X 的平均数=168.135X 的标准差=0.9997 1.0≈= 图3.1 从正态分布总体N(168.15,6)中随机抽样的结果曲线是正态总体N(168.15,62)的分布密度曲线直方图为正态分布总体N(168.15,62)的样本均数的频数图表3.2 从正态总体N(168.15,62)随机抽样,样本含量分别为4,16和36●大多数的样本均数相互之间存在差异,绝大多数的样本均数X不等于总体均数,但都离总体均数比较近。

第三章 正态分布与抽样分布

第三章  正态分布与抽样分布

图3-5 正态分布的概率
关于正态分布,有几个概率应记住: 关于正态分布,有几个概率应记住: 一般正态分布: 一般正态分布:
P(µ-1.96σ≤x<µ+1.96σ)=0.95 1.96σ≤x<µ+1.96σ)= )=0.95 P(µ-2.58σ≤x<µ+2.58σ)=0.99 2.58σ≤x<µ+2.58σ)= )=0.99 P(µ-σ≤x<µ+σ)=0.6826 σ≤x<µ+σ)= )=0.6826 P(µ-2σ≤x<µ+2σ)=0.9545 2σ≤x<µ+2σ)= )=0.9545 P(µ-3σ≤x<µ+3σ)=0.9973 3σ≤x<µ+3σ)= )=0.9973
对于大样本资料,常将样本标准差S 对于大样本资料,常将样本标准差S 与样本均数配合使用,记为 X ± S ,用 与样本均数配合使用, 以说明所考察性状或指标的优良性与稳 定性。对于小样本资料, 定性。对于小样本资料,常将样本标准 误 SX 与样本均数 X 配合使用,记 配合使用, 为 X ± S ,用以表示所考察性状或指 标的优良性与抽样误差的大小。 标的优良性与抽样误差的大小。
学上已证明 总体的两个参数与x总体的两 总体的两个参数与x 个参数有如下关系: 个参数有如下关系:
µx = µ
σx =
σ
n
表 X 的抽样分布形式与原总体X分布形式的关系 的抽样分布形式与原总体X
2.2 均数标准误
均数标准误 σx = 的大小反映样本均数 X n 抽样误差的大小 标准误大, 的大小。 的抽样误差的大小。标准误大,说明各样本均 间差异程度大;反之,亦然。 数 X 间差异程度大;反之,亦然。 在实际工作中,总体标准差σ往往是未知的, 在实际工作中,总体标准差σ往往是未知的, σx 此时,可用样本标准差S 因而无法求得 。此时,可用样本标准差S估 S 于是, 计σ 。于是,以 估计 n 。记σx 为 n, S SX 称作样本标准误或均数标准误。 称作样本标准误或均数标准误。 是均数抽样 SX 误差的估计值。 误差的估计值。

概率统计基础:第 3 章 随机变量及抽样分布

概率统计基础:第 3 章   随机变量及抽样分布
X1 , X2 , , Xn
这一过程称为抽样 , X1 , X2 , , Xn 称为容量为n的样本.
抽样的特点 在相同条件下对总体X进行n次重复、独立观察
要求各次取样的结果互不影响 每次取出的样品与总体有相同的分布
样本的特点
观察前:X1 , X2 ,, Xn 是相互独立,与总体同分布的随机 变量
0.4
n=2
0.3
n=3
0.2
n=5
n = 10
0.1
n = 15
5 10 15 20 25
设 c 2 ~c 2 (n) X i ~ N (0,1) i 1, 2, , n

E(X i ) 0,
D( X i ) 1,
E
(
X
2 i
)
1
E c 2
E
n
X
2 i
n
i1
E
(
X
4 i
)
1
x4e
1. 期望为:E(c2)=n,方差为:D(c2)=2n(n为自
由度)
2. 可加性:若U和V为两个独立的c2分布随机变 量,U~c2(n1),V~c2(n2),则U+V这一随机变 量服从自由度为n1+n2的c2分布
总体
样本
计算样本统计量 如:样本均值、 比例、方差
几个重要分布 c2-分布(c2-distribution)
1. 由阿贝(Abbe) 于1863年首先给出,后来由海 尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分 别于1875年和1900年推导出来
定义: 设 X 1 , X 2 , , X n相互独立,都服从正态
个体:随机变量X的值
总体

抽样检验-第三章概率、概率分布与抽样分布2 精品

抽样检验-第三章概率、概率分布与抽样分布2 精品
概率抽样也叫随机抽样,是指按照随机原则 抽取样本。
概率抽样最基本的组织方式有:简单随机抽 样、分层抽样、系统抽样和整群抽样。
特点
能有效避免主观选样带来的倾向性误差(系统偏 差),使得样本资料能够用于估计和推断总体的 数量特征,而且使这种估计和推断得以建立在概 率论和数理统计的科学理论之上,可以计算和控 制抽样误差,能够说明估计结果的可靠程度。
优点: 抽样时只需群的抽样框,可简化工作量;
调查的地点相对集中,节省调查费用,方 便调查的实施;
当群为总体的一个缩影时,抽样估计误差 小,否则误差较大。
五、多阶段抽样
又称多级抽样。前 4种抽样方法均为一次性直接从总体 中抽出样本,称为单阶段抽样。
多阶段抽样则是将抽样过程分为几个阶段,结合使用上 述方法中的两种或数种。例如,先用整群抽样法从北京 市某中等学校中抽出样本学校,再用整群抽样法从样本 学校抽选样本班级,最后用系统或纯随机抽样从样本班 级的学生中抽出样本学生。
灯泡的使用寿命可以看做是一个随机变量X,如 果能知道X的分布函数F(x),那么F(1000)就是次品率。 但对每只灯泡测试寿命是行不通的。
我们往往会从总体中随机抽取一部分个体,比如 100只灯泡,进行测试,求得分布函数,次品率,并 由此对总体进行推断。
3.4 抽样分布
一、抽样分布的概念
总体与样本
一、简单随机抽样 (simple random sampling)
从总体N个单位中随机地抽取n个单位作为样 本,使得总体中每一个元素都有相同的机会 (概率)被抽中;
抽取元素的具体方法有重复抽样和不重复抽样; 常用方法:抽签法。
特点
简单、直观,在抽样框完整时,可直接从 中抽取样本;
用样本统计量对目标量进行估计比较方便。 局限性

3理论分布与抽样分布

3理论分布与抽样分布
n
件,记作A1A2…An= Ai i1
(三) 互斥事件
事件A和B不可能同时发生,即AB为不可能事件,记作 A·B=V,称事件A和B互斥或互不相容。
例如,有一袋种子,按种皮分黄色和白色。若记A为“取 到黄色”,B为“取到白色”,显然A和B不可能同时发生, 即一粒种子不可能既为黄色又为白色,说明事件A和B互斥。
由若干个基本事件组合而成的事件称为 复合事件 (compound event)。如 “取得一个编号是 2的倍 数”是一个复合事件,它由 “ 取得一个编号是2 ”、 “ 是4”、“是6、“是8”、“是10”5个基本事件组 合而成。
(2)必然事件 我们把在一定条件下必然会发生的事件称为 必然事件(certain event),用Ω表示。 例如,在严格按妊娠期母猪饲养管理的要求 饲养的条件下,妊娠正常的母猪经114天左右产 仔,就是一个必然事件。
(一) 和事件
事件A和B至少有一个发生而构成的新事件称为事件A和
B的和事件,记为A+B,读作“或A发生,或B发生”。
例如,有一批种子,包含有能发芽的和不能发芽的。
若A为“取到能发芽种子”,B为“取到不能发芽种子”,
则A+B为“或者取到能发芽种子或者取到不能发芽种子”。
事件间的和事件可以推广到多个事件:事件A1、
= 0.0695
C 10 30
即在30头奶牛中有8头曾有流产史,从这群 奶牛随机抽出 10 头奶牛其中有2头曾有流产史 的概率为6.95%。
(三)概率的性质
1、对于任何事件A,有0≤P(A)≤1;
2、必然事件的概率为1,即P(Ω)=1; 3、不可能事件的概率为0,即P(ф)=0。
三、小概率事件实际不可能性原理
P(A)=m/n

第三章 抽样分布

第三章 抽样分布

F分布特征及查表方法:
F分布的上侧和下侧分位点见下图。 根据df1值和df2值及α值可在附表7中查出。如F4,20,0.01=4.431 附表7给出的是上侧分位数,要求下侧分位数需将df1和df2位置 对调再求倒数。 如F4,20,0.99=1/F20,4,0.01=1/14.0=0.0714 有些自由度下的 F 值附表 7 没有给出,可用线性内插方法求出。 F12,17,0.05=F12,15,0.05+(F12,20,0.05-F12,15,0.05)/(20-15)×(17-15)=2.396
(x x )
1 2
12
n1
n2
标准化(
u
( x 1 x 2 ) ( 1 2 )
12
n1

2 2
)后的变量服从
n2
标准的正态分布,这样可以推断在标准差已
知时,两个样本平均数的差异是否显著。
二、总体标准差未知但相等时,两个样本平均数和与差 的分布---t分布
例1:查df=9,α=0.05的χ 2值 例2:设随机变量k服从分布χ 2(5),求λ的值使其满足 P{k≤λ}=0.05
4.2 从两个正态分布总体中抽取的样本统计量的分布
假定有两个正态总体,分别具有(μ1,σ1)和(μ2,σ2)。 从第一个总体中随机抽取含量为 n1 的样本,并独立地从第二 个总体中抽取含量为 n2的样本。求出x1,s1和x2,s2。下面我们 研究x1±x2的分布。
X 0.1 1 2 F 0.1 即, P 0.5 0.997 0.5 0.5 n n n
解:P {∣ X -μ∣<0.1}= 0.997
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
总体X的K阶原点矩和K阶中心矩分别为
E(Xk)(k=1,2,…) 和 E((X- E(Xk) )k) (k=2,3,…)
总体的一阶原点矩即为总体的均值,总体的二阶中心矩 即为总体的方差。
15
二、几种常用的抽样分布
样本统计量的分布称为抽样分布,即由 样本统计量的全部可能取值和与之相应的概 率(频率)组成的分配数列。
抽样:就是从总体中抽取有限个个体对总体进行观测的过
程。 样本的二重性。抽样之前,由于总体中各个体有同等被 抽中 的 可 能 , 抽 中 哪 个个体不能确定,因此样本是一组随
机变量;但当样本被抽取并测试完成后,各个样本点都
是一个确定的数值,样本成为是一组确定的数值。
6
在相同的条件下对总体X进行n次重复独立的观察。将n次观 察结果按试验的次序记为X1, X2,…, Xn 。 由于X1, X2,…, Xn 是对随机变量X观察的结果,且各次观 察是在相同的条件下独立进行的,所以有理由认为X1, X2,…, Xn是相互独立的,且都是与总体X具有相同分布的随机变量。 这样得到的X1, X2,…, Xn 称为来自总体X的一个简单随机
g ( x1 , x2 ,..., xn )
是g(X1, … ,Xn)的观测值
12
总体分布 未知 总体参数 未知 总体其他信息 未知
样本统计量g=g(X1,X2,…Xn) 两个要点:1、是样本的函数
2、不含未知的参数.
样本 X1,X2,…Xn
在统计推断中,一项重要的工作就是寻找统 计量和导出统计量的分布。
20
x 的抽样分布与总体分布和样本量n有关:
总体是正态分布,样本均值总是正态分布 总体非正态分布,随着n的增大,样本均值趋于正态分布
21
中心极限定理
(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为 n 的样本,当 n 充分大时,样本均值的 抽样分布近似服从均值为μ、方差为σ2/n的正态分布

2 (n)
x
36
附表3中给出了自由度n≤45的2分布的上 α 分位数值. 如对于 0.1, n 25 查附表3得 0.12 (25) 34.382
方便通过EXCEL查分位点,函数为CHIINV。
fx
常用函数
CHIINV
α=0.05 n=55
73.31
α=0.02 n=55
x 0,1
4
总体
总体:研究对象的某项数量指标值的全体。 个体:组成总体的每一个基本元素。
例如:① 某工厂生产的灯泡的使用寿命的全体是一个总体。 每一个灯泡的使用寿命是一个个体。 ② 我校男生的身高的全体是一个总体。
每个男生的身高是一个个体。 总体所含个体的数目称为总体容量.
5
样本
样本:通过随机观测或试验的方法,获得的总体中一部分 个体,称为样本,每个个体称为样本单位。
22
23
24
25
26
27
28
x
样本均值的抽样分布图
合计
1
18
所有可能样本均值的均值和方差
x xi pi 22 1 23 2 28 1 25 16 16 16 i 1
M
x
x x
7 i 1 i
2
fi
1 2 2 21 22 25 1 (23 25) 2 (28 25) 16 25 X
是直接使用样本本身,而是对样本进行“处理”,将
所需信息浓缩集中起来针对不同的问题,构造样本
的适当函数——统计量进行统计推断。
11
一、 统计量
如果样本X1, … ,Xn的函数g=g(X1, … ,Xn)不含未
知参数,则称g(X1, … ,Xn)是一个统计量。
如果x1, … ,xn是对应于样本X1, … ,Xn的样本值, 则称:
例设一个总体含有4个
个体,即总体单位数N=4,
其 取 值 分 别 为 X1=22 、 X2=24、X3=26 、X4=28 。
总体的均值、方差:
X 25 5
2
16
现从总体中抽取 n = 2 的简单随机样本,重复抽样条件 下,共有 42=16 个可能样本。所有可能样本的结果列表如 下,试分析样本均值的分布。
样本均值的均值(数学期望)等于总体均值;

16

样本均值的方差等于总体方差的1/n。
19
事实上,对于来自均值和方差分别为

和 2 的总体的一个简单随机样本X1,
X2,…, Xn ,其样本均值的数字期望和
2 方差分别为 x 和 x
2
n

一般称 x

n
为样本均值的抽样误差。
x2 e 2
分布函数为密度函数的积分
4 2 0
2
4
x
26
分布函数为
(1) (0)=0.5
( x) P{ X x}

t2 x 1 2 dt , e 2
(2) (+∞)=1;
x
1 e 2
x2 2
(3) (x)=1- (-x). 一般的概率统计教科书均附有 标准正态分布表供读者查阅 (x)的值.(附表1)如,若 X~N(0,1),(0.5)=0.6915, P{1.32<X<2.43} =(2.43)-(1.32)=0.9925-0.9066 例题:课本74页
所有可能样本及其样本均值( n = 2)
第一个 样本单位
第二个样本单位 A(22)
AA(22)
BA(23)
B(24)
AB(23)
BB(24)
C(26)
AC(24)
BC(25)
D(28)
AD(25)
BD(26)
A(22)
B(24)
C(26) D(28)
CA(24) DA(25)
CB(25) DB(26)
所谓一个分布的 上侧分位数就是指这样一个数,
它使相应分布的随机变量不小于 ( 大于等于)该数的
2 概率为,比如,若记2变量的上侧分位数为 ,则
满足
2 p( 2 )
d
查表313页附表3
20.995Βιβλιοθήκη 11)=2.603 20.01(13)=27.688
f n ( x)
CC(26) DC(27)
CD(27) DD(28)
17
样本均值的抽样分布
均值 22 23 24 25 26 概率 1/16 2/16 3/16 4/16 3/16
将表中样本的均值的各种可能取 值及其可能性(概率)加以整理, 绘制成分布表和分布图如下:
P(x)
0.3
0.2
0.1
0
27
28
2/16
1/16
x
x
P( X x )
f ( x )dx
f ( x )dx 1
f ( x)
黄色阴影部 分概率为α
P ( X x )

的点 xα 为X的上 α 分位数
(简称为上分位点).
上侧分 位数
29

x
(一) 2分布
1. 2分布的定义和密度函数
设X1, … ,Xn是相互独立,服从标准正态分布
第三章 抽样分布
1
第一节 随机样本
研究的标志
统计 推断 中的 总体 及总 体分 布
组成元素 具体对象
组成元素 变量的具体 取值
实物总体
数字总体
例:1000个零件的直径 1000个零件的集合 零件直径的集合
组成元素:每个零件
组成元素:直径观测值
2
对一个总体而言,个体的取值是按一定规律分布
的。任取一个零件,其直径取值是按一定概率分布的。 对某个总体而言,总对应着一个随机变量X,总体 分布就是指随机变量的概率分布。
78.62
37
(二)
t 分布
1. t分布的定义和密度函数
定义:若X~N(0, 1), Y~2(n), X与Y独立,则
X T ~ t (n). Y /n
t(n)称为自由度为n的t分布,记为T~t(n)。 t(n) 分布的概率密度为
新构造的随机变量为原随机变量平方和
31
2(n)分布是参数为n/2,1/2的Γ分布,即2(n)的密度函数为
1 2n / 2 ( n / 2) x e , x 0 f ( x) x0 0,
n x 1 2 2
32

2的概率密度曲线
2分布随着自由度n增加,分布渐近于正态。
一个任意分 布的总体
x
n
当样本容量足够 ≥ 30) , 大时(n 样本均值的抽样 分布逐渐趋于正 态分布
x
X
22
中心极限定理
(central limit theorem)
x 的分布
趋于正态 分布的过 程
23
一般正态分布
1. 定义 若随机变量X的密度函数为
1 2 2 f ( x) e 2 其中 x ( x )2
f ( x)
0

x
式中 为实数, >0 .则称X服从参数为 ,2的正态分 布,亦称高斯分布.记为N(, 2).可表为X~N(, 2). 图象见右上角
24
正态分布有两个特性: (1) 单峰对称 密度曲线关于直线x=对称
1 f()=maxf(x)= 2
0
f ( x) f ( x)
2 N(0,1)的随机变量,则称随机变量: 2 X12 X n
所服从的分布为自由度是n的 2 分布,即
相关文档
最新文档