第6章 样本及抽样分布PPT
合集下载
第6章-统计量及其抽样分布
2、计算出每个样本的统计量值; 3、将来自不同样本的不同统计量值分组排列,把
对应于每个数值的相对出现频数排成另一列, 由此,全部可能的样本统计量值形成了一个概 率分布,这个分布就是我们想要得到的抽样分 布。
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
所有样本均值的均值和1.0 1.5 4.0 16
2.5 m
n
(xi mx )2
s
2 x
i 1
M
M为样本数目
(1.0 2.5)2
(4.0 2.5)2
s2
0.625
16
n
1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n
从检查一部分得知全体。
复习 抽样方法
抽样方式
概率抽样
非概率抽样
简单随机抽样 整群抽样
多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
6.2.1 抽样分布 (sampling distribution)
1. 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可 能取值形成的相对频数分布
2. 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行推 断的理论基础,也是抽样推断科学性的重要依据
抽样分布的形成过程 (sampling
distribution)
对应于每个数值的相对出现频数排成另一列, 由此,全部可能的样本统计量值形成了一个概 率分布,这个分布就是我们想要得到的抽样分 布。
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数
1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
样本均值的抽样分布
所有样本均值的均值和1.0 1.5 4.0 16
2.5 m
n
(xi mx )2
s
2 x
i 1
M
M为样本数目
(1.0 2.5)2
(4.0 2.5)2
s2
0.625
16
n
1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n
从检查一部分得知全体。
复习 抽样方法
抽样方式
概率抽样
非概率抽样
简单随机抽样 整群抽样
多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
6.2.1 抽样分布 (sampling distribution)
1. 样本统计量的概率分布,是一种理论分布
在重复选取容量为n的样本时,由该统计量的所有可 能取值形成的相对频数分布
2. 随机变量是 样本统计量
样本均值, 样本比例,样本方差等
3. 结果来自容量相同的所有可能样本
4. 提供了样本统计量长远而稳定的信息,是进行推 断的理论基础,也是抽样推断科学性的重要依据
抽样分布的形成过程 (sampling
distribution)
六样本及抽样分布
ex ,
解 总体 X 的概率密度为
f (x)
0,
x 0, x 0,
因为 X1, X2 , , Xn 相互独立, 且与 X 有相同的分布,
所以 ( X1, X2 , , Xn )的概率密度为
fn( x1, x2, , xn )
n
f
( xi
)
ne
n
i 1
xi
,
i 1
0,
xi 0, 其他.
请注意 : 设X1, X2 , Xn是来自总体X的一个样本 , x1, x2 ,
xn是一个样本的观察值 ,则g( x1, x2 , xn )也是统 计量g(X1, X2 , Xn )的观察值.
例 设 X1, X2 , X3是来自总体N ( , 2 )的一个 样本, 其中 为已知, 2 为未知, 判断下列各式哪
例5 设总体 X 服从两点分布B(1, p), 其中0 p 1, ( X1, X 2 , , X n )是来自总体的样本, 求样本 ( X1, X 2 , , Xn )的分布律. 解 总体 X 的分布律为
P{ X i} pi (1 p)1i (i 0, 1)
因为 X1, X2 , , Xn相互独立, 且与 X 有相同的分布, 所以 ( X1, X2 , , Xn )的分布律为
如实例3中, 总体就是数集 {15, 16, 17, 18, 19, 20}. 总体分布为
年龄 15 16 17 18 19 20 比率 9 21 132 1207 588 43
2000 2000 2000 2000 2000 2000
二、随机样本的定义
1. 样本的定义
设 X 是具有分布函数F 的随机变量, 若 X1, X2 , , Xn 是具有同一分布函数F、相互独立的 随机变量, 则称 X1, X2 , , Xn 为从分布函数F (或总体 F、或总体 X ) 得到的容量为n 的简单 随机样本, 简称样本.
社会研究方法 第6章
整群抽样
不同子群
子群抽取
整群抽样
优点:简便易行,节省费用 扩大抽样应用范围
缺点: 样本分布不广, 代表性相对较差
适用对象: 总体的不同子群之间差别不大, 而每个子群内部差异较大
五、多段抽样
按抽样元素的隶属、层级关系把抽样过程分为 几个阶段进行:先从总体中随机抽取几个大群, 然后再从这几个大群内随机抽取几个小群,这 样一级级抽下去直到抽到最基本的元素为止。
第六章 抽样
第一节 抽样的意义与作用 第二节 概率抽样的原理与程序 第三节 概率抽样方法 第四节 户内抽样与PPS抽样 第五节 非概率抽样方法 第六节 样本规模与抽样误差
第一节 抽样意义与作用
一、抽样的概念
(1)总体(population):构成它的所有元素的 集合,用“ N ”表示。
(2)元素(element):构成总体的最基本单位。
出总体内在结构的变量作为分层变量。 c:以那些已有明显层次区分的变量作为分层变量 (2)分层的比例 a:按比例分层抽样 b:不按比例分层抽样
按比例分层抽样
分层
学生
1200
女生1000 (5/6)
男生200 (1/6)
抽 样(120人)
100人 5/6
样 本 20人 1/6 120
按各种类型或层次中单位数目同总体单位数目间 的比例来抽取子样本的方法。可以确保得到一个 与总体结构完全一样的样本。
样本规模的计算
简单随机抽样中样本规模的计算 置信水平对应的临界值
➢
推论总体均值
:
n
t2
e2
பைடு நூலகம்
2
总体的标准差 允许的抽样误差
推论总体成数:
t 2 p(1 p)
第6章--抽样推断PPT优秀课件
不考虑顺序
(N n 1)! n!(N 1)!
不重复抽样:又称不回置抽样。
考虑顺序 N !
( N n )!
可能组成的样本数目
不考虑ห้องสมุดไป่ตู้序
N! ( N n )! n!
7
标号为A、B、C、D的四个圆球从中随机抽取两个 可能样本个数
考虑顺序 N n
AA、AB、AC、AD BA 、BB、BC、BD
CA、CB、CC、CD
p
p1p0.9 8 0.0 20.8(0% 8 )
n
300
p p1np1N n 0.938 0 0.0021630000 00 0.80(6 %
计算结果表明:不重复抽样的平均误差小于重复抽样, 但是“N”的数值越大,则两种方法计算 的抽样平均误差就越接近。
24
四、抽样极限误差
含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变 异程度和分析任务的要求所确定的样本指标与总体指标 之间可允许的最大误差范围。
例题二解 已知: N 20 ,n 040,0 x 0 48 ,0 3000
则:
x
n
3001(5小)时 400
x
2 1 n 3020140013.42(小时 )
n N 400 2000
计算结果表明:
根据部分产品推断全部产品的平均使用寿命时,采用
不重复抽样比重复抽样的平均误差要小。
21
抽样成数平均误差的计算公式
例题二:
某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
17
下面求 Y 的无偏估计 y 的方差 V ( y )
概率论 第六章 样本及抽样分布
函数Fn(x)为 Fn(x)=S(x)/n , -∞<x< +∞。
一般,设 x1,x2, …,xn 是总体F的一个容 量为n的样本值,先将x1,x2, …,xn 按自小到 大的次序排列,并重新编号,设为
x(1) ≤x(2) ≤…≤x(n) 则经验分布函数Fn(x)的观察值为
0,
若x x(1) ,
性质:
(1) limf (t)
1
e ; t2 2
n
2
(2)当n 45时 取t (n) Z .
(三)设X~2(n1), Y~ 2(n2), 且X 与Y相互独立,则随机变量
F X/ n1 Y / n2
则称F服从第一自由度为n1,第二自由 度为n2的F分布,记作
F~F(n1 ,n2)
F分布的分布密度为
2 2
E( X 2 ) D( X ) (E( X ))2
2 2
n
E(S 2 )
E[ 1 n 1
n i 1
(Xi
X
)2 ]
E[
1
n
(
n 1 i1
X
2 i
2
n X )]
1
n
E(
n 1 i1
X
2 i
nX
2
)
1 [E( n 1
n i 1
X
2 i
)
E(n X
2
)]
1[ n 1
n i 1
考察某厂生产的电容器
的使用寿命。在这个试验 中什么是总体,什么是个 体。
解 个体是每一个电容器 的使用寿命;总体X是各个 电容器的使用寿命的集合。
2. 样本
为推断总体分布及各种特征,按一定规 则从总体中抽取若干个体进行观察试验,以 获得有关总体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样 本中所包含的个体数称为样本容量.
一般,设 x1,x2, …,xn 是总体F的一个容 量为n的样本值,先将x1,x2, …,xn 按自小到 大的次序排列,并重新编号,设为
x(1) ≤x(2) ≤…≤x(n) 则经验分布函数Fn(x)的观察值为
0,
若x x(1) ,
性质:
(1) limf (t)
1
e ; t2 2
n
2
(2)当n 45时 取t (n) Z .
(三)设X~2(n1), Y~ 2(n2), 且X 与Y相互独立,则随机变量
F X/ n1 Y / n2
则称F服从第一自由度为n1,第二自由 度为n2的F分布,记作
F~F(n1 ,n2)
F分布的分布密度为
2 2
E( X 2 ) D( X ) (E( X ))2
2 2
n
E(S 2 )
E[ 1 n 1
n i 1
(Xi
X
)2 ]
E[
1
n
(
n 1 i1
X
2 i
2
n X )]
1
n
E(
n 1 i1
X
2 i
nX
2
)
1 [E( n 1
n i 1
X
2 i
)
E(n X
2
)]
1[ n 1
n i 1
考察某厂生产的电容器
的使用寿命。在这个试验 中什么是总体,什么是个 体。
解 个体是每一个电容器 的使用寿命;总体X是各个 电容器的使用寿命的集合。
2. 样本
为推断总体分布及各种特征,按一定规 则从总体中抽取若干个体进行观察试验,以 获得有关总体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样 本中所包含的个体数称为样本容量.
统计学第六章抽样和抽样分布
2021/3/4
统计学第六章抽样和抽样分布
4
一、总体与样本
▪ 把握两个问题: ▪ 1、总体和总体参数; ▪ 2、样本和样本统计量。
2021/3/4
统计学第六章抽样和抽样分布
5
1、总体与总体参数
(1)总体:指根据研究目的确定的所 要研究的同类事物的全体,是所要说 明其数量特征的研究对象。按所研究 标志性质不同,分为变量总体和属性 总体,分别研究总体的数量特征和品 质特征。 构成总体的个别事物(基本单元 )就是总体单位,也称个体。总体单 位的总数称为总体容量,记作N。
缺点:受主观影响易产生倾向性误差; 不能计算、控制误差,无法说明调查结果 的可靠程度。
抽样一般都是指概率抽样。
2021/3/4
统计学第六章抽样和抽样分布
15
2、重复抽样和非重复抽样
(1)重复抽样:又称重置抽样,是指从总体 中抽出一个样本单位,记录其标志值后,又将 其放回总体中继续参加下一轮单位的抽取。特 点是:第一,n个单位的样本是由n次试验的结 果构成的。第二,每次试验是独立的,即其试 验的结果与前次、后次的结果无关。第三,每 次试验是在相同条件下进行的,每个单位在多 次试验中选中的机会(概率)是相同的。在重复 试验中,样本可能的个数是 N n ,N为总体单位 数,n为样本容量。
2021/3/4
统计学第六章抽样和抽样分布
16
2、重复抽样和非重复抽样
(2)非重复抽样:又称为不重置抽样,即每次从
总体抽取一个单位,登记后不放回原总体,不参加下
一轮抽样。下一次继续从总体中余下的单位抽取样本
。特点是:第一,n个单位的样本由 n 次试验结果构成
统计学第六章抽样和抽样分 布
第六章 抽样与抽样分布
东华大学《概率论与数理统计》课件 第6章样本与抽样分布
X
的
n
一
个
样
本的
观察
值
,
则g( x1 , x2 , xn )是统计量g( X1 , X 2 , X n )的观察值.
例1 设总体X 服从两点分布b(1, p) ,其中p 是未知参数,
X1,
,
X
是
5
来自X的简
单
随机样本.试指出
X1
X
,
2
max
1 i 5
X
i
,
X5 2 p,
( X5 X1)2
哪些是统计量,哪些不是统计量,为什么?
从国产轿车中抽5辆进行耗 油量试验
样本容量为5 抽到哪5辆是随机的
对总体X在相同条件下,进行n次重复、独立观察,其结果依次记 为 X1,X2,…,Xn.这样得到的随机变量X1,X2,…,Xn.是来自总体的一个简单 随机样本,其特点是:
1. 代表性:X1,X2,…,Xn中每一个与所考察的总体X有相同的分布. 2. 独立性:X1,X2,…,Xn相互独立.
k同分布,
E(
X
k i
)
k
k 1, 2, , n 再由辛钦大数定律可得上述结论.
再由依概率收敛性质知,可将上述性质推广为
g( A1 , A2 , , Ak ) P g(1, 2 , , k )
其中g为连续函数.
矩估计法的理论依据
2. 经验分布函数
设X1, X2,
,
X
是
n
总
体
F的
一
个Hale Waihona Puke 本,用S(
x
则称变量
t X Yn
所服从的分布为自由度为 n的 t 分布.
概率论第六章样本及抽样分布
2 1 2 2
本相互独立,记
1 n1 X Xi n1 i 1 1 n2 Y Yi n2 i 1
则有 ⑴
2 1 2 2 2 1 2 2
1 n1 S12 ( X k X )2 n1 1 k 1 1 n2 2 S2 (Yk Y ) 2 n2 1 k 1
S / ~ F (n1 1, n2 1) S /
⑵ 当 时
2 1 2 2 2
X Y ( 1 2 ) ~ N (0,1) 1 1 n1 n2
(n1 1) S12
2 1
2 (n2 1) S2
2 2
~ 2 (n1 n2 2)
X Y ( 1 2 ) ~ t (n1 n2 2) 1 1 S n1 n2
2
又因为
(n 1)S 2
2
~ (n 1)
2
X n1 X n
故 Y
(n 1) S 2
n n 1 ~ t (n 1) /(n 1)
2
X n1 X n Y S
n ~ t (n 1) n 1
例4
设总体X , Y 相互独立 X ~ N (0,32 ) , Y ~ N (0,32 ) ,
2
X n1 X n n X 1 , X 2 ,, X n , X n1 , 求 Y 的分布 . S n 1 1 n 1 n 2 2 其中 X n X i , S ( Xi X n ) n i 1 n 1 i 1
1 2 解 由已知得 X n1 ~ N ( , ) , X n ~ N ( , ) , n n 1 2 所以 X n1 X n ~ N (0, ) n n 标准化得 X n1 X n ~ N (0,1) n 1
本相互独立,记
1 n1 X Xi n1 i 1 1 n2 Y Yi n2 i 1
则有 ⑴
2 1 2 2 2 1 2 2
1 n1 S12 ( X k X )2 n1 1 k 1 1 n2 2 S2 (Yk Y ) 2 n2 1 k 1
S / ~ F (n1 1, n2 1) S /
⑵ 当 时
2 1 2 2 2
X Y ( 1 2 ) ~ N (0,1) 1 1 n1 n2
(n1 1) S12
2 1
2 (n2 1) S2
2 2
~ 2 (n1 n2 2)
X Y ( 1 2 ) ~ t (n1 n2 2) 1 1 S n1 n2
2
又因为
(n 1)S 2
2
~ (n 1)
2
X n1 X n
故 Y
(n 1) S 2
n n 1 ~ t (n 1) /(n 1)
2
X n1 X n Y S
n ~ t (n 1) n 1
例4
设总体X , Y 相互独立 X ~ N (0,32 ) , Y ~ N (0,32 ) ,
2
X n1 X n n X 1 , X 2 ,, X n , X n1 , 求 Y 的分布 . S n 1 1 n 1 n 2 2 其中 X n X i , S ( Xi X n ) n i 1 n 1 i 1
1 2 解 由已知得 X n1 ~ N ( , ) , X n ~ N ( , ) , n n 1 2 所以 X n1 X n ~ N (0, ) n n 标准化得 X n1 X n ~ N (0,1) n 1
西南财经大学向蓉美、王青华《统计学》第三版——第6章:抽样及抽样分布
ch6统计量与抽样分布
§6.1 总体与样本的统计分布
§6.1.1 统计推断中 的总体及总体分布
研究的标志
组成元素 具体对象
组成元素
变量的具体 取值
§3.1 总体与样本
实物总体
数字总体
例:班级同学的成绩
班级同学的集合 (全体同学)
同学成绩的集合
组成元素:每位同学
组成元素:成绩分数
在统计推断中,我们感兴趣的是总体单位的某个或某些数 量特征。例如研究某种型号灯泡的寿命这一数量特征。总体的 含义是所感兴趣变量的所有取值。
T (x1, x2 ,..., xn ) 统计值
统计量既然是随机变量的函数,那么它也应该
是随机变量,并有其概率分布,统计量的分布也 称为抽样分布。抽样分布和统计推断有着密切的
联系。统计量提出以后,必须要知道其分布才能在 统计推断中使用,因为只有知道了统计量的分布, 才能利用概率论对总体的特征进行推断,并得到相 应的推断的置信度。所以在统计推断中,一项重要 的工作就是寻找统计量和导出统计量的分布。
不是 T6
1
2
( X12
X 22
.
X
2 3
)
【例6-1】总体X服从两点分布,概率分布律如下:
P(X 1) p P(X 0) 1 p
从总体中抽取容量为n的样本,求统计量T
n
Xi
的分布。
i 1
解:其取值是0到n之间的所有整数,其分布是二项分布:
P(T k) Cnk pk (1 p)nk k 0,1, 2,..., n
这样得到的X1, X2,…, Xn 称为来自总体X的一个 简单随机样本,n为这个样本的容量。
n次观察一经完成,我们就得到一组实数x1,
§6.1 总体与样本的统计分布
§6.1.1 统计推断中 的总体及总体分布
研究的标志
组成元素 具体对象
组成元素
变量的具体 取值
§3.1 总体与样本
实物总体
数字总体
例:班级同学的成绩
班级同学的集合 (全体同学)
同学成绩的集合
组成元素:每位同学
组成元素:成绩分数
在统计推断中,我们感兴趣的是总体单位的某个或某些数 量特征。例如研究某种型号灯泡的寿命这一数量特征。总体的 含义是所感兴趣变量的所有取值。
T (x1, x2 ,..., xn ) 统计值
统计量既然是随机变量的函数,那么它也应该
是随机变量,并有其概率分布,统计量的分布也 称为抽样分布。抽样分布和统计推断有着密切的
联系。统计量提出以后,必须要知道其分布才能在 统计推断中使用,因为只有知道了统计量的分布, 才能利用概率论对总体的特征进行推断,并得到相 应的推断的置信度。所以在统计推断中,一项重要 的工作就是寻找统计量和导出统计量的分布。
不是 T6
1
2
( X12
X 22
.
X
2 3
)
【例6-1】总体X服从两点分布,概率分布律如下:
P(X 1) p P(X 0) 1 p
从总体中抽取容量为n的样本,求统计量T
n
Xi
的分布。
i 1
解:其取值是0到n之间的所有整数,其分布是二项分布:
P(T k) Cnk pk (1 p)nk k 0,1, 2,..., n
这样得到的X1, X2,…, Xn 称为来自总体X的一个 简单随机样本,n为这个样本的容量。
n次观察一经完成,我们就得到一组实数x1,
概率论与数理统计基本概念及抽样分布PPT课件
~
2 (n1 ),
2 2
~
2 (n2 ), 且它们相互独立,
则
2 1
2 2
~
2 (n1
n2 )
《概率统计》
返回
下页
结束
4. 2分布的百分位点
对给定的α(0<α<1)
(1)称满足
P{ 2
2
(n)}
,即
f ( y)dy
x2 ( n)
的点为 2分布的上100α百分位点。
f(y)
(2)称满足
注:在研究中,往往关心每个个体的一个(或几个)数量指标和 该数量指标在总体中的分布情况. 这时,每个个体具有的数量 指标的全体就是总体.
或,总体:研究对象的某项数量指标的值的全体.
《概率统计》
某批 灯泡的 寿命
该批灯泡寿命的 全体就是总体
返回
下页
结束
为推断总体分布及各种特征,按一定规则从总体中抽取若 干个体进行观察试验,以获得有关总体的信息,这一抽取过程 为 “抽样”.
( x)
(1)称满足条件 P{X>Xα} =α,
α
即
( x)dx
X
的点Xα为N(0,1)分布的上100α百分位点.
X1-α
0
由于 P{X X } 1 记 -Xα= X1-α
(2)称满足条件 P {| X | X }
2
2
的点 X 为N(0,1)分布的双侧100α百分位点.
X
2
则
E(X )
E(1 n
n i 1
Xi)
1 n
n i 1
E(Xi )
1 n
n
D(X ) D(1 n
n i1
Xi)
概率课件-样本及抽样分布
是来自总体的一个样本,则
(1) E( X ) E( X ) ,
(2) D( X ) D( X ) 2 n ,
n
(3) E(S 2 ) D( X ) 2
矩估計法的 理論根據
若总体X的k阶矩E( X k ) k存在,则
(4) Ak
1 n
n i 1
Xik
p k
k 1, 2,
.
(3)证明:E(S2 )
2. 樣本
• 總體分佈一般是未知,或只知道是包含未知參 數的分佈。
• 為推斷總體分佈及各種特徵,按一定規則從總 體中抽取若干個體進行觀察試驗,以獲得有關 總體的資訊,這一抽取過程稱為 “抽樣”。
• 所抽取的部分個體稱為樣本。 • 樣本中所包含的個體數目稱為樣本容量。
对总体X在相同的条件下,进行n次重复、独立 观察,其结果依次记为X1,X2,,Xn .
概率論與數理統計的區別: • 概率論所研究的隨機變數,其分佈都是假設已知
的,在這個前提下研究其性質、特點和規律性。 • 數理統計所研究的隨機變數,其分佈是未知或不
完全知道的。需要通過獨立重複的觀察並對觀察 數據進行分析,來推斷其分佈。
數理統計的任務就是研究有效地收集、整理、 分析所獲得的有限的資料,對所研究的問題, 盡 可能地作出精確可靠的結論.
Y ( X1 X2 X3 )2 ( X4 X5 X6 )2
试决定常数C,使随机变量CY 服从 2分布.
解: 因为 X1 X2 X3 ~ N (0,3) 所以 X1 X2 X3 ~ N (0,1) 3
从而
X1
X2 3
X3
2
~
2 (1)
同理可知
X4
X5 3
X6
2
(1) E( X ) E( X ) ,
(2) D( X ) D( X ) 2 n ,
n
(3) E(S 2 ) D( X ) 2
矩估計法的 理論根據
若总体X的k阶矩E( X k ) k存在,则
(4) Ak
1 n
n i 1
Xik
p k
k 1, 2,
.
(3)证明:E(S2 )
2. 樣本
• 總體分佈一般是未知,或只知道是包含未知參 數的分佈。
• 為推斷總體分佈及各種特徵,按一定規則從總 體中抽取若干個體進行觀察試驗,以獲得有關 總體的資訊,這一抽取過程稱為 “抽樣”。
• 所抽取的部分個體稱為樣本。 • 樣本中所包含的個體數目稱為樣本容量。
对总体X在相同的条件下,进行n次重复、独立 观察,其结果依次记为X1,X2,,Xn .
概率論與數理統計的區別: • 概率論所研究的隨機變數,其分佈都是假設已知
的,在這個前提下研究其性質、特點和規律性。 • 數理統計所研究的隨機變數,其分佈是未知或不
完全知道的。需要通過獨立重複的觀察並對觀察 數據進行分析,來推斷其分佈。
數理統計的任務就是研究有效地收集、整理、 分析所獲得的有限的資料,對所研究的問題, 盡 可能地作出精確可靠的結論.
Y ( X1 X2 X3 )2 ( X4 X5 X6 )2
试决定常数C,使随机变量CY 服从 2分布.
解: 因为 X1 X2 X3 ~ N (0,3) 所以 X1 X2 X3 ~ N (0,1) 3
从而
X1
X2 3
X3
2
~
2 (1)
同理可知
X4
X5 3
X6
2
第6章 抽样与抽样分布
6 -71- 4 71-
统计学
STATISTICS
统计应用
“抓阄”征兵计划 抓阄”
然而结果是, 73 个较小的号码被分配给了前半 然而结果是 , 有 73个较小的号码被分配给了前半 年的日子,同时有110个较小的号码被分配给了后 年的日子,同时有110个较小的号码被分配给了后 半年的日子。 换句话说, 半年的日子 。 换句话说 , 如果你生于后半年的某 一天, 那么, 一天 , 那么 , 你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人 在这种情况下, 在这种情况下 , 两个数字之间只应该有随机误差 ,而73和110之间的差别超出了随机性所能解释的 73和110之间的差别超出了随机性所能解释的 范围。 范围 。 这种非随机性是由于乒乓球在被抽取之前 没有被充分搅拌造成的。 在第二年, 没有被充分搅拌造成的 。 在第二年 , 主管这件事 的部门在抓阄之前去咨询了统计学家( 的部门在抓阄之前去咨询了统计学家 ( 这可能使生 于后半年的人感觉稍微舒服些) 于后半年的人感觉稍微舒服些)
6 -71- 5 71-
统计学
STATISTICS
第 6 章 抽样与抽样分布
6.1 概率抽样方法 6.2 三种不同性质的分布 6.3 一个总体参数推断时样本统计量的抽样 分布 6.4 两个总体参数推断时样本统计量的抽样 分布
6 -71- 6 71-
统计学
STATISTICS
学习目标
1. 2. 3. 4. 5.
6 -71- 14 71-
用Excel对分类数据抽样 Excel对分类数据抽样
统计学
STATISTICS
简单随机抽样
(用Excel对数值型数据随机抽样) Excel对数值型数据随机抽样 对数值型数据随机抽样)
统计学
STATISTICS
统计应用
“抓阄”征兵计划 抓阄”
然而结果是, 73 个较小的号码被分配给了前半 然而结果是 , 有 73个较小的号码被分配给了前半 年的日子,同时有110个较小的号码被分配给了后 年的日子,同时有110个较小的号码被分配给了后 半年的日子。 换句话说, 半年的日子 。 换句话说 , 如果你生于后半年的某 一天, 那么, 一天 , 那么 , 你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人 在这种情况下, 在这种情况下 , 两个数字之间只应该有随机误差 ,而73和110之间的差别超出了随机性所能解释的 73和110之间的差别超出了随机性所能解释的 范围。 范围 。 这种非随机性是由于乒乓球在被抽取之前 没有被充分搅拌造成的。 在第二年, 没有被充分搅拌造成的 。 在第二年 , 主管这件事 的部门在抓阄之前去咨询了统计学家( 的部门在抓阄之前去咨询了统计学家 ( 这可能使生 于后半年的人感觉稍微舒服些) 于后半年的人感觉稍微舒服些)
6 -71- 5 71-
统计学
STATISTICS
第 6 章 抽样与抽样分布
6.1 概率抽样方法 6.2 三种不同性质的分布 6.3 一个总体参数推断时样本统计量的抽样 分布 6.4 两个总体参数推断时样本统计量的抽样 分布
6 -71- 6 71-
统计学
STATISTICS
学习目标
1. 2. 3. 4. 5.
6 -71- 14 71-
用Excel对分类数据抽样 Excel对分类数据抽样
统计学
STATISTICS
简单随机抽样
(用Excel对数值型数据随机抽样) Excel对数值型数据随机抽样 对数值型数据随机抽样)
第6章抽样分布
* * Xm 的分布已知,故可求出 X 函数的分布,设 m
所以 n! 1 m 1 nm hm ( y ) f ( x)[1 F ( x)] [ F ( x)] (n m)!(m 1)! f ( x) n! y m 1 (1 y ) n m , (n m)!(m 1)! 0 y 1, m 1 ~ n
所以
X 的特征函数为
2 2 t / n iat / n x t exp 2
n
t 2 2 exp iat 2 n
可见 X ~ N ( a,
2
n
) 分布。
(二)样本均值的极限分布 定理:设 X1, X2,…,Xn来自一般总体X,且E(X)=a,
若总体X为连续型随机变量,其密度函数为f (x),则(X1,X2,…,Xn) 的联合密度函数为
§6-2 样本分布
一、频率直方图
二、样本分布函数
如果我们从随机变量X的总体中抽取了一个样本,把样本的n个值
* * * x1,x2,…, xn加以排队 x1 ,并把它看成是某个离散 x2 xn 随
1 n 2 S (Xi X ) n i 1 2 2
_
1 n S* (Xi X ) n 1 i 1
2
2 2 2、设X ~ N ( a1 , 1 ), Y ~ N ( a2 , 2 ), X 1 , X 2 ,..., X n1 及Y1 , Y2 ,..., Yn 2 分别为
—
t 1 式中 ( ) 是 X 的特征函数。 n nn n 1 证: X X i 1 X i ,且 1 X , 1 X ,, 1 X 相互独立 1 2 n n i 1 i 1 n
概率论与数理统计6.第六章:样本及抽样分布
),
,
,
,
是来
Z=
(
-
证明统计量 Z 服从自由度为 2 的 t 分布。
14
),
,
,
,
是来 , .ຫໍສະໝຸດ 自 总 体 X 的 样 本 , E( ) 则 ,D( )=
是来自总体 X ,D(X)= . ,
,D( )=
11
3. 设 , 本 ,E(X)=
, , 为来自总体 X 的样 ,D(X)=9, 为样本均值 , 试用 < ≥ ,
切比雪夫不等式估计 P{ P{ 4.设 , 则当 K= > ≤ , , . 是总体 X
lim f (t ) (t )
n
1 e 2
t2 2
, x
3.分位点 设 T~t(n), 若对 :0<<1,存在 t(n)>0,
4
满足 P{Tt(n)}=, 则称 t(n)为 t(n)的上侧分位点 注: t1 (n) t (n) 三、F—分布 1.构造 若 1 ~2(n1), 2~2(n2),1, 2 独立,则
y0
2. F—分布的分位点 对于 :0<<1,若存在 F(n1, n2)>0, 满足 P{FF(n1, n2)}=, 则称 F(n1, n2)
5
为 F(n1, n2)的上侧 分位点; 注: F1 (n1 , n2 )
1 F (n2 , n1 )
§ 6.3 正态总体的抽样分布定理
X Y /n ~ t ( n)
t(n)称为自由度为 n 的 t—分布。 t(n) 的概率密度为
n 1 ) 1 t 2 n2 2 f (t ) (1 ) , t n n n ( ) 2 (
浙大概率论与数理统计课件第六章样本及抽样分布
f *( x, x2 ,, xn ) =f(x1) f(x2) … f(xn)
简单随机样本是应用中最常见的情形,今后, 当说到“X1,X2,…,Xn是取自某总体的样本”时,若
不特别说明,就指简单随机样本.
2021/4/22
13
3. 总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、确 定的值. 如我们从某班大学生中抽取10人测量身高, 得到10个数,它们是样本取到的值而不是样本. 我 们只能观察到随机变量取的值而见不到随机变量.
2021/4/22
2
例如:
某公路上行驶车辆的速度服从什么分布是未知的;
电视机的使用寿命服从什么分布是未知的; 产品是否合格服从两点分布,但参数——合格率p是 未知的;
数理统计的任务则是以概率论为基础,根据试验 所得到的数据,对研究对象的客观统计规律性做出合 理的推断。
2021/4/22
3
学习的基本内容
N(0,1), 则称随机变量:
2
X
2 1
X 22
Xn2
所服从的分布为自由度为 n 的 分2布.
记为 2 ~ 2 (n)
2021/4/22
28
22 分布的密度函数为
f
( x; n)
1
2n 2 (n
2)
n 1 x
x2 e 2
0
其中伽玛函数( x)通过积分
( x) ett x1dt, x 0 0
bk
1n
n
1
(
i 1
xi
x )k
k 1,2,
k 1,2,
2021/4/22
24
请注意 :
若总体X的k阶矩E( X k ) k存在,则当n 时,
简单随机样本是应用中最常见的情形,今后, 当说到“X1,X2,…,Xn是取自某总体的样本”时,若
不特别说明,就指简单随机样本.
2021/4/22
13
3. 总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、确 定的值. 如我们从某班大学生中抽取10人测量身高, 得到10个数,它们是样本取到的值而不是样本. 我 们只能观察到随机变量取的值而见不到随机变量.
2021/4/22
2
例如:
某公路上行驶车辆的速度服从什么分布是未知的;
电视机的使用寿命服从什么分布是未知的; 产品是否合格服从两点分布,但参数——合格率p是 未知的;
数理统计的任务则是以概率论为基础,根据试验 所得到的数据,对研究对象的客观统计规律性做出合 理的推断。
2021/4/22
3
学习的基本内容
N(0,1), 则称随机变量:
2
X
2 1
X 22
Xn2
所服从的分布为自由度为 n 的 分2布.
记为 2 ~ 2 (n)
2021/4/22
28
22 分布的密度函数为
f
( x; n)
1
2n 2 (n
2)
n 1 x
x2 e 2
0
其中伽玛函数( x)通过积分
( x) ett x1dt, x 0 0
bk
1n
n
1
(
i 1
xi
x )k
k 1,2,
k 1,2,
2021/4/22
24
请注意 :
若总体X的k阶矩E( X k ) k存在,则当n 时,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特别,当 p 0.5时,0.5分位数 x0.5也记为Q2或 M称为样本中位数,即有
x0.5
x
([
n
]1)
,
2
1 2
[
x
(
n 2
)
x
(
n
1)
],
2
当np不是整数, 当np是整数.
0.25分位数 x0.25 称为第一四分位数,又记为Q1; 0.75分位数 x0.75 称为第三四分位数,又记为Q3 .
作出箱线图如图所示.
男子
女子
图 6-4
疑似异常值
在数据集中, 某一个观察值不寻常地大于或 小于该数据集中的其他数据,称为疑似异常值.
第一四分位数Q1与第三四分数Q3之间的距离: Q3 Q1 IQR
称为四分位数间距. 若数据小于Q1 1.5IQR 或大于Q3 1.5IQR,
则认为它是疑似异常值.
些是统计量, 哪些不是?
T1 X1,
T2 X1 X2e X3 ,
T3
1 3
(
X
1
X2
X 3 ),
是
T4 max( X1, X 2 , X 3 ), T5 X1 X2 2,
ቤተ መጻሕፍቲ ባይዱ
T6
1 2
(
X
2 1
X
2 2
X 32 ).
不是
2. 几个常用统计量的定义
设 X1, X2, , Xn 是来自总体的一个样本 ,
Q1 1.5IQR 4 12 8.
观察值55 24, 故55 是疑似异常值,且仅此一个疑 疑似异常值.
作出修正箱线图如图所示.
Min Q1 M Q3 图 6-5
Max
一、基本概念
6.3 抽样分布
1. 统计量的定义
设 X1, X2, , Xn 是来自总体X 的一个样本 , g( X1, X2 , , Xn )是 X1, X2 , , Xn 的函数 , 若 g中 不含未知参数, 则称 g( X1, X2, , Xn ) 是一个统 计量.
例4 下面给出了某医院21个病人的住院时间(以 天计),试画出修正箱线图(数据已经过排序).
1233445667799 10 12 12 13 15 18 23 55 解 Min 1, Max 55, M 7, 因 21 0.25 5.25, 得 Q1 4, 又 21 0.75 15.75, 得 Q3 12, IQR Q3 Q1 8, Q3 1.5IQR 12 1.5 8 24,
设 x1, x2, , xn 是相应于样本X1, X2, , Xn 的样本值 , 则称 g( x1, x2 , , xn ) 是 g( X1, X 2 , , X n )
的观察值 .
例1 设 X1, X2, X3是来自总体N (, 2 )的一个 样本, 其中 为已知, 2 为未知, 判断下列各式哪
累计频率 0.0119 0.0595 0.1786 0.5715 0.8572 0.9643 1.0000
现在自左向右依次在各个小区间上作以 fi n
为高的小矩形, 这样的图形叫频率直方图.
fi n
0.095 0.071 0.048 0.024
频率直方图
129.5. 134..5 139.5 144..5 149..5 154. .5 15.9.5
154 142 150 149 145 149 141 140 145 148 154 137 148 152 143 143 153 149 146 147 140
146 155 158 150 140 158 143 141 144 144 135 147 146 141 136 139 143 140 131 143 144 141 143 147 146 146 149 138 142 149 142 140 137 152 145
1o 若np不是整数,则只有一个数据满足定义 中的两点要求,这一数据位于大于np的最小整数
处,即为位于[np] 1 处的数. 2o 若np是整数,就取位于[np]和[np] 1处的
中位数.
综上,
x([np]1) ,
xp
1 2
[
x(
np
)
x(np1) ],
当np不是整数, 当np是整数.
x1, x2, , xn 是这一样本的观察值.
(1) 样本平均值
X
1 n
n i 1
Xi;
其观察值
1 n
x n i1 xi .
(2) 样本方差
S2
n
1
1
n i 1
(Xi
X )2
3.4 3.4 3.4 3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4.0 4.1 4.2 4.2 男子组 4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3 5.3 5.3 5.4 5.4 5.5 5.6 5.7 5.8 5.8 6.0 6.1 6.3 6.7 6.7 试分别画出这两组数据的箱线图.
例2 设有一组容量为18的样本如下(已经排过序) 122 126 133 140 145 145 149 150 157 162 166 175 177 177 183 188 199 212
求样本分位数:x0.2,x0.25,x0.5 .
解 (1)因为 np 18 0.2 3.6, x0.2位于第[3.6] 1 4处,即有 x0.2 x(4) 140.
所谓从总体抽取一个个体, 就是对总体X 进行 一次观察并记录其结果.
当n次观察一经完成,我们就得到一组实数 x1, x2 , , xn , 它们依次是随机变量X1, X 2 , , X n 的观察值,称为样本值 .
二、随机样本的定义
1.样本的定义
设 X 是具有分布函数 F 的随机变量, 若 X1, X 2 , , Xn 是具有同一分布函数F、相互独立的 随机变量, 则称 X1, X2 , , Xn 为从分布函数 F (或总体 F、或总体 X ) 得到的容量为 n 的简单 随机样本 , 简称样本 .
解 女子组 Min 2.7, Max 4.2, M 3.5, 因 np 25 0.25 6.25, Q1 3.2. 因 np 25 0.75 18.75, Q3 3.7.
男子组 Min 4.1, Max 6.7, M 5.3, 因 np 25 0.25 6.25, Q1 4.7. 因 np 25 0.75 18.75, Q3 5.8.
图 6-1
二、箱线图
定义 设有容量为n 的样本观察值 x1, x2, , xn, 样本 p分位数(0 p 1)记为xp ,它具有以下的性质:
(1)至少有 np 个观察值小于或等于xp ; (2)至少有 n(1 p) 个观察值大于或等于xp .
样本 p 分位数可按以下法则求得. 将 x1, x2, , xn 按从小到大的顺序排列成 x(1) x(2) x(n) .
(2)自箱子左侧引一条水平线 Min;在同一水平 高度自箱子右侧引一条水平线直至最大值. 如图所示.
Min Q1 M Q3 Max 图 6-2
例3 下面分别给出了25个男子和25个女子的肺活 量(以升计.数据应经过排序) 女子组 2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4
它是基于以下五个数的图形概括:最小值 Min,
第一四分位数 Q1,中位数M,第三四分位数Q3和 最大值 Max. 它的作法如下:
(1) 画一水平数轴,在轴上标上 Min,Q1,M, Q3,Max. 在数轴上方画一个上、下侧平行于数
轴的矩形箱子,箱子的左右两侧分别位于 Q1,Q3 的上方.
在M点的上方画一条垂直线段. 线段位于箱子 内部.
修正箱线图
(1) 同(1) ; (2) 计算IQR Q3 Q1,若一个数据小于 Q1 1.5IQR 或大于Q3 1.5IQR,则认为它是一个 疑似异常值. 画出疑似异常值,并以* 表示; (3) 自箱子左侧引一水平线段直至数据集中 除去疑似异常值后的最小值,又自箱子右侧引一 水平线直至数据集中除去疑似异常值后的最大值.
一般地, 我们所研究的总体, 即研究对象的某 项数量指标 X , 其取值在客观上有一定的分布, X 是一个随机变量.
X 的分布函数和数字特征就称为总体的分布 函数和数字特征. 今后将不区分总体与相应的随机 变量.
在实际中,总体的分布通常是未知的,或只 知道它具有某种形式而其中包含未知参数。
在数理统计中, 人们都是通过从总体中抽取 一部分个体, 根据获得的数据来对总体分布得出 判断的. 被抽出的部分个体叫做总体的一个样本.
列表如下:
组限 124.5~129.5 129.5~134.5 134.5~139.5 139.5~144.5 144.5~149.5 149.5~154.5 154.5~159.5
频数 1 4 10 33 24 9 3
频率 0.0119 0.0476 0.1191 0.3929 0.2857 0.1071 0.0357
(2)因为 np 18 0.25 4.5, x0.25位于第[4.5] 1 5处,即有 x0.25 145.
(3)因为 np 18 0.5 9, x0.5是这组数中间两
个数的平均值,即有
x0.5
1 (157 2
162)
159.5.
数据集的箱线图是由箱子和直线组成的图形,
第六章 样本及抽样分布