第三章抽样分布
蒙特卡罗方法教学课件第三章由巳知分布的随机抽样
h(r) 1 , R0
f (r) 2r , h(r) R0
M 2,
rh R0
则抽样框图为
1 2 >
≤
rf R0 2
取 rf 显 然R0,1没就有可必以要了舍,弃亦ξ即1>ξ2的情况,此时,只需 rf R0 max( 1,2 )
另一方面,也可证明 布F (r) r 2。
与 max( 1,2 ) 具有相同的分
参数n服从如下分布
F(y) Pn
n y
复合分布的一般形式为:
f (x) f2 (x y)dF1( y)
F其1(中y)表f2(示x/y分)表布示函与数。参数y有关的条件分布密度函数 , 布数密f2(复x度/ 合Y函F分1数)中布f1抽(的y)样中抽确抽样定样方XY法f2F(1为x或/YF:)Y首f1,先然由后分再布由函分数布F1密(y)度或函分
>
M
X X f
f2 ( x /YF1 )
证明:
P(x X f x dx) P x X f2 x dx
H ( X f2 ,YF1 ) M
P x
X f2
x dx,
H
(
X f2 M
,
YF1
)
P
H ( X f2 ,YF1 ) M
xdx H ( x, y)
x
M
0 H (x,y)
Pa
a t
反应类型的确定方法为:产生一个随机数ξ
Pel 弹性散射
Pel Pin 非弹性散射
Pel Pin Pf 裂变
吸收
2) 连续型分布的直接抽样方法
对于连续型分布,如果分布函数F(x) 的反函数 F-1(x)存在,则直接抽样方法是 :
X F F 1 ( )
医学统计学题库
第一章 绪论习题一、选择题1.统计工作和统计研究的全过程可分为以下步骤:(D )A. 调查、录入数据、分析资料、撰写论文B. 实验、录入数据、分析资料、撰写论文C. 调查或实验、整理资料、分析资料D. 设计、收集资料、整理资料、分析资料E. 收集资料、整理资料、分析资料2.在统计学中,习惯上把(B )的事件称为小概率事件。
A.10.0≤P B. 05.0≤P 或01.0≤P C. 005.0≤P D.05.0≤P E. 01.0≤P 3~8A.计数资料B.等级资料C.计量资料D.名义资料E.角度资料3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。
该资料的类型是( A )。
4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。
该资料的类型是(C )。
5.空腹血糖测量值,属于( C )资料。
6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。
该资料的类型是(B )。
7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。
该资料的类型是(D )。
8. 100名18岁男生的身高数据属于(C )。
二、问答题1.举例说明总体与样本的概念.答:统计学家用总体这个术语表示大同小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。
实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。
例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。
统计学第3章-概率、概率分布与抽样分布
互斥事件及其概率
(例题分析)
解:由于每一枚硬币出现正面或出现反面的概率 都是1/2,当抛掷的次数逐渐增大时,上面的4个 简单事件中每一事件发生的相对频数 (概率)将近 似等于 1/4 。因为仅当 H1T2 或 T1H2 发生时,才会 恰好有一枚硬币朝上的事件发生,而事件 H1T2 或 T1H2 又为互斥事件,两个事件中一个事件发 生或者另一个事件发生的概率便是 1/2(1/4+1/4) 。 因此,抛掷两枚硬币,恰好有一枚出现正面的概 率等于 H1T2 或 T1H2 发生的概率,也就是两种事 件中每个事件发生的概率之和
解:设 A = 某住户订阅了日报 B = 某个订阅了日报的住户订阅了晚报
依题意有:P(A)=0.75;P(B|A)=0.50
P(AB)=P(A)·P(B|A)=0.75×0.5=0.375
3-31
独立事件与乘法公式
(例题分析)
【例】从一个装有3个红球2个白球的盒子里摸球 (摸出后球不放回),求连续两次摸中红球的概率
3-17
互斥事件的加法规则
(例题分析)
【例】抛掷一颗骰子,并考察其结果。求出其点 数为1点或2点或3点或4点或5点或6点的概率
解:掷一颗骰子出现的点数(1,2,3,4,5,6)共有
6个互斥事件,而且每个事件出现的概率都为1/6 根据互斥事件的加法规则,得
P(1或2或3或4或5或6) P(1) P(2) P(3) P(4) P(5) P(6) 1 1 1 1 1 1 1 6 6 6 6 6 6
合计
从这200个配件中任取一个进行检查,求 (1) 取出的一个为正品的概率 (2) 取出的一个为供应商甲的配件的概率 (3) 取出一个为供应商甲的正品的概率 (4) 已知取出一个为供应商甲的配件,它是正品的概率
统计学 第三章抽样与抽样分布
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
3 理论分布与抽样分布
【例3.7】 已知u~N(0,1),试求: (1) P(u<-1.64)=?
(2) P (u≥2.58)=?
(3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?
(1) P(u<-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
加减不同倍数σ区间的概率)是经常用到的。
P(μ-σ≤x<μ+σ)= 0.6826
P(μ-2σ≤x<μ+2σ) = 0.9545 P (μ-3σ≤x<μ+3σ) = 0.9973
P (μ-1.96σ≤x<μ+1.96σ) = 0.95
P (μ-2.58σ≤x<μ+2.58σ)= 0.99
在数理统计分析中,不仅注意随机变量x落在平均数加减不 同倍数标准差区间(μ-kσ , μ+kσ)之内的概率,更关心的是x落在 此区间之外的概率。
二项分布---二项分布的定义及其特点
二项分布的应用条件: (1)各观察单位 只具有相互对立 的一种结果,如合格或不 合格, 生存或死亡等等,非此即彼; (2)已知发生某一结果 (如死亡) 的概率为p,其对立结果 的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较 稳定的数值; (3)n次观察结果互相独立,即每个观察单位的观察结果不
P (-2.58≤u<2.58)=0.99
标准正态分布的三个常用概率如图示
u变量在上述区间以外取值的概率分别为: P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1) =1-0.6826=0.3174 P(|u|≥2)=2Φ(-2) =1- P(-2≤u<2) =1-0.9545=0.0455 P(|u|≥3)=1-0.9973=0.0027 P(|u|≥1.96)=1-0.95=0.05 P(|u|≥2.58)=1-0.99=0.01
第3章 抽样分布
样本方差s2
s2取值的概率
0.0 0.5
4/16 6/16
2
4.5
39
4/16
2/16
0.00 0.0 0.5 s的取值 2.0 4.5
(用Excel计算2分布的概率)
1. 利用Excel提供的CHIDIST统计函数,计算2分布 右单尾的概率值
2. 语法为 CHIDIST(x,df) ,其中 df 为自由度, x 是随 机变量的取值 3. 给定自由度和统计量取值的右尾概率,也可以利 用“插入函数”命令来实现 4. 计算自由度为8,统计量的取值大于10的概率
σ2 =1.25
23
x 2.5
x2 0.625
样本均值的抽样分布
当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数 学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
=10
n=4 x 5 n =16 x 2.5
37
2分布
(图示)
选择容量为n 的 不同容量样本的抽样分布
n=1 n=4 n=10
总体
简单随机样本
计算样本方差s2
计算卡方值
n=20
2 = (n-1)s2/σ2
计算出所有的
2
2值
38
2分布
(例题的图示)
16个样本方差的分布
s取值的概率
0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05
13
三种不同性质的分布
1 2 3
14
总体分布 样本分布 抽样分布
总体分布
(population distribution)
03第三章 简单随机抽样
首先,在理论上最符合随机原则.对此可有二 种理解:一种是总体中各个单位被抽中的机会 相等.设总体有N个单位,各单位被抽中的概 1 率均为 N.另一种是总体中各个样本被抽中的 概率相等.我们知道,一个总体N中可以抽取 许多个容量为n 的样本,通常情况下按组合形 n C N个样本,那么,在一次抽样中,某个样 式有 1 本被抽中的概率为C ,这个概率对每个可能的 样本都相等.简单随机抽样遵循这种等可能性 原则,为进行抽样估计,计算抽样误差,提供 了重要前提条件.
Y3 + Y4 2
可见,样本均值 y 是 Y 的一个无偏估计量,因为
1 Yi + Y j 1 3 4 E ( y ) = ∑∑ ( ) = ∑∑ (Yi + Y j ) 2 12 i =1 j i i =1 j i 6
3 4
而每个单元均可能在三个样本内出现,故
1 4 E ( y ) = ∑ 3Yi = Y 12 i =1
颜色 蓝 绿 红 白 黄 合计
人的编号 1 14 28 15 25 18 2 26 21 12 23 18 3 20 15 20 20 25 4 12 21 22 19 26
期望 数字 20 20 20 20 20 100
100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色, 第二个人偏爱蓝色等.这种由于对颜色偏好所引起的偏估 类型,可称之为颜色偏误. 结论:随意抽样≠随机抽样
n N
其次,它是设计其他更复杂抽样形式的基础. 例如,设计分层抽样,将总体划分为若干层, 然后对各个层实施简单随机抽样.对一个非常 大的总体,需要分若干个阶段进行抽样.例如, 进行全国性抽样调查,第一阶段可以由全国抽 取若干个省份,第二阶段再由抽中的省份抽取 若干个县(市);第三阶段再由抽中的县(市)抽 取若干个乡(街道);第四阶段再由抽中的乡 (街道)抽取若干个村(居委会)等等.在这种多 阶段抽样中,每个阶段中抽取样本单位均可采 用简单随机抽样方法.
第三章抽样和抽样分布
Probability Sample
• Probability Sample • A probability sample is a sample chosen
by chance. We must know what samples are possible and what chance, or probability, each possible sample has.
第三章抽样和抽样分布
统计应用
“抓阄”征兵计划
➢ 然而结果是,有73个较小的号码被分配给了前半
年的日子,同时有110个较小的号码被分配给了后 半年的日子。换句话说,如果你生于后半年的某 一天,那么,你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人
➢ 在这种情况下,两个数字之间只应该有随机误差,
convenience sampling chooses the individuals
easiest to reach. Here is an example
of convenience sampling.
Both voluntary response samples and
convenience samples produce samples that are almost guaranteed not to represent the entire
被分配的号码较大的人也许永远轮不上到军队服役
➢ 这种抓阄看起来对决定应该被征召入伍是一个相当不错
的方法。然而,在抓阄的第二天,当所有的日子和它们 对应的号码公布以后,统计学家们开始研究这些数据。 经过观察和计算,统计学家们发现了一些规律。例如, 我们本应期望应该有差不多一半的较小的号码(1到183) 被分配给前半年的日子,即从1月份到6月份;另外一半 较小的号码被分配给后半年的日子,从7月到12月份。 由于抓阄的随机性,前半年中可能不会分到正好一半较 小的号码,但是应当接近一半
第三章简单随机抽样(抽样调查理论与方法-北京商学院,
100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
数理统计第3章 随机抽样与抽样分布
E ( X i ) = E ( X ) = µ , D( X i ) = D( X ) = σ 2 , i = 1,2,L , n
1 n 1 n 所以 E ( X ) = E ( ∑ X i ) = ∑ E ( X i ) = µ , n i =1 n i =1
1 1 . D ( X ) = D( ∑ X i ) = 2 ∑ D( X i ) = n n i =1 n i =1
11
它反映了总体 二、样本数字特征 均值的信息 它反映了总体 1 n 样本均值 X = ∑Xi 方差的信息 n i=1 1 n 1 n 2 2 2 2 样本方差 S = ∑( Xi − X) = n −1 ∑Xi − nX n −1 i=1 i =1
推导: 推导:
( Xi − X)2 = ∑( Xi2 − 2Xi X + X 2 ) ∑
因此, 应视为一组随机变量, 因此,抽样值 ( x1 , x2 ,L, xn ) 应视为一组随机变量,我们把 的一个样本 子样), 样本( ),其中 称为该样本的容量 容量。 它称为总体 X 的一个样本(或子样),其中 n 称为该样本的容量。
7
二、简单随机抽样
由于抽样的目的是为了对总体的分布进行统 计推断, 计推断,为了使抽取的样本能很好地反映总体的 信息,必须考虑抽样方法 信息,必须考虑抽样方法. 最常用的一种抽样方法叫作“ 最常用的一种抽样方法叫作“简单随机抽 它要求抽取的样本满足下面两点: 样”,它要求抽取的样本满足下面两点: 1. 代表性: X1,X2,…,Xn中每一个与所考察的总体 代表性: 有相同的分布. 有相同的分布 2. 独立性: X1,X2,…,Xn是相互独立的随机变量 独立性: 是相互独立的随机变量. 由简单随机抽样得到的样本称为简单随机样本 简单随机样本, 由简单随机抽样得到的样本称为简单随机样本, 今后如不加声明,均指简单随机样本。 今后如不加声明,均指简单随机样本。
第三章概率与概率分布习题及答案
第三章概率、概率分布与抽样分布计算题:1.某种零件加工必须依次经过三道工序,从已往大量的生产记录得知,第一、二、三道工序的次品率分别为,,,并且每道工序是否产生次品与其它工序无关。
试求这种零件的次品率。
2. 某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。
某射击选手第一发命中的可能性是80%,第二发命中的可能性为50%。
求该选手两发都脱靶的概率。
3. 某企业决策人考虑是否采用一种新的生产管理流程。
据对同行的调查得知,采用新生产管理流程后产品优质率达95%的占四成,优质率维持在原来水平(即80%)的占六成。
该企业利用新的生产管理流程进行一次试验,所生产5件产品全部达到优质。
问该企业决策者会倾向于如何决策4. 一家人寿保险公司某险种的投保人数有20000人,据测算被保险人一年中的死亡率为万分之5。
保险费每人50元。
若一年中死亡,则保险公司赔付保险金额50000元。
试求未来一年该保险公司将在该项保险中(这里不考虑保险公司的其它费用):(1)至少获利50万元的概率;(2)亏本的概率;(3)支付保险金额的均值和标准差。
5. 某企业生产的某种电池寿命近似服从正态分布,且均值为200小时,标准差为30小时。
若规定寿命低于150小时为不合格品。
试求该企业生产的电池的:(1)合格率是多少(2)电池寿命在200左右多大的范围内的概率不小于。
6. 某商场某销售区域有6种商品。
假如每1小时内每种商品需要12分钟时间的咨询服务,而且每种商品是否需要咨询服务是相互独立的。
求:(1)在同一时刻需用咨询的商品种数的最可能值是多少(2)若该销售区域仅配有2名服务员,则因服务员不足而不能提供咨询服务的概率是多少7. 美国汽车联合会(AAA)是一个拥有90个俱乐部的非营利联盟,它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。
1999年5月,AAA通过对会员调查得知一个4口之家出游中平均每日餐饮和住宿费用大约是213美元(《旅行新闻》Travel News,1999年5月11日)。
第三章 正态分布与抽样分布
图3-5 正态分布的概率
关于正态分布,有几个概率应记住: 关于正态分布,有几个概率应记住: 一般正态分布: 一般正态分布:
P(µ-1.96σ≤x<µ+1.96σ)=0.95 1.96σ≤x<µ+1.96σ)= )=0.95 P(µ-2.58σ≤x<µ+2.58σ)=0.99 2.58σ≤x<µ+2.58σ)= )=0.99 P(µ-σ≤x<µ+σ)=0.6826 σ≤x<µ+σ)= )=0.6826 P(µ-2σ≤x<µ+2σ)=0.9545 2σ≤x<µ+2σ)= )=0.9545 P(µ-3σ≤x<µ+3σ)=0.9973 3σ≤x<µ+3σ)= )=0.9973
对于大样本资料,常将样本标准差S 对于大样本资料,常将样本标准差S 与样本均数配合使用,记为 X ± S ,用 与样本均数配合使用, 以说明所考察性状或指标的优良性与稳 定性。对于小样本资料, 定性。对于小样本资料,常将样本标准 误 SX 与样本均数 X 配合使用,记 配合使用, 为 X ± S ,用以表示所考察性状或指 标的优良性与抽样误差的大小。 标的优良性与抽样误差的大小。
学上已证明 总体的两个参数与x总体的两 总体的两个参数与x 个参数有如下关系: 个参数有如下关系:
µx = µ
σx =
σ
n
表 X 的抽样分布形式与原总体X分布形式的关系 的抽样分布形式与原总体X
2.2 均数标准误
均数标准误 σx = 的大小反映样本均数 X n 抽样误差的大小 标准误大, 的大小。 的抽样误差的大小。标准误大,说明各样本均 间差异程度大;反之,亦然。 数 X 间差异程度大;反之,亦然。 在实际工作中,总体标准差σ往往是未知的, 在实际工作中,总体标准差σ往往是未知的, σx 此时,可用样本标准差S 因而无法求得 。此时,可用样本标准差S估 S 于是, 计σ 。于是,以 估计 n 。记σx 为 n, S SX 称作样本标准误或均数标准误。 称作样本标准误或均数标准误。 是均数抽样 SX 误差的估计值。 误差的估计值。
《统计学原理》与MATLAB编程第三章 抽样和抽样分布
第一节排列与组合排列:perms(x) x为向量,求x的全排列。
如:a=perms([2 3 7 ])a=7 3 27 2 33 7 23 2 72 3 72 7 3size(a,1) 回车ans =6有6种排列在EXCEL中,用FACT返回n!,用FACTDOUBLE返回n!!,即返回参数半阶乘。
PERMUT(n,k)=P n k组合(1)Syntax:C = nchoosek(n,k)其中n和k是一个非负整数。
该命令只有对n<15时有用。
函数描述: 从 n 个元素中一次选 k 个元素的所有组合数 C(注意,C是一个数值)。
C = n!/((n–k)! k!)如:C = nchoosek(10,3) 回车C =120C = nchoosek(v,k)其中v是一个长度为n的向量,k小于等于n。
函数描述: 从向量 v 中一次选其中 k 个元素的所有组合 C (注意:C是一个矩阵,行数为n!/((n–k)! k!)列数为 k )Examples:A=2:2:10 回车A = 2 4 6 8 10nchoosek(A,4) 回车2 4 6 82 4 6 102 4 8 102 6 8 104 6 8 10 (2)combntns从给定集合中列出所有可能的元素的组合,和nchoosek(v,k)的用法一样。
Syntaxcombos = combntns(set,subset)combos = combntns(1:5,3)combos =1 2 31 2 41 2 51 3 41 3 51 4 52 3 42 3 52 4 53 4 5size(combos,1)ans =10第二节随机数的生成2.1均匀分布的随机数据的产生函数 rand功能生成元素均匀分布于(0,1)上的向量与矩阵。
用法 Y = rand(n) %返回n*n阶的方阵Y,其元素均匀分布于区间(0,1)。
若n不是一标量,在显示一出错信息。
概率统计基础:第 3 章 随机变量及抽样分布
这一过程称为抽样 , X1 , X2 , , Xn 称为容量为n的样本.
抽样的特点 在相同条件下对总体X进行n次重复、独立观察
要求各次取样的结果互不影响 每次取出的样品与总体有相同的分布
样本的特点
观察前:X1 , X2 ,, Xn 是相互独立,与总体同分布的随机 变量
0.4
n=2
0.3
n=3
0.2
n=5
n = 10
0.1
n = 15
5 10 15 20 25
设 c 2 ~c 2 (n) X i ~ N (0,1) i 1, 2, , n
则
E(X i ) 0,
D( X i ) 1,
E
(
X
2 i
)
1
E c 2
E
n
X
2 i
n
i1
E
(
X
4 i
)
1
x4e
1. 期望为:E(c2)=n,方差为:D(c2)=2n(n为自
由度)
2. 可加性:若U和V为两个独立的c2分布随机变 量,U~c2(n1),V~c2(n2),则U+V这一随机变 量服从自由度为n1+n2的c2分布
总体
样本
计算样本统计量 如:样本均值、 比例、方差
几个重要分布 c2-分布(c2-distribution)
1. 由阿贝(Abbe) 于1863年首先给出,后来由海 尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分 别于1875年和1900年推导出来
定义: 设 X 1 , X 2 , , X n相互独立,都服从正态
个体:随机变量X的值
总体
抽样检验-第三章概率、概率分布与抽样分布2 精品
概率抽样最基本的组织方式有:简单随机抽 样、分层抽样、系统抽样和整群抽样。
特点
能有效避免主观选样带来的倾向性误差(系统偏 差),使得样本资料能够用于估计和推断总体的 数量特征,而且使这种估计和推断得以建立在概 率论和数理统计的科学理论之上,可以计算和控 制抽样误差,能够说明估计结果的可靠程度。
优点: 抽样时只需群的抽样框,可简化工作量;
调查的地点相对集中,节省调查费用,方 便调查的实施;
当群为总体的一个缩影时,抽样估计误差 小,否则误差较大。
五、多阶段抽样
又称多级抽样。前 4种抽样方法均为一次性直接从总体 中抽出样本,称为单阶段抽样。
多阶段抽样则是将抽样过程分为几个阶段,结合使用上 述方法中的两种或数种。例如,先用整群抽样法从北京 市某中等学校中抽出样本学校,再用整群抽样法从样本 学校抽选样本班级,最后用系统或纯随机抽样从样本班 级的学生中抽出样本学生。
灯泡的使用寿命可以看做是一个随机变量X,如 果能知道X的分布函数F(x),那么F(1000)就是次品率。 但对每只灯泡测试寿命是行不通的。
我们往往会从总体中随机抽取一部分个体,比如 100只灯泡,进行测试,求得分布函数,次品率,并 由此对总体进行推断。
3.4 抽样分布
一、抽样分布的概念
总体与样本
一、简单随机抽样 (simple random sampling)
从总体N个单位中随机地抽取n个单位作为样 本,使得总体中每一个元素都有相同的机会 (概率)被抽中;
抽取元素的具体方法有重复抽样和不重复抽样; 常用方法:抽签法。
特点
简单、直观,在抽样框完整时,可直接从 中抽取样本;
用样本统计量对目标量进行估计比较方便。 局限性
抽样分布的概念及重要性
抽样分布的概念及重要性抽样分布是统计学中一个重要的概念,它描述了从总体中抽取样本的过程中,统计量的分布情况。
在统计学中,我们通常无法对整个总体进行研究,而是通过抽取样本来推断总体的特征。
抽样分布的概念帮助我们理解样本统计量的变异性,并为统计推断提供了理论基础。
本文将介绍抽样分布的概念及其重要性。
一、抽样分布的概念抽样分布是指在相同条件下,重复从总体中抽取样本,并计算样本统计量的分布情况。
在抽样过程中,每次抽取的样本可能不同,因此样本统计量的取值也会有所不同。
抽样分布描述了样本统计量的所有可能取值及其对应的概率分布。
常见的样本统计量包括样本均值、样本方差、样本比例等。
以样本均值为例,假设总体均值为μ,样本均值为x̄,抽样分布描述了在相同样本容量的情况下,样本均值的所有可能取值及其对应的概率分布。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布近似服从正态分布。
二、抽样分布的重要性抽样分布在统计学中具有重要的意义,它对统计推断和假设检验提供了理论基础,具体体现在以下几个方面:1. 参数估计:抽样分布可以用于估计总体参数。
通过抽取样本并计算样本统计量,我们可以对总体参数进行估计。
例如,通过计算样本均值来估计总体均值,通过计算样本比例来估计总体比例等。
抽样分布提供了样本统计量的分布情况,帮助我们确定估计值的可信度和置信区间。
2. 假设检验:抽样分布可以用于假设检验。
在假设检验中,我们通常需要比较样本统计量与假设值之间的差异,以判断差异是否显著。
抽样分布提供了样本统计量的分布情况,可以帮助我们计算出观察到的差异在抽样误差范围内的概率,从而判断差异是否显著。
3. 抽样方法选择:抽样分布可以帮助我们选择合适的抽样方法。
不同的抽样方法会对样本统计量的分布产生不同的影响。
通过了解抽样分布的特点,我们可以选择合适的抽样方法,以提高样本统计量的准确性和可靠性。
4. 统计推断:抽样分布是统计推断的基础。
统计推断是指通过样本数据对总体特征进行推断。
第三章_抽样与抽样分布2014分析
判断抽样 滚雪球抽样
湖北大学商学院 chen qianli
非概率抽样与概率抽样
• 统计推断是根据一部分单位构成的样本来
推断总体特征的统计方法,尽管样本的大 小很重要,但决定统计推断最关键的因素 是样本的代表性,即能否及在多大程度上 代表总体。 • 非概率抽样是指人为地选择一部分单位作 为样本的方法,尽管有时并不是那么明显。 如方便抽样和自愿样本。
湖北大学商学院 chen qianli
统计应用
“抓阄”征兵计划
然而结果是,有 73 个较小的号码被分配给了前半
年的日子,同时有110个较小的号码被分配给了后 半年的日子。换句话说,如果你生于后半年的某 一天,那么,你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人 在这种情况下,两个数字之间只应该有随机误差, 而73和110之间的差别超出了随机性所能解释的范 围。这种非随机性是由于乒乓球在被抽取之前没 有被充分搅拌造成的。在第二年,主管这件事的 部门在抓阄之前去咨询了统计学家 (这可能使生于 后半年的人感觉稍微舒服些)
2. 优点:操作简便,可提高估计的精度 3. 缺点:对估计量方差的估计比较困难
第三章 抽样分布
F分布特征及查表方法:
F分布的上侧和下侧分位点见下图。 根据df1值和df2值及α值可在附表7中查出。如F4,20,0.01=4.431 附表7给出的是上侧分位数,要求下侧分位数需将df1和df2位置 对调再求倒数。 如F4,20,0.99=1/F20,4,0.01=1/14.0=0.0714 有些自由度下的 F 值附表 7 没有给出,可用线性内插方法求出。 F12,17,0.05=F12,15,0.05+(F12,20,0.05-F12,15,0.05)/(20-15)×(17-15)=2.396
(x x )
1 2
12
n1
n2
标准化(
u
( x 1 x 2 ) ( 1 2 )
12
n1
2 2
)后的变量服从
n2
标准的正态分布,这样可以推断在标准差已
知时,两个样本平均数的差异是否显著。
二、总体标准差未知但相等时,两个样本平均数和与差 的分布---t分布
例1:查df=9,α=0.05的χ 2值 例2:设随机变量k服从分布χ 2(5),求λ的值使其满足 P{k≤λ}=0.05
4.2 从两个正态分布总体中抽取的样本统计量的分布
假定有两个正态总体,分别具有(μ1,σ1)和(μ2,σ2)。 从第一个总体中随机抽取含量为 n1 的样本,并独立地从第二 个总体中抽取含量为 n2的样本。求出x1,s1和x2,s2。下面我们 研究x1±x2的分布。
X 0.1 1 2 F 0.1 即, P 0.5 0.997 0.5 0.5 n n n
解:P {∣ X -μ∣<0.1}= 0.997
第三章 练习题-理论分布与抽样分布
第三章 测验
3) 200头菜牛中有5头及5头以上菜 牛的体重超过1000磅的概率是 多少?若100人分别随机抽样 200头菜牛则预计有几人能抽到 这种样本?
第三章 测验
4. 设有一总体,具有变量:2,3, 4,5,6;现分别以n1=2,n2=3 分别从中抽样,则x1-x2分布的 平均数和方差各为多少?
代出现矮杆籼糯的概率p00625出现非矮杆籼糯的概率q09375种植20株则获得若希望有099的概率获得有一稀有植物的发芽率为60试问若每行播种100粒种子共70粒以上发芽的行数
第三章 测验
1. 已知高杆籼糯和矮杆非籼糯杂交后, 在F2代出现矮杆籼糯的概率 p=0.0625,出现非矮杆籼糯的概率 q=0.9375,试求: 1) 若F2种植20株,则获得2株或2株以 上矮杆籼糯的概率是多少? 2) 若希望有0.99的概率获得1株或1株 以上矮杆籼糯,则F2种植多少株?
第三章 测验
2. 有一稀有植物的发芽率为60%, 试问若每行播种100粒种子,共 播1000行: 1) 有70及70粒以上发芽的行数? 2) 每行平均发芽粒数? 3) 每行平均发芽百分数?
第三章 测验
3. 有一批数目为200头的菜牛,取自 体重平均数为804磅,方差为10000 磅2的总体。如果说菜牛体重服从 正态分布,则 1) 体重在1000磅以上预计有多少头? 2) 200头菜牛的体重平均数在822.24 磅以
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 抽样分布
一、单项选择题
1.样本均值与总体均值之间的差被称为( )。
A 、抽样误差
B 、点估计
C 、均值的标准误差
D 、区间估计
2.假设总体服从均匀分布,从此总体中抽取容量为40的样本均值的抽样分布( )。
A 、服从均匀分布
B 、近似服从正态分布
C 、不可能服从正态分布
D 、无法确定
3.有一批灯泡共1000箱,每箱200个,现随机抽取20箱并检查这些箱中的全部灯泡,此种检验属于( )。
A 、纯随机抽样
B 、类型抽样
C 、整群抽样
D 、等距抽样
4.设随机变量ηξ与相互独立,且ξ~)
,(),,(222211~σαησαN N ,则Z~ξ+η仍具正态分布,且有( )。
A 、),(~22211σσα+N Z )
B 、),(~2121σσαα+N Z
C 、),(~222121σσαα++N Z
D 、),(~222121σσαα+N Z
5.从标准差为10的总体中抽取一个容量为40的样本,如果采用重复抽样,则样本均值的标准差为( )。
A 、0.25
B 、0.5
C 、0.4
D 、0.04
6.当总体单位数越来越大时,重复抽样和不重复抽样之间的差异( )。
A 、越来越明显
B 、越来越小
C 、保持不变
D 、难以判断
7.第一个χ2分布的方差为20,第二个χ2分布的方差为30,则它们的和仍然服从χ2分布,自由度为( )。
A 、50
B 、20
C 、30
D 、25
8.均值为0,方差为1的标准正态分布的平方服从( )。
A 、F 分布
B 、正态分布
C 、χ2分布
D 、无法确定
9.在某高校中,管理学专业的学生占10%,如果从该高校中随机抽取200名学生进行调查,样本中管理学专业学生所占比例的期望值为( )。
A 、10%
B 、20%
C 、5%
D 、40%
10.如果总体单位数较小,则与重复抽样相比,不重复抽样中样本均值的标准差()。
A 、较大
B 、较小
C 、相等
D 、无法比较
二、多项选择题
1.以下是样本统计量的有( )。
A 、样本平均数
B 、样本比例
C 、样本标准差
D 、样本方差
2.重复抽样的特点有( )。
A 、每次抽样时,总体单位数始终不变
B 、各单位被抽选的机会在各次抽选中相等
C 、各次抽选相互独立
D 、各单位被抽选的机会在各次抽选中不相等
3.在下列叙述中,正确有( )。
A 、如果抽样分布的均值不等于总体参数,则该统计量被称为参数的有偏估计
B 、样本方差可以估计总体方差
C 、样本均值可以估计总体均值
D 、样本均值不可以估计总体均值
三、填空题
1.χ2分布的可加性成立的前提条件是随机变量之间_________。
2.为了比较人数不等的连个班级学生的学习成绩的优劣,需计算________,而为了说明哪个班级学生的学习成绩比较整齐,则需计算_______。
3.对某种连续生产的产品进行质量检验,要求每隔两小时抽出10分钟的产品进行检验,这种抽查方式是_______。
4.设一正态总体N=200,平均数是40,对其进行样本容量为10的简单随机抽样,则平均数抽样分布的期望值是_______。
5.不重复抽样情况下,样本比例的抽样分布的方差是__________。
6.当n 充分大时,t 分布可以用_________来近似。
7.设X 1,X 2,…,X n 是来自正态总体N(μ,σ2)的样本,,S 2,分别为样本均值和样本
标准差,则X 和S 2
相互独立,则2
2)1(σs n −服从自由度为_______的_______分布;n s X µ−服从自由度为______的______分布。
8.自由度为10的χ2分布与自由度为5的χ2分布的比值服从_______,它们的和服从_____。
9.为了调查某高校大学生的消费水平,从男生中抽取70名学生调查,从女生中抽取30名学生调查,这种抽样方法是_______。
10.中心极限定理告诉我们,不管总体服从什么分布,其_________的分布总是近似服从正态分布。
四、判断题
1.χ2(n )分布的变量值始终为正。
( )
2.一般而言,在同等条件下,较大的样本所提供的有关总体的信息要比较小样本的多。
( )
3.t 分布与正态分布的区别在于分布形态是否是对称的。
( )
4.样本均值的抽样分布形式仅与样本容量n 有关。
( )
5.重复抽样误差大于不重复抽样误差。
( )
6.增加样本单位数目,可提高抽样推断的精度。
( )
7.统计量不能含有任何总体参数。
( )
8.在设计一个抽样方案时,抽取的样本量并不是越多越好。
( )
9.样本均值的方差和抽样方法有关。
( )
10.参数是对总体的一种数量描述,它的值是已知的。
( )
五、简答题
1.对于有限总体,要得到一个简单随机样本,需要采用有放回的抽样,为什么?而无限总体则为何无须此要求?
2.如何理解一个总体就是一个具有确定概率分布的随机变量。
六、计算题
1.在总体),(2σµN 中抽取样本4321,,,X X X X ,其中µ已知而2σ未知。
在样本的函数:
∑=41
i i X ,µ321+−X X ,),,,min(4321X X X X ,∑=4
1221i i X σ,||14X X −中哪些是统计量,哪些不是统计量,为什么? 2.设1621,,,X X X L 为)0(2
4,N 的一个样本,则∑=1612161i i X 的数学期望和方差分别为多少? 3.在总体)(23.6,52N 中随机抽取一容量为36的样本,求样本均值落在50.8 到53.8之间的概率。
4.设总体X 服从正态分布),(2
σµN ,4321,,,X X X X 为其一个样本,(1)试给出4321,,,X X X X 的联合分布密度函数;(2)给出样本均值X 的密度函数。