4抽样与抽样分布

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本快速准确的预测选举,误差在2%之内。
抽样的基本概念
抽样调查,按照随机原则从全部研究对象中抽 取一部分单位进行调查,并以调查结果对总体 数量特征作出具有一定可靠程度的估计与推断, 从而认识总体的一种统计方法。
随机原则:指样本单位的抽取不受主观因素及 其他系统性因素的影响,每个总体单位都有均 等的被抽中机会。
n
视频:中心极限定理 视频:样本均值的抽样分布
样本均值的抽样分布
中心极限定理
程序模拟
视频:程序模拟n的不断增加
样本均值的抽样分布与总体的关系
总体分布
正态分布
大样本
小样本
正态分布
非正态分布
大样本
小样本
正态分布
t 分布
抽样分布例题 1
某汽车电池的制造商声称其最好的电池寿命的均值是 54个月,标准差为6个月。某消费组织决定购买50 个该品种电池作为样本来检验电池寿命, 1. 假设该制造商所言为真实的,请描述这50个电池 样本的平均寿命的抽样分布; 2. 假设该制造商所言是真实的,则消费组织的样本 寿命小于或等于52个月的概率是多少?
抽样方法-非概率抽样
不是完全按照随机原则选取样本 非随机抽样:由调查人员自由选取被调查者; 判断抽样:通过某些条件过滤来选取被调查者;
抽样分布
在讨论抽样分布之前,需要回顾以下一些与 概率分布有关的概念:
随机变量、离散型随机变量及其概率分布、 连续型随机变量及其概率分布。
概率密度函数。
随机变量(Random Variable)
抽样分布例题 1
1. 运用中心极限定理推断:对于50个电池的样本 来说,平均寿命的分布近似正态分布。因此,这 个抽样分布的均值与抽样总体的均值是相同的, 抽样分布的标准差由公式计算,得
54 个月;
x
n
6 0.85 50
个月
抽样分布例题 1
P(x 52)
2. 假设制造商所言是真实的,则对于50个电池的 样本来说,消费组织观察z 到x电 池x的平52均 5寿4命 小2.于35 或者等于52个月的概率 x ,0.8等5 于下图 的阴影面积,计算标准正P(态x 分5布2) z1值 求(这2.3个5)面积: 1 0.9906 0.0094
( Z a) 2(a) 1
( Z 2.58) 0.99
例: 设随机变量XN(0,1),求下列概率:
(1)P(X<0);
(2)P(X2.77);
(3)P(X>1);
Fra Baidu bibliotek
(4)P(-1.80<X<2.45).
(1) 查正态分布数值表,当x=0时,对应的(x)=0.5
所以P(X<0)=0.5
(2) 查正态分布数值表,当x=2.77时,对应的(x)=0.9972,
样本均值的抽样分布
一个总体1,2,3,4. 重复抽样方法,先抽一个, 放回,再抽一个。
样本均值 x 的抽样分布
样本均值的抽样分布
有放回(with replacement)抽样
1
2
3
4
{1,1}
{2,1}
{3,1}
{4,1}
1
1
1.5
2
2.5
{1,2}
{2,2}
{3,2}
{4,2}
2
1.5
2
样本均值的抽样分布
P(x) 0.3 1/4
0.2 1/8
0.1 1/16
3/16
3/16 1/8
1/16
0
x 1.0 1.5 2.0 2.5 3.0 3.5 4.0
中心极限定理
中心极限定理:不论该总体服从何种分布,只要
当样本容量足够大(n 30),样本均值的分布
都近似服从正态分布。
X ~ N(, 2 )
简单随机抽样、等距抽样、类型抽样、整 群抽样、多阶段抽样等。
抽样方法-概率抽样
根据已知的概率选取样本 简单随机抽样:完全随机抽取样本; 分层抽样:总体分“层”,在每一层内进行抽样; 整群抽样:将总体划分为若干群,将一组被调查者
(群)作为一个抽样单位。(群内的个体存在差异, 理想情况是每个群都是总体的一个缩影) 等距抽样:在样本框中,每隔一定距离抽选一个被调 查者。
车辆; 连续型随机变量:灯泡寿命。
离散型随机变量
离散型随机变量的取值域由有限个或可数多 个数值或符号组成。
其概率是指离散型随机变量(X)取一个具体 数值(x)的概率,即P(X= x)。
离散型随机变量的概率分布是指离散型随机 变量取遍每一个实验结果x的概率的分布情 况,常用列表表示,如下表。
z x x 75 70 3.5355 x 6 / 18
P(x 75) 1 (3.5355) 0.0002
超重的概率只有0.0002 !
P(209 x 217) (1.87) (1.87) 0.938
抽样分布例题 3
某酒店电梯标志注明最大载重为18人,1350 kg。 假定已知该酒店游客及其携带行李的平均重量为70 kg,标准差是6 kg。试问,随机进入电梯18人, 总重量超重的概率是多少? (人的体重服从正态分布)
抽样分布例题 3
所以P(X2.77)=0.9972
(3) 因为P(X>1)=1-P(X1)=1-(1) 查正态分布数值表,(1)=0.8413 所以 P(X>1)=1-(1)=0.1587
例: 设随机变量XN(0,1),求下列概率:
(1)P(X<0);
(2)P(X2.77);
(3)P(X>1);
(4)P(-1.80<X<2.45).
抽样分布例题 1
因此,假设制造商的声明是真实的,则消费组织观 察到的样本均值(即电池平均寿命)小于或者等于 52个月的概率仅为 0.0094 这么小的概率几乎是不可能发生的! 那么,如果50 个电池的平均寿命小于52个月,则 说明该制造商所言是不真实的。
抽样分布例题 2
美国汽车联合会(AAA)是一个拥有90个俱乐部的非营 利联盟,它对其成员提供旅行、金融、保险以及与汽车相 关的各项服务。1999年5月,AAA通过对会员调查得知 一个4口之家出游中总体平均每日餐饮和住宿费用大约是 213美元, 标准差是15美元。假设选取49个4口之家, 并对其在1999年6月期间的旅行费用进行记录。
4 统计抽样与抽样分布
抽样的基本概念 抽样方法 抽样分布的概念 样本均值的抽样分布
本章的学习目的
本章的学习目的是为了认识到通过样本推 断总体的科学性。
当总体元素非常多,或者检查具有破坏性 时,需要进行抽样。抽样的目的是为了推 断总体的数量特征,但这种推断必定伴有 某种程度的不确定性,需要用概率来表示 其可靠程度,这是推断统计的重要特点。
x
如果要估计总体的均值 ;是用样本平均值 ,
还是用中位数m?
还是掷骰子,总体均值 第一次,2,2,6,m=2
3.5 x 3.33
第二次,3,4,6,m=4, x 4.33
可见,不能仅仅根据一个样本去比较是 x 和 m
样本统计量本身是随机变量,抽样分布就是由样 本n个观察值计算的统计量的概率分布。
1). 描述 x (样本家庭平均每日旅行消费)的抽样分布。
抽样分布例题 2
1. 运用中心极限定理推断:对于49个家庭的样本 来说,平均每日旅行消费的分布近似正态分布。 因此,这个抽样分布的均值与抽样总体的均值是 相同的,抽样分布的标准差由公式计算,得
美元; 213
x
n
美元
15 2.14 49
随机变量是表征一个随机试验结果的变量, 其数值由一次试验结果所决定,但是在试验 之前是不确定的。
随机变量的所有可能取值就是所有基本事件 对应的值。通常用英文大写字母或希腊字母 表示。
离散型、非离散型、连续型。
随机变量(Random Variable)
离散型随机变量:投掷骰子; 非离散型随机变量:某路口24小时内经过的
概率密度函数
连续型随机变量的概率密度函数 f (x)
f (x) F(x)
x
F (x) P( X x) f (u)du
概率密度函数的含义:曲线 f (x)下任何一个
区间的面积,等于随机变量 X 在该区间取
值的概率。
最常见的连续型随机变量的概率分布
正态分布(P40)。
若随机变量X的概率密度函数
某厂生产的某种节能灯管使用寿命服从正态分布, 对某批次产品的测试结果,平均使用寿命为1050 小时,标准差为200小时。求: 1. 使用寿命在500小时以下的灯管占多大比例? 2. 使用寿命在850~1450小时的灯管所占比例? 3. 以均值为中心,95%的灯管使用寿命的范围?
什么是抽样分布?
f (x)
1
(x)2
e , 2 2
2
x
记为 X ~ N (, 2 )
最常见的连续型随机变量的概率分布
标准正态分布: 0, 2 1
Z X
标准正态分布
标准正态分布的计算
(z) 1 (z)
( Z 1.645) 0.90
P(a Z b) (b) (a) ( Z 1.96) 0.95
随机原则的实现
抽签法,是将总体中每个单位的编号写在外形 完全一致的签上,将其搅拌均匀,从中任意抽 选,签上的号码所对应的单位就是样本单位。
随机数表法:将总体中每个单位编上号码,然 后使用随机数表,查出所要抽取的调查单位。
计算机模拟法:是将随机数字编制为程序存储 在计算机中,需要时将总体中各单位编上号码, 启用随机数字发生器输出随机数字。
(4) 因为P(-1.80<X<2.45)=(2.45)-(-1.80) =(2.45)-[1-(1.80)]
查正态分布数值表, (2.45)=0.9929, (1.80)=0.9641,
所以 P(-1.80<X<2.45)=0.9929-[1-0.9641]=0.9570.
正态分布的计算 - 例题
2 4.5918 x
抽样分布例题 2
z x x 217 213 1.87
x
2.13
P(x 217) 1 (1.87) 1 0.9693 0.031
2). 对z 于 x样本x家庭2来09说 2,13平均z 每2日17消 2费13大于-12.8177美z 元1.的87概 率是多少? x3). 在202.914美元和2172美.14元之间的概率呢?
随机样本
与总体分布 特征相同
与总体分布 特征不同
总体
非随机样本
并非所有的抽样估计都按随机原则抽取样本, 也有非随机抽样。
抽样的基本概念
总体,要研究的调查对象的全体。 个体,组成总体的每个元素。 样本:从总体中随机抽取的部分个体。 样本容量:样本中所含的个体数量。
样本和总体(sample & population)
总平均身高=168.6CM
抽样的基本概念
抽样误差:用于抽样的随机性所带来的误差, 是一种固有误差。
非抽样误差:调查过程中发生的误差,以及 由于主观因素破坏了随机性原则而产生的系 统性偏差,是可以避免的。
随机抽样设计
不同的抽样方式,对抽样结果有很大影响, 根据研究目的和要求,以及具体情况选择 抽样方式;
2.5
3
{1,3}
{2,3}
{3,3}
{4,3}
3
2
2.5
3
3.5
{1,4}
{2,4}
{3,4}
{4,4}
4
2.5
3
3.5
4
样本均值的抽样分布
x 的取值
1.0 1.5 2.0 2.5 3.0 3.5 4.0
x 的个数
1 2 3 4 3 2 1
概率 1/16 2/16 3/16 4/16 3/16 2/16 1/16
案例
1936年美国总统选举的预测,民主党罗斯福VS 共和党兰登。《文摘》邮寄了1000万份调查表; 收回240万份,预测兰登获得57%的选票获胜。 而盖洛普研究所仅仅随机抽取了2000 多选民, 预测罗斯福将得到54%的选票获胜。
选举结果是罗斯福获得62%的选票获胜。 此后,盖洛普研究所每年用1000~1500人的样
离散型随机变量
X的取值x
123456
X的概率 P(X=x) 1/6 1/6 1/6 1/6 1/6 1/6
连续型随机变量
连续型随机变量的取值域为一个连续区间。 只有在(连续的)区间上取值时,其概率才
可能为正值,连续型随机变量在任何一点上 的概率都为零。
0 P(x1 X x2 ) 1 (x1 x2 ) P( X x1) P( X x2 ) 0
视频教学
抽样误差
167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM
170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM
平均身高=169.8CM 平均身高=174.6CM
相关文档
最新文档