统计学第六章 抽样估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章
抽样估计
一、参数与统计量
参数是指描述总体分布状况的数。
统计量是指由样本构造出来的数。 抽样估计,就是由统计量推断总体的过程。
例如,一个班的学生的平均年龄为21岁,
平均年龄即为班级总体的一个参数;在班级中 抽出20名学生,了解其年龄,并根据20名学生 的年龄计算平均数为21.5岁,则21.5即为由样 本构造出来的统计量。
4、抽样的组织形式
抽样的组织形式是纯随机抽样、分层抽样、 整群抽样或者多阶段抽样等方式,各种方式都 有对应的误差计算公式,不同情况下的抽样误 差相差也比较大。
四、样本量的估计
1、简单随机抽样条件下样本量的计算公 式 2、总体标准差的估算方法
案例:
已知某总体的标准差为100,欲在95%的 置信度水平下使抽样估计的误差范围小于5, 试求样本量。
3、多阶段抽样(Multi-stage Sampling)
多阶段抽样的误差计算取决于各阶段的 抽样方式,以最简单的二阶段抽样为例,如 果每一阶段的抽选都是简单随机抽样,一阶 单位的规模相同,则有下列公式:
本题解法:
2、总体标准差的估算方法
(1)根据以往的经验数值 对于一些连续进行的调查来说,使用过去 的经验数据进行估算是有可能的。
(2)通过试访问进行估计 通过试访问的方法,先获得少数一部分样 本的误差数据,然后根据这些数据去计算最终 所需要的样本量,然后再将所需要的样本量完 成。
(3)序贯抽样方法 所谓序贯抽样,是指依次抽取样本,每抽 取一次,进行一次误差计算,直至达到所需要 的精度。
案例:
假定欲估计喜欢某产品的居民比例在95% 置信度水平下,要求绝对误差小于5%,求样 本量。
本题解法:
但是,如果是相对误差,已知P
五、其他抽样组织形式
1、分层抽样(Stratified Sampling) 2、整群抽样(Cluster Sampling)
3、多阶段抽样(Multi-stage Sampling) 4、设计效应(deff)
二、有放回条件下的简单随机抽样 (Simple Random Sampling)
1、样本平均数的分布 2、分布特征 3、抽样推断 4、利用样本标准差推断总体标准差 5、无放回条件下的简单随机抽样误差
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。 以扑克牌的例子进行说明。
如果置信度改为99%, 则:当P=99%,t=2.58时,
本题的解题思路:
要估计
本题解的具体过程:
5、无放回条件下的简单随机抽样误差
样本平均数的标准差的推导过程:
因此可知,在无放回抽样调查中:
无放回条件下的简单随机抽样误差公式:
如果 例如,假定N=100万,n=1000,f=0.001,
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本 平均数,这些样本平均数具有自己的分布形式。
根据大数定理,当样本量超过30时,样本 平均数的分布为正态分布。
2、分布特征
在有放回条件下,简单随机抽样的误差计 算公式如下:
在做总体推断时,可以观察到这样一个现 象:每次抽出来的样本平均数都是不相同的, 但样本平均数呈现出一个钟型分布,样本平均 数在总体平均数的两端分布。
二、有放回条件下的简单随机抽样 (Simple Random Sampling)
1、样本平均数的分布 2、分布特征 3、抽样推断 4、利用样本标准差推断总体标准差 5、无放回条件下的简单随机抽样误差
1-f=0.999,
对于现实的调查活动,万分之五的误差很 难被判断出来,可以忽略不计。 因此,在大规模的抽样调查中,抽样比可 以忽略掉。
三、影响抽样误差的因素
根据抽样误差的计算公式,可以看出,影 响抽样误差的主要因素主要有下列四个方面:
1、目标总体的变异程度
2、样本容量
3、抽样方式
4、抽样的组织形式
在一副牌中抽五张牌所计算出的平均数应 该是在1和13之间,但是实际上抽到牌的平均 数为1和13的情况会非常少。
假如用一个分布去描述抽出牌的平均数, 可以得出如黑板上图所示的钟型分布图。
Leabharlann Baidu
抽样推断的核心就是要通过研究样本平均 数的性质来判断一次抽样将会给我们带来什么 样的结果。
一般认为,从一副牌中抽5张牌的总体平 均数是7,从实验结果看其样本平均数是在5到 9之间,假定这是一个真实情况。可以将其表 示为:
一般做序贯抽样时,会有一张图,如黑板 上图所示。 序贯抽样的方式操作比较简单,但不适用 于经济调查,一般运用于质量检验中。
(4)成数估计时,使用最大值判断 绝对误差与相对误差 有时候绝对误差很小,但相对误差会很大。
对于绝对误差: 当成数是P时,其标准差为 在成数估计的条件下,方差的最大值为 0.25,因此可以使用最大的方差作为推断最大 样本量的基础。
2、样本容量
对于一个确定的总体,减小抽样误差的主 要手段就是增加样本量。从公式中可以知道, 抽样误差与样本量的平方根成正比,欲使抽样 误差缩小一半,必须使样本量增加到原来的四 倍。
三、影响抽样误差的因素
1、目标总体的变异程度 2、样本容量 3、抽样方式 4、抽样的组织形式
这就说明了为什么在大城市进行调查和在 小城市进行调查,要获得同样的精度时,所需 的样本量相差无几。
第二个参数:
如果从一副扑克牌中抽出30张牌的平均数, 运用上述公式,可以精确的得出: n=30
案例:
某总体标准差为10,平均值为40,从中抽 出一个n=36的简单随机样本,试在95%的置信 度水平下,估计样本平均数的分布区间。
样本平均数的分布特征:
查标准正态分布表,可以获得下列概率度 与概率值的对应关系:
运用上表结果可得:
从此例子可以逆推: 某总体标准差为10,其一个36个单位组成 的样本的平均数为39,试在95%的置信度水平 下,估计总体平均数的置信区间。
从上面的例子中可得出如下结论:
在不同的置信度下,其对应的置信区间也 是不同的,置信度与置信区间是一个反比的关 系。
重要的置信度与概率度之间的关系:
抽样估计
一、参数与统计量
参数是指描述总体分布状况的数。
统计量是指由样本构造出来的数。 抽样估计,就是由统计量推断总体的过程。
例如,一个班的学生的平均年龄为21岁,
平均年龄即为班级总体的一个参数;在班级中 抽出20名学生,了解其年龄,并根据20名学生 的年龄计算平均数为21.5岁,则21.5即为由样 本构造出来的统计量。
4、抽样的组织形式
抽样的组织形式是纯随机抽样、分层抽样、 整群抽样或者多阶段抽样等方式,各种方式都 有对应的误差计算公式,不同情况下的抽样误 差相差也比较大。
四、样本量的估计
1、简单随机抽样条件下样本量的计算公 式 2、总体标准差的估算方法
案例:
已知某总体的标准差为100,欲在95%的 置信度水平下使抽样估计的误差范围小于5, 试求样本量。
3、多阶段抽样(Multi-stage Sampling)
多阶段抽样的误差计算取决于各阶段的 抽样方式,以最简单的二阶段抽样为例,如 果每一阶段的抽选都是简单随机抽样,一阶 单位的规模相同,则有下列公式:
本题解法:
2、总体标准差的估算方法
(1)根据以往的经验数值 对于一些连续进行的调查来说,使用过去 的经验数据进行估算是有可能的。
(2)通过试访问进行估计 通过试访问的方法,先获得少数一部分样 本的误差数据,然后根据这些数据去计算最终 所需要的样本量,然后再将所需要的样本量完 成。
(3)序贯抽样方法 所谓序贯抽样,是指依次抽取样本,每抽 取一次,进行一次误差计算,直至达到所需要 的精度。
案例:
假定欲估计喜欢某产品的居民比例在95% 置信度水平下,要求绝对误差小于5%,求样 本量。
本题解法:
但是,如果是相对误差,已知P
五、其他抽样组织形式
1、分层抽样(Stratified Sampling) 2、整群抽样(Cluster Sampling)
3、多阶段抽样(Multi-stage Sampling) 4、设计效应(deff)
二、有放回条件下的简单随机抽样 (Simple Random Sampling)
1、样本平均数的分布 2、分布特征 3、抽样推断 4、利用样本标准差推断总体标准差 5、无放回条件下的简单随机抽样误差
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。 以扑克牌的例子进行说明。
如果置信度改为99%, 则:当P=99%,t=2.58时,
本题的解题思路:
要估计
本题解的具体过程:
5、无放回条件下的简单随机抽样误差
样本平均数的标准差的推导过程:
因此可知,在无放回抽样调查中:
无放回条件下的简单随机抽样误差公式:
如果 例如,假定N=100万,n=1000,f=0.001,
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本 平均数,这些样本平均数具有自己的分布形式。
根据大数定理,当样本量超过30时,样本 平均数的分布为正态分布。
2、分布特征
在有放回条件下,简单随机抽样的误差计 算公式如下:
在做总体推断时,可以观察到这样一个现 象:每次抽出来的样本平均数都是不相同的, 但样本平均数呈现出一个钟型分布,样本平均 数在总体平均数的两端分布。
二、有放回条件下的简单随机抽样 (Simple Random Sampling)
1、样本平均数的分布 2、分布特征 3、抽样推断 4、利用样本标准差推断总体标准差 5、无放回条件下的简单随机抽样误差
1-f=0.999,
对于现实的调查活动,万分之五的误差很 难被判断出来,可以忽略不计。 因此,在大规模的抽样调查中,抽样比可 以忽略掉。
三、影响抽样误差的因素
根据抽样误差的计算公式,可以看出,影 响抽样误差的主要因素主要有下列四个方面:
1、目标总体的变异程度
2、样本容量
3、抽样方式
4、抽样的组织形式
在一副牌中抽五张牌所计算出的平均数应 该是在1和13之间,但是实际上抽到牌的平均 数为1和13的情况会非常少。
假如用一个分布去描述抽出牌的平均数, 可以得出如黑板上图所示的钟型分布图。
Leabharlann Baidu
抽样推断的核心就是要通过研究样本平均 数的性质来判断一次抽样将会给我们带来什么 样的结果。
一般认为,从一副牌中抽5张牌的总体平 均数是7,从实验结果看其样本平均数是在5到 9之间,假定这是一个真实情况。可以将其表 示为:
一般做序贯抽样时,会有一张图,如黑板 上图所示。 序贯抽样的方式操作比较简单,但不适用 于经济调查,一般运用于质量检验中。
(4)成数估计时,使用最大值判断 绝对误差与相对误差 有时候绝对误差很小,但相对误差会很大。
对于绝对误差: 当成数是P时,其标准差为 在成数估计的条件下,方差的最大值为 0.25,因此可以使用最大的方差作为推断最大 样本量的基础。
2、样本容量
对于一个确定的总体,减小抽样误差的主 要手段就是增加样本量。从公式中可以知道, 抽样误差与样本量的平方根成正比,欲使抽样 误差缩小一半,必须使样本量增加到原来的四 倍。
三、影响抽样误差的因素
1、目标总体的变异程度 2、样本容量 3、抽样方式 4、抽样的组织形式
这就说明了为什么在大城市进行调查和在 小城市进行调查,要获得同样的精度时,所需 的样本量相差无几。
第二个参数:
如果从一副扑克牌中抽出30张牌的平均数, 运用上述公式,可以精确的得出: n=30
案例:
某总体标准差为10,平均值为40,从中抽 出一个n=36的简单随机样本,试在95%的置信 度水平下,估计样本平均数的分布区间。
样本平均数的分布特征:
查标准正态分布表,可以获得下列概率度 与概率值的对应关系:
运用上表结果可得:
从此例子可以逆推: 某总体标准差为10,其一个36个单位组成 的样本的平均数为39,试在95%的置信度水平 下,估计总体平均数的置信区间。
从上面的例子中可得出如下结论:
在不同的置信度下,其对应的置信区间也 是不同的,置信度与置信区间是一个反比的关 系。
重要的置信度与概率度之间的关系: