怎样确定统计量的样本容量
假设检验临界值法
假设检验临界值法假设检验是统计学中常用的一种方法,可以用来推断某些假设是否属实。
在假设检验中,临界值被用来判断样本统计量是否在给定的显著性水平下是显著的。
假设检验临界值法是一种计算临界值的方法,以下将分步骤介绍它的具体执行过程。
第一步,确定显著性水平。
显著性水平通常被设置为0.05或0.01,它表示当数据统计结果位于这个水平下时,我们认为结果是显著的,并且拒绝原假设。
例如,设置显著性水平为0.05,表示只有当结果出现的概率小于等于0.05时,我们才会拒绝原假设。
第二步,确定检验统计量。
检验统计量一般是在原假设下,样本中观察到的一个值。
例如,我们要判断某个商品是否符合标准,这时可以采集样本,并计算出样本中这个商品的平均值。
平均值就是我们所用的检验统计量。
第三步,根据样本特征选择合适的分布。
根据样本特征来选择合适的分布是判断一个检验统计量在统计学上是否显著的基础。
如果样本量比较小,并且总体分布是正态分布的话,使用t分布来计算临界值;如果样本量比较大,并且总体分布是正态分布的话,使用z分布计算临界值;如果样本分布不是正态分布,那么可以使用非参数检验方法计算临界值。
第四步,根据样本容量和样本分布情况计算临界值。
计算临界值时需要考虑样本容量和样本分布情况,以确定所使用的统计量。
对于基于t分布的临界值方法,需要根据样本容量和显著性水平计算t值,并查找t分布表格以确定临界值。
对于基于z分布的临界值方法,需要查找标准正态分布表格以确定临界值。
第五步,比较检验统计量与临界值。
最后一步是将检验统计量与临界值进行比较,以确定原假设是否被接受或者拒绝。
如果检验统计量小于临界值,那么我们接受原假设;如果检验统计量大于等于临界值,那么我们拒绝原假设,认为样本结果在显著性水平下是显著的。
总之,假设检验临界值法是一种常用的分析方法,用于推断某些假设是否属实。
它的计算方法涉及到显著性水平、样本容量和样本分布等多个因素,需要仔细分析结果并进行严格比较,才能得出判断结论。
概率论与数理统计第六章统计量,样本及抽样分布
(2) X 1
~
2 (n1 ),
X2
~
2 (n2 ),
X1,
X
独
2
立
,
则
X 1 X 2 ~ 2 (n1 n2 ).
(3) X ~ 2 (n), E( X ) n, D( X ) 2n,
.
2021/3/11
20
(4). 2分布的分位点
对于给定的正数,0 1,
称满足条件
P
2 2 (n)
k 1
,
X
k 2
,,
X
k n
独立且与X
k同分布,
E
(
X
k i
)
k
k 1,2,,n 再由辛钦大数定律可得上述结论.
再由依概率收敛性质知,可将上述性质推广为
g( A1, A2 ,, Ak ) p g(1,2 ,,k ) 其中g为连续函数.
这就是矩估计法的理论根据.
2021/3/11
18
皮肌炎图片——皮肌炎的症状表现 数理统计
10
3. 总体、样本、样本值的关系
事实上我们抽样后得到的资料都是具体的、确 定的值. 如我们从某班大学生中抽取10人测量身高, 得到10个数,它们是样本取到的值而不是样本. 我 们只能观察到随机变量取的值而见不到随机变量.
2021/3/11
11
总体(理论分布) ?
样本
样本值
统计是从手中已有的资料--样本值,去推断总 体的情况---总体分布F(x)的性质.
2. t分布的密度函数关于t 0对称.当n充分大时, 其图形近似于标准正态分布概率密度的图形,
再由函数的性质有
lim h(t)
n
1 et2 2. 2
统计学教程(含spss)四参数估计
从一批灌装产品中,随机抽取20灌,得样本方差为0.0025。试以95%的置 信度,估计总体方差的存在区间。
n 1 s2 2 n 1 s2
2 2
2 1 2
n 1 s2
2 0.025
2
n 1 s2
2 0.975
19 0.0025 2 19 0.0025
32.8523
8.90655
自正态总体抽样时,总体均值与总体中位数相同,而中位数的 标准误差大约比均值的标准误差大25%。因此,样本均值更有效。
x 的抽样分布
M e的抽样分布
____
X
有效性
一致性
如果 lim
P
1(为任意小数,n
为样本容量)
n
则称 为的满足一致性标准的点估计量
ˆ1的抽样分布 ˆ2的抽样分布
x s 2 p 均为一致性估计量
X~N, 2
x__
~
N
, 2 n
__
Z x ~N 0,1
n
P Z
Z Z
1
2
2
P Z
2
__
x n
Z
1
2
显著性水平
22
2
Z 2
置信度
1
0
P_x_ Z
2
n
__
x Z 2
1
n
2
Z 2
显著性水平α下,μ在1- α置信水平下的置信区间:
__
x
Z
2
__
n , x Z 2
f x
x
n
x 2
f x
1
e 2 2 x
2
x
抽样分布
E(x)
统计学 第 6 章 抽样与参数估计
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
新东方在线实验心理学知识点详解
知识点详解三、心理学实验研究的一般程序(一)课题选择与文献查阅(二)提出问题与研究假设(三)实验设计与实施1.研究设计与实施2.被试样本的选择选择研究的被试群体是研究设计的第一个环节,如何科学选择被试群体是保证研究结果科学性与可靠性的基本前提。
一项研究结果能否真正客观地反映客观事物的本质规律与研究对象的抽样的代表性是密切相关的,研究样本的代表性越好,研究结果就越能从本质上揭示客观事物的本质规律;而且抽样的代表性还会直接影响研究结果的推论性,抽样的代表性越好,研究结果的可推论性也就越高。
由此可见,科学地抽取被试样本在心理学研究中占有举足轻重的地位。
(1)被试样本背景信息的控制被试样本背景信息的控制是抽取样本时应该考虑的重要因素之一,被试样本背景状况直接关系到样本的总体的范围和研究结果的推论范围。
通常情况下,被试样本背景信息包括被试的地域、年龄范围、性别及性别比例、教育状况、职业及不同研究者所关注的其他方面的信息(如健康状况、对智力或能力的特殊要求、视觉状况、听觉状况等)。
对被试背景状况的控制是选择被试样本的最基本要求。
确定了被试样本背景状况后,便可以在符合要求的总体中抽取样本了。
(2)选择被试样本的方法样本的代表性是抽样考虑的最关键因素。
在心理学研究中,为了保证被试样本的代表性,通常采用如下的方法来抽取被试样本:完全随机取样从理论上讲,按照统计学原理进行完全随机取样能够达到抽样的要求。
完全随机取样通常适用于总体有限或容量不大的情况,具体的操作方法可以采用随机数表或抽签的方法进行完全随机化抽取样本。
采用随机数表的使用方法如下:将总体中的所有个体随机排序,然后在随机数表中选取相当于样本数量的随机数,随机数对应的个体就是所要抽取的样本。
抽签的抽样方法与经常做的抽签游戏的规则是完全一样的,即制作相当于总体人数的标签,按照拟抽取的样本数量制作相应数目的标签,并做出被抽取的标识,其余标签标识为非抽取对象。
这样,通过抽签的形式就可以随机地将样本抽取出来。
第五章 抽样:样本容量的确定(市场调研-北京大学,胡健颖)
9
第五章 抽样:样本容量的确定
3) 均值或比例的标准误差(standard error) ,或抽 样平均误差,公式为: 均值 比例
x
n
P
P(1 P) n
2014-2-6
北京大学光华管理学院 胡健颖
10
第五章 抽样:样本容量的确定
4) 通常总体标准差 σ 是未知的,在这种情况下,可以通过 下面的公式从样本中估计总体的标准差: 均值 比例
思考题: ① 迪斯尼世界的调查表明,有 60%的老顾客喜欢玩滑行铁道。 若要求误差不超过 2%, 置信度为 90% (Z 值查参考书 552 页) , 求所需的样本容量。 ② 客户要求置信度为 99%,允许抽样误差为 2%,按此计算出 需要样本容量为 500,调查费用是 20,000 美元,但他只有 17,000 美元的预算,问有没有其他方案可供选择? ③ 在具有什么条件下,进行调查前就可以将样本容量确定下 来?
在确定估计比例所需的样本容量时有一个优势:如果缺乏估计 P 的依据,可以对 P 值做最糟糕的假设。给定 Z 值和 E 值,P 值 为多大时要求的样本容量最大呢?当 P=0.05 时, “P(1-P)”有极大 值 0.25 存在。
2014-2-6
北京大学光华管理学院 胡健颖
30
第五章 抽样:样本容量的确定
2014-2-6
北京大学光华管理学院 胡健颖
25
第五章 抽样:样本容量的确定
表 5-1 1000 个样本平均数的概率分析:最近 30 天内吃快餐的平均次数 次数分组 2.6-3.5 3.6-4.5 4.6-5.5 5.6-6.5 6.6-7.5 7.6-8.5 8.6-9.5 9.6-10.5 10.6-11.5
统计学
s n
还可以进一步推断相应总量指标的区间范围。 还可以进一步推断相应总量指标的区间范围。
2、总体比率的区间估计 、
由定理知:在大样本下, 由定理知:在大样本下,样本比率的分 1 布趋近于 N ( P, P(1 − P)) n 给定置信度 1 − α ,查正态表的 Zα , 2 样本比例的抽样极限误差为
2 2 2 2
~ F (n1 − 1, n2 − 1)
得方差比 σ 12 / σ 22 的置信度为1 − α 的置信区间为
1 s12 s12 ( 2 , 2 s2 Fα ( n1 − 1, n2 − 1) s2 F
2 1−
1 ) α ( n1 − 1, n2 − 1)
2
例题:见书 页例11 例题:见书150页例 页例 练习:研究由机器A和机器 生产的钢管的内径, 和机器B生产的钢管的内径 练习:研究由机器 和机器 生产的钢管的内径, 随机抽取A生产的管子 生产的管子18只 测得样本方差0.34 随机抽取 生产的管子 只,测得样本方差 平方毫米,抽取B生产的管子 生产的管子13只 平方毫米,抽取B生产的管子13只,测得样本 方差0.29平方毫米。设两样本相互独立,且设 平方毫米。 方差 平方毫米 设两样本相互独立, 由A、B生产的管子内径分别服从正态分布 、 生产的管子内径分别服从正态分布 2 2 N ( µ1 ,σ 1 ), N ( µ 2 ,σ 2 ) µ i ,σ i 均未知。 均未知。 这里的 试求方差比的置信度为0.90的置信区间。 的置信区间。 试求方差比的置信度为 的置信区间
s 小样本) n (小样本)
综述: 综述:总体均值的置信度为 1 − α 的置信区间 表示为: 表示为:x − ∆ x ≤ µ ≤ x + ∆ x 其中: 其中: σ s ∆ ≈ Zα 大样本下: 大样本下: x = Z α σ ( x) = Z α
第10节 抽样估计与样本量确定
5
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
6
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
– 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
• 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都 必须具备这个辅助信息。否则,就只能在数据收集上来后, 在估计阶段利用辅助信息提高估计值的精度。
10
使用辅助信息调整权数
• [例10.5] 为得到某公司职员是否 有吸烟习惯的信息,进行了一项调 查。从N=780人的名录中抽出了一 个n=100人的简单随机样本。 • 在收集有关吸烟习惯信息时,收集 了每个回答者的年龄和性别情况, 且100人都做出了回答,由此得到 样本数据的分布如表10-3所示:
調查分析與預測 MRAF
从总体分布到抽样分布
[例10.6] 设一个总体,含有4个元素(个体) ,即总体单位数 N =4。4个个体分别为x1=1,x2=2,x3=3,x4=4。 可以计算总体均值、方差及其分布。
参数估计
如果两个总体都是有限总体,并且两个样本都是不重复抽取的则当两个样 本容量都充分大,并且两个抽样比都小于5% 时,根据中心极限定理,两 个样本平均数之差就近似服从N( μ1 –μ2 , σ12 / n1+σ22 /n2) 。若 抽样比不小于5%,则可用校正系数校正。
返回
样本比率(成数)的抽样分布
当总体为无限总体时,不论总体的分布如何,在样本容量充分大 时,样本成数服从 N(P,PQ/n) 当总体为有限总体且抽样为不重复抽样时,在np,nq都大于5 时,样本成数就近似地服从 N﹝P,PQ/n(1-n/N)﹞
返回
总体成数的区间估计
大样本近似正态分布的总体成数的区间为:
重复抽样时
有限总体不重复抽样时
返回
总体成数的区间估计(例题分析)
【例】对一批成品按随机不重复抽样抽取200件进行检验,结果发现其 中废品有8件,又知道抽样单位数是成品总量的1/20,当概率为 95.45%时,可否认为这批产品的废品率不超过5% 解:p=8/200=4% Z α/2=2(查表)
返回
7—3 总体参数估计
总体参数的估计方法 总体平均数的区间估计 总体成数的区间估计 两个总体平均数之差的区间估计 两个总体成数之差的区间估计
返回
总体参数的估计方法
点估计 区间估计
返回
点估计
点估计,简单地说,就是用样本估计量的一个具体观测值 直接作为总体的未知参数的估计值的方法。 点估计的优良标准: 1、无偏性 2、一致性
即在63.14~66.86之间。也即我们有95%的把握估计这批原材料的平均重量在 63.14千克到66.86千克之间。
总体平均数的区间估计
样本取自正态分布总体,总体方差未知且为小样本时,总体平 均数的置信区间为:
(07)第7章 参数估计
STATISTICS
第 7 章 参数估计
7.1 参数估计的一般问题 7.2 一个总体参数的区间估计 7.3 必要的样本容量的确定
7-1
统计学
STATISTICS
学习目标
1. 2. 3. 4.
估计量与估计值的概念 点估计与区间估计的区别 一个总体参数的区间估计方法 必要的样本容量的确定方法
7-2
统计学
STATISTICS
置信水平
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比重称为置信水平,也叫做置信度 2. 表示为 (1 -
为总体参数未在区间内的比重
相应的 为0.01,0.05,0.10
3. 常用的置信水平值有 99%, 95%, 90%
2. 则,将所有样本均值标准化为t统计量:
t x n ~ t (n 1)
3. 最终,总体均值 在1-置信水平下的置信 区间为: s
x t
2
s
7 - 24
n
统计学
STATISTICS
t 分布
t 分布是类似正态分布的一种对称分布,它通常要比 正态分布平坦和分散。一个特定的t分布依赖于称之 为自由度的参数。随着自由度的增大,分布也逐渐 趋于正态分布
2
n
或 p z
p(1 - p)
2
( 未知时)
n
统计学
STATISTICS
总体比重的区间估计
(例题分析)
解:已知 n=100,p=65% , 1- = 95%, z/2=1.96
p z p (1 p )
2
【例】某城市想 要估计下岗职工 中女性所占的比 重,随机地抽取 了 100 名 下 岗 职 工,其中65人为 女性职工。试以 95%的置信水平 估计该城市下岗 职工中女性比重 的置信区间
参数估计
•L( θ)=Π f(xi;θ) •MLE就是要求使得似然函数达到极大的θ 作为该参数的估计量,记为ˆ ,并称 ˆ 为参数θ的极大似然估计
统计应用
二战中的经济情报
统计应用
4-2 参数估计
1 参数估计的一般问题 2 一个总体参数的区间估计 3 不同抽样技术的估计(略) 4 样本容量的确定
学习目标
1. 估计量与估计值的概念 2. 点估计与区间估计的区别 3. 评价估计量优良性的标准 4. 一个总体参数的区间估计方法 5. 样本容量的确定方法
总体均值的区间估计
(例题分析)
• 【例4.3】某企业生产某种产品的工人有 1000人,某日采用重复抽样从中随机抽取 100人,调查他们的当日产量为35件,产量 的样本标准差为4.5件,试以95.45%的置信 度估计平均产量的抽样极限误差和置信区 间。
总体均值的区间估计
(例题分析)
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质 量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋,测得每袋重量(单位:g)如下表所示。已知产品重量的 分布服从正态分布,且总体标准差为10g。试估计该批产品 平均重量的置信区
统计方法
描述统计
推断统计
参数估计
假设检验
统计推断的过程
总体
样
样本统计量
本
如:样本均值、
比例、方差
1 参数估计的一般问题
1.1 估计量与估计值 1.2 点估计
统计假设检验中的三个决策准则
统计假设检验中的三个决策准则1. 什么是假设检验假设检验是一种统计方法,用于判断样本数据是否支持某一个关于总体的假设。
在进行假设检验时,我们会建立两个互补的假设,即原假设和备择假设。
原假设是我们要进行验证的假设,备择假设是与原假设互相排斥的假设。
通过利用样本数据,使用统计学方法来评估原假设的真实性。
在进行假设检验时,需要进行三个决策:接受原假设、拒绝原假设或无法拒绝原假设。
这些决策是根据统计学的原理和一些统计指标得出的。
2. 第一个决策准则:确定显著性水平显著性水平(Significance Level),通常用符号α表示,是在进行假设检验时我们事先设定的一个阈值。
它代表了我们允许犯错误的概率,也就是拒绝原假设的风险。
常见的显著性水平有5%、1%等。
在进行假设检验时,我们需要根据问题的特点和样本数据的质量来选择合适的显著性水平。
一般来说,如果我们对假设检验的结果要求较高的准确性,那么就应该选择较小的显著性水平。
相反,如果我们对假设检验的结果要求不那么严格,那么就可以选择较大的显著性水平。
3. 第二个决策准则:计算检验统计量检验统计量是用来度量样本数据与原假设之间的差异的一个统计量。
它的计算方法是根据假设检验的问题而定的,常见的统计量有t统计量、z统计量、卡方统计量等。
计算检验统计量需要依赖样本数据和原假设的具体表述。
在计算检验统计量时,我们通过观察计算出来的统计量与理论上的期望值进行比较,并考虑到样本容量等因素,来判断是否有足够的证据去拒绝原假设。
4. 第三个决策准则:拒绝或接受原假设在计算了检验统计量后,我们需要将计算得到的统计量与临界值进行比较,以做出决策是否拒绝原假设。
临界值是在给定显著性水平下,与检验统计量相对应的临界点。
如果计算得到的统计量超过了临界值,那么我们会拒绝原假设,即假设检验的结论是“拒绝原假设”。
相反,如果计算得到的统计量没有超过临界值,那么我们就无法拒绝原假设,即假设检验的结论是“无法拒绝原假设”。
统计学复习(抽样分布、参数估计、假设检验)
两个样本均值之差的抽样分布 (1)如: ) 抽样
X1 − N(µ1,σ12 ), X2 − N(µ2 ,σ2 ),
2
则 x1 − x2 ) ~ N(µ1 − µ2 , (
σ12 σ22
n1 + n2
)
抽样
σ12 N1 − n1 σ22 N2 − n2 (x1 − x2 ) ~ N[(µ1 − µ2 , ( )+ ( )] n1 N1 −1 n2 N2 −1
对于无限总体, 对于无限总体, 一个估计 如果对任意 量如能完 ε>ˆ 0 满足条件 全地包含 LimP(|θn −θ |≥ ε ) = 0 未知参数 n→∞ 信息, 信息,即 则称 θˆ 是 θ 为充分量 的一致估计。 的一致估计。
点估计
常用的求点估计量的方法
用样本的数字特征 1.数字特征法: 1.数字特征法:当样本容量增大时 ,用样本的数字特征 数字特征法 去估计总体的数字特征。 去估计总体的数字特征。 例如,我们可以用样本平均数(或成数 和样本方差来估 例如,我们可以用样本平均数 或成数)和样本方差来估 或成数 计总体的均值(或比率 和方差。 或比率)和方差 计总体的均值 或比率 和方差。
样本均值的抽样分布(简称均值的分布) 样本均值的抽样分布(简称均值的分布) 抽样
均值µ=∑Xi/N 均值
均值 X = Σxi
n
样本均值是样本的函数, 故样本均值是一个统计量, 样本均值是样本的函数, 故样本均值是一个统计量, 统计量 统计量是一个随机变量 随机变量, 统计量是一个随机变量, 样本均值的概率分布称为 样本均值的抽样分布。 样本均值的抽样分布。
2
n
总体均值 (µ) )
X ± tα
2
( n −1 )
怎样确定统计量的样本容量
样本量的确定方法一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。
以及实际操作的可行性、经费承受能力等。
根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。
实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。
但是这只能原则上确定样本量大小。
具体确定样本量还需要从定量的角度考虑。
从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。
归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。
也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。
对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。
实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。
二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。
第6讲 抽样和抽样估计精品文档
2. 用[L,U]去框,估计结论或者正确或者错误,但
是如果多次重复估计的话,则平均100次估计中,只 有100 次估计错误,有100(1- )估计正确。
3. 这个某种程度称为置信水平,表示为 (1
为是总体参数未在区间内的比例 ,显著性水平,
也称风险值
常用的为0.01,0.05,0.10,相应的置信水平
值有 99%, 95%, 90%
如何理解1-?
1. 由于 作为总体参数,是固定不变的常数,它或在给 出的区间 [L,U]内,或在该区间外,概率只能是0
样本抽样分布特征的证明
设从总体中抽出的样本为x1,x2,x3…xn ,由于是重复抽样, 每个xi都是从总体中随机抽出的,都是与总体同分布的随机
变量,并且是相互独立的。总体的平均数为,方差为 2,则:
E
(
x)
E
(
x1
+x2
x3 n
xn
)
1 n
[E(x1)+E(x2 )+E(x3 )
E(xn )]
第6讲 抽样与抽样估计
6.1 抽样调查的基本概念 6.2 抽样分布(重点) 6.3 抽样估计的基本方法(难点) 6.4 样本容量的确定
学习目的: 1. 掌握抽样调查的基本概念 2. 区分总体分布、样本分布、抽样分布,理解抽样分布与总体分布
的关系 3. 掌握抽样估计的基本方法,点估计和区间估计
6.1 抽样调查的基本概念
N
5
E(x)= 8, D(x)= 2 8 4
n2
抽 样平均误差 D(x) 2 x
统计推断抽样误差大小评估及控制方法
统计推断抽样误差大小评估及控制方法统计推断是统计学中一项重要的技术,可以帮助我们从样本数据中推断总体的特征。
然而,在实际应用中,由于抽样误差的存在,我们需要对样本数据的可靠性进行评估,并采取相应的控制方法来减小抽样误差的大小。
本文将围绕这一主题展开,介绍统计推断抽样误差的评估和控制方法。
一、抽样误差的定义和影响因素抽样误差是指由于从总体中选取一部分样本,而使样本统计量与总体参数之间的差异。
抽样误差的大小直接影响到我们对总体特征的推断能力。
它的大小受到以下几个因素的影响:1. 样本容量:样本容量越大,抽样误差越小。
通常来说,当样本容量大于30时,中心极限定理可以保证样本的均值近似服从正态分布,从而减小了抽样误差的大小。
2. 总体的变异程度:总体变异越大,抽样误差越小。
如果总体中的个体差异较大,则从中抽取的样本更有可能代表整个总体。
3. 抽样方法:合理的抽样方法能够减小抽样误差的产生。
如简单随机抽样、分层抽样、整群抽样等,都可以在一定程度上降低抽样误差的大小。
二、抽样误差的评估方法为了确定抽样误差的大小,我们需要进行抽样误差的评估。
常用的抽样误差评估方法有以下几种:1. 置信区间:通过计算样本统计量的置信区间,可以确定总体参数的估计范围。
置信区间越窄,抽样误差越小。
2. 边界值计算:边界值是指满足给定置信度和抽样误差的最大样本容量。
通过计算边界值,可以对抽样误差进行评估。
3. 抽样误差率:抽样误差率是指样本统计量和总体参数之间的相对差异。
通过计算抽样误差率,可以评估抽样误差的大小。
三、抽样误差的控制方法为了减小抽样误差的大小,我们可以采取以下几种控制方法:1. 增加样本容量:样本容量的增加可以有效减小抽样误差的大小。
当样本容量足够大时,样本统计量的分布将更加接近总体参数的分布。
2. 优化抽样方法:选择合适的抽样方法可以降低抽样误差的大小。
例如,分层抽样可以根据总体的重要特征来确定抽样的分层,从而提高样本的代表性。
样本容量n的确定公式
样本容量n的确定公式
样本容量是指一个样本中所包含的单位数,一般用n表示,它是抽样推断中非常重要的概念。
样本容量可以通过不同的公式进行计算,以下提供两个常用的公式:
1. 样本容量公式:n=p(1-p)/[E^2/Z^2+p(1-p)/N],其中n为样本容量,
p为总体比例估计值或同类现象在总体中出现的比例,E为允许的估计误差,Z为标准分数(通常取值为95%置信度的Z值,即),N为总体容量。
2. 样本容量公式:n = Z² × p × (1 - p) / d²,其中n为样本容量,Z为标
准分数(通常取值为95%置信度的Z值,即),p为总体比例估计值或同
类现象在总体中出现的比例,d为允许的估计误差。
请注意,样本容量的大小受总体容量、允许的误差范围、总体比例估计值等因素的影响。
在实际应用中,需要根据具体情况选择合适的公式和参数进行计算。
同时,样本容量的确定需要考虑伦理、经济和可行性等方面因素。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
样本量的确定方法(2008-10-14 09:12:34)一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。
以及实际操作的可行性、经费承受能力等。
根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。
实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。
但是这只能原则上确定样本量大小。
具体确定样本量还需要从定量的角度考虑。
从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。
归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。
也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。
对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。
实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。
二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。
所以,区域二相抽样不能计算样本量的说法是不科学的。
1.简单随机抽样确定样本量主要有两种类型:(1)对于平均数类型的变量对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。
已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。
计算公式为:n=σ2/(e2/Z2+σ2/N)特殊情况下,如果是很大总体,计算公式变为:n= Z2σ2/e2例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96。
根据估计总体的标准差为150元,总体单位数为1000。
样本量:n=150*150/(30*30/(1.96*1.96))+150*150/1000)=88(2)于百分比类型的变量对于已知数据为百分比,一般根据下列步骤计算样本量。
已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度,总体数为N。
则计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N)同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为0.5。
例如:希望平均收入的误差在正负0.05之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为1.96,估计P为0.5,总体单位数为1000。
样本量为:n=0.5*0.5/(0.05*0.05/(1.96*1.96)+0.5*0.5/1000)=2782.样本量分配方法以上分析我们获得了采用简单随机抽样公式计算得到的样本量,总的样本量需要在此基础上乘以设计效应的值得到。
由于样本总量已经确定,我们采用总样本量固定方法分配样本,这种方法包括按照比例分配和不按照比例分配两类。
实际工作中首先计算取得区县总的样本量,然后逐级将其分配到各阶分层中,如果不清楚各阶分层的规模和方差等,一般采取比例分配或者比例平方根分配法。
如果有一定辅助变量可以使用,可以采用按照规模分配法分配样本量。
3.样本量和总体大小的关系:在其它条件一定的情况下,即误差、置信度、抽样比率一定,样本量随总体的大小而变化。
但是,总体越大,其变化越不明显;总体较小时,变化明显。
其变化趋势如下:二者之间的变化并非是线性关系。
所以,样本量并不是越大越好,应该综合考虑,实际工作中只要达到要求就可以了。
三、抽样调查方案样本量的确定我们决定首先采取简单随机抽样的方法计算区县的样本量,之所以首先对区县计算样本量,主要是考虑,虽然我们方案中没有要求对区县的估计量,但是区县一级是我们做计划和决策的基础,具有承上启下的作用,如果区县级获得的估计量精度比较高,就可以保证上一级的估计量具有更高的精度,而且各个区县的样本量可以认为是相同的,这主要是因为各个区县的总体数都比较多,而且我们也不清楚;同时也不可能事先进行区县方差估计。
没有首先计算区县以下各阶分层的样本量,主要是考虑:(1)如果计算区县以下某阶分层的样本量,然后再将计算的样本量合并,将显著增加样本量,增加基层的负担。
(2)事实上,对于计算阶可以比较好的得到它的估计量,但我们现在不需要得到区县以下各阶分层的估计量,我们仅仅需要区县的估计量,没有必要计算区县以下阶样本量。
(3)我们直接对整个区县以简单随机抽样进行抽取,然后将其样本量合理分配到各阶分层中,这样可以使用较少样本量得到区县较好的估计量。
以下我们以试点地区批零业为对象进行研究。
由于没有误差限以及置信度和抽样比率的值。
我们可以采用常用参数:设定区县总体为很大,置信度是95%,抽样比率保守估计是0.5,抽样误差不能大于15%,根据公式计算得到样本量为43个。
由于采取多阶分层抽样,我们如何设定抽样设计效应呢?区县及以下是三阶分层抽样,只要在各阶进行合适的分层,其设计效应应该在2-3之间,我们在这里取保守值3,那么得到本区县样本量是129个,这个样本量就可以根据新方案得到区县要求误差内的估计值。
1.确定办事处、居委会、村委会样本量根据方案,每个居委会抽取样本5-10个,那么这个样本量是否可行呢?这里涉及如何将区县样本分配到街道和居委会中去,根据方案要求,街道抽取采取先分层,后对层内进行PPS抽样;那么分配样本是否也采取同样方法呢?主要看辅助变量与样本量之间的关联程度,方案中提供了两个辅助变量:人口数和个体数,对于辅助变量是个体数的完全可以使用规模分配方法分配样本量,个体数多的分配较多的样本量;对于辅助变量是人口数的如果采取规模分配方法,由于人口数与一个地区的个体单位数没有必然的联系,可能导致某些居委会的个体数比较多,却分配了较少的样本量,使得居委会分层变的困难,同时使居委会方差显著增大。
而获得较多样本量的居委会,分层的效果和方差提高幅度有限,故采用比例分配的方法可能更加合适一些。
对于居委会村委会的抽取,由于本阶可能存在市场内的抽样,分配复杂一些;如果本阶有市场内抽样,可以适当减少居委会村委会的样本量,但应该大于本阶样本量的80%,由于市场内抽样的特殊性,建议将本阶样本量全部分配给居委会村委会,我们所进行的试点就是将样本全部分配给居委会;至于市场内抽样的具体实施,可以根据方案操作完成。
对居委会村委会层内,由于使用简单随机抽样完成,采用比例分配平均分配就可。
在实际工作时,由于一个区县包括全部乡镇街道或其中的一个;根据方案,区县抽取办事处的数量应该介于12-4个之间,对应于抽中乡、镇、街道的全部或其中一个,那么其每一个乡镇街道采取比例分配平均分配的样本量应该是11-32个之间;所抽中的居委会、村委会数量应该介于16-48个之间,如果个别乡镇街道抽中的居委会是2个,则其居委会总数相应减少一些;最后,每个居委会、村委会的样本量应该介于3-16个之间,大部分介于5-10之间。
以上的讨论没有考虑总体的大小,如果考虑到居委会、村委会的总体有限,则每个居委会村委会的样本量可以减少一些,具体可以采用以下公式得到具体样本量的调整数:样本量n=n1*N/(N+n1)。
N是本地区总体,n1 是给本地区分配样本量居委会样本量的调整数,应该作为本居委会样本量的底限。
确定办事处、居委会村委会的样本量,与以下几点有关:a)估计量的误差、置信度,可以决定简单随机抽样的样本量b)与采用的抽样方法有关系,它决定了设计效应的大小。
例如:分层抽样的设计效应值小于1,多阶抽样的设计效应值大于1。
可以决定整个抽样的样本量。
c)与每一阶的分层的数目有关系,所以,应该重点考虑分层的问题,分层太多,没有必要;分层太少,导致层内的方差增大,可能影响估计值的精度以及设计效应的值,所以,在每阶分层时,应该合理考虑,使得样本的变异程度在层内达到一个合理水平。
根据以上原则,我们在包头的抽样试点共抽取4个办事处,包括14个居委会;一个乡,包括4个村委会,经过清查共有批零业1042个,单位70个;餐饮业250个,单位3个。
由于我们使用人口数作为辅助变量,应该采用比例分配方法平均分配样本量,这样每个街道办事处得到26个样本, 对于抽取4个居委会的办事处,每个居委会分配得到7个样本;对于抽取2个居委会的办事处,每个居委会分配到13个样本。
然后根据居委会总体对样本量做出调整,得到居委会实际样本量。
2.确定居委会村委会内分层样本量以上我们讨论如何分配给乡镇居委会村委会样本量,现在分析给居委会村委会以下各层分配样本量,这一步,清查的工作就显得非常重要了,重点应该清查规模、类别,首先是规模,规模的大小不应该根据工商注册为单位或个体决定,应该根据实际情况,即使是个体,如果规模较大,也应该归入大规模分层中,这样就可以使得每层的样本变异程度显著降低,从而提高精确度。
根据实际情况可以包括两种:(1)如果全部是规模比较小的单位个体户,我们可以根据类别进行适当的分组,将某一类单位比较多的单独分层;将另外类别比较少的,可以几类合并进行抽取具体样本,分层不要多于4层,并保证每层的样本量不小于2个。
由于居委会样本量数目已经确定,我们可以直接采取比例分配方法,确定各层样本量。
(2)如果规模比较大的和规模小的并存,可以将规模比较大的单独分层,不用考虑其中的类别;将规模较小的主要是个体户可以根据类别进行分层;其中的难题是如何将样本量在规模大的和规模小的之间分配,因为大规模层内样本变异程度有可能很大,应该抽取较多的样本量,经过测试,如果大规模层总体小于等于5,应该对其进行全面调查;如果大于5个,可以采用以下的公式计算得到:n=0.25/(e2/t2+ 0.25/N),其中:e=30%,t=2.1,N为规模较大的数目。