第七章 样本设计 ——样本容量的确定
最新样本量的确定知识讲解
样本量的确定1. 二值分布(估计比例时的样本容量)这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。
比如调查某一批产品的合格率。
样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。
通常情况下置信水平选择95%。
抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。
这时,就可以确定样本量:222(1)(1)z p p n z p p e N-=-+P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。
样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:22(1)z p p n e -=事实上当总体容量很小时,不会采用抽样调查,而是普查了。
2. 正态分布(估计均值时的样本容量)在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。
比如对某一城市老年人的患病年龄进行统计。
这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。
样本量为:22222z S n z S e N=+S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。
同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成:222z S n e=理论基础:根据数理统计知识,样本均值对总体均值可构造如下统计量:xX uσ-,他满足标准正态分布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。
在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式:x σ=如果误差界限设为e,那么:(1)n Se zN N=-解得:22222z Snz SeN=+对于二值分布,p的总体方差为:2(1)S p p=-此时:222(1)(1)z p pnz p peN-=-+当然,这里只考虑了简单随机抽样,对于分层抽样和整群抽样,需要再乘以一个设计效应,分层抽样效率高于简单随机抽样,效应因子小于1,整群抽样效率低于简单随机抽样,效应因子大于1.总体大小对于样本量也是有影响的,当总体个数越小时,影响越明显。
样本量的确定
当研究的特征具有最大的变异程度时,调 查需要的样本容量也最大。
对于只取两个值的特征,则当这两个值在 总体中以50—50的比例出现时,特征的变 异程度最大。
SSI
第23页
如果所研究特征的真实变异程度大于确定 样本容量时我们估计的变异程度,那么, 调查估计值的精度就会低于期望的精度。
注意,公式(1)使用了有限总体校正因子n/N,对总体规模进行校 正。如果忽略这个因子,初始样本容量n1就可以按下列公式计算:
SSI
第30页
设计效果因子
一般来说,当样本容量的计算公式假定为简单随机抽样SRS, 但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应
该乘以设计效果因子。
设计效果=对于同样规模的样本容量,给定样本设计下 估计量的抽样方差对简单随机抽样估计量的 抽样方差的比率。
对于简单随机抽样设计,设计效果 = 1
SSI
第20页
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
SSI
第21页
SSI
表2 列出了持满意和不满意态度的顾客可能占的比例的组合
1
100% 满意
2
90% 满意
3
80% 满意
4
70% 满意
5
60% 满意
6
50% 满意
7
40% 满意
8
30% 满意
9
20% 满意
10
10% 满意
11
0% 满意
0% 满意 10% 满意 20% 满意 30% 满意 40% 满意 50% 满意 60% 满意 70% 满意 80% 满意 90% 满意 10% 满意
样本量的确定方法及公式
样本量的确定方法及公式在统计学和实证研究中,样本量的确定对于获得可靠的结果非常重要。
一个足够大的样本量可以减少统计误差和提高研究的可信度。
样本量的确定需要考虑多个因素,包括所需的可靠性水平,总体大小和总体变异性等。
以下是一些常用的样本量确定方法和公式。
一、样本量计算方法:1. 参数估计方法(Parameter Estimation):用于计算总体均值、总体比例等参数的估计。
通常使用的方法有点估计和区间估计。
在参数估计方法中,一般需要考虑总体的平均数、标准差、置信水平和误差容忍度等因素。
2. 假设检验方法(Hypothesis Testing):用于检验两个总体之间差异是否显著。
常用的假设检验方法有t检验、方差分析等。
在假设检验方法中,需要考虑所需的显著性水平、效应大小、标准差等因素。
3. 相关分析方法(Correlation Analysis):用于研究两个或多个变量之间的关联关系。
常用的相关分析方法有皮尔逊相关系数、斯皮尔曼等级相关系数等。
在相关分析方法中,需要考虑相关系数、显著性水平等因素。
二、样本量计算公式:1.参数估计中的样本量计算公式:a.总体比例(Proportion):n = [(Z * Z) * P * (1-P)] / E^2其中,n表示样本量,Z表示所需的置信度对应的Z值,P表示总体比例的估计值,E表示误差容忍度。
b.总体均值(Mean):n = [(Z * s) / E]^2其中,n表示样本量,Z表示所需的置信度对应的Z值,s表示总体标准差的估计值,E表示误差容忍度。
2.假设检验中的样本量计算公式:a.均值差异(Mean Difference):n = [(Z * s) / E]^2其中,n表示样本量,Z表示所需的显著性水平对应的Z值,s表示总体标准差的估计值,E表示效应大小。
b.总体比例差异(Proportion Difference):n = [(Z * Z) * (P1* (1-P1) + P2 * (1-P2))] / E^2其中,n表示样本量,Z表示所需的显著性水平对应的Z值,P1和P2分别表示两个总体比例的估计值,E表示效应大小。
《统计学》样本容量的确定
样本容量确定的两难
样本容量取得较大,收集的信息 就相对多,从而估计精度较高,但 进行观测所投入的费用、人力及时 间就比较多; 样本容量取得较小,则投入的费 用、人力及时间就相对节约,但收 集的信息也较少,从而估计精度较 低; 所以,精度和费用对样本量的影 响和要求是矛盾的,不存在既使精 度最高又使费用最省的样本量 。
估计总体均值时样本容量的确定 (例题分析)
解: 已知=2000,d=400, 1-=95%, z/2=1.96 置信度为95%的置信区间为:
n ( z 2 )2 2 (1.96 )2 20002
d2
4002
96.04 97
即应抽取97人作为样本。
估计总体比例时样本容量的确定
估计总体比例时ห้องสมุดไป่ตู้本容量的确定
1. 根据比例区间估计公式可得样本容量n为:
• •
重复抽样n
(
z
2
)2
d2
(1
)
•
2.
不重复抽n样
(
N
N( z 2 )2 (1 ) 1)d2 ( z 2 )2 (1
)
d的取值一般小于0.1
其中: d z 2
p(1 p ) n
3. π未知,以样本比例p替代
4. π或p都未知时,可取0.5,这是一种谨慎估计
1. 估计总体均值时样本容量n为:
• •
重复抽样 n
(
z
2
d
)2
2
2
•
不重复抽样
n
(N
N( z 2 )2 2 1)d2 ( z 2 )2 2
其中:d
Z
2
•
n
2. 样本容量n与总体方差成正比,与绝对误差成
样本量的确定方法
样本量的确定方法确定样本量的方法有多种,下面将详细介绍常用的几种方法。
一、基于统计学原理的方法:1.基于统计显著性检验力:该方法主要依据研究者希望能够检测到的效应大小和所设定的显著性水平,确定样本量。
研究者可以根据先前的研究或者相关文献查到的相似研究结果估计出所需样本量。
2.基于置信区间的方法:该方法根据预期的效应大小和所期望的置信水平,计算所需的样本量。
一般来说,置信区间的宽度越小,研究的推广性和准确性就越高。
3.基于效应大小的方法:该方法依据研究者希望检测到的最小实际效应大小来估计样本量。
研究者需要仔细考虑研究的实际意义和可用资源,从而确定合适的效应大小。
二、基于预计标准差的方法:1.基于样本均值和标准差的方法:该方法需要先确定所关注的变量的样本均值和标准差,然后依据所期望的误差限和显著性水平,计算所需的样本量。
2.基于样本方差的方法:该方法是基于样本的方差来估计所需的样本量。
研究者需要根据先前的研究或者相关文献估计出目标变量的方差,并根据所期望的误差限和显著性水平,计算所需的样本量。
三、基于经验和专家意见的方法:有时候,研究者可能会依赖经验或专家意见来决定样本量。
这可以是因为先前的研究或者相关研究在相似的研究领域有类似的样本大小要求,或者专家对于研究领域有充分的了解和经验。
以上是确定样本量的三种常用方法,但在确定样本量时,还需要注意以下几个方面:1.研究目标的清晰:研究者需要确切地了解自己的研究目标和问题,以便选择合适的样本量确定方法。
2.研究设计的合理性:研究设计需要尽可能地控制潜在的混杂变量,以提高研究的内部有效性和可靠性。
3.统计方法的选择:在确定样本量时,需要考虑研究所使用的统计方法,以确保所需的样本量是有效可靠的。
4.合理分配资源:研究者需要合理估计研究所需要的人力、物力和时间等资源,并将其纳入样本量的计算。
综上所述,确定样本量是研究设计中不可忽视的重要环节。
研究者可以根据研究目标、设计、效应大小、统计方法和资源等多个因素,选择合适的样本量确定方法。
随机抽样中样本容量的确定
即
(3)
(3)式同样回答了两个问题:当原假设H0:μ=μ0成立时,给出了H0的否定 域;二是在μ未知时,给出了总体平均数μ在置信水平 1 时的区间估计
(x S n t (n 1), x S n t (n 1)
同样可以看到,在 2 未知条件下,不论是对总体平均数进行参数估计还是 假设检验,均得到了一个相同的置信区间 ( x
n
即
(1)
(1)式回答了两个问题:一是当原假设H0:μ=μ0成立时,给出了H0的否定
域;二是在μ未知时,给出了总体平均数μ在置信水平 1 时的区间估计
(x
Z , x Z ) 。 n 2 n 2
我们可以看到,在 2 已知条件下,不论是对总体平均数进行参数估计还是
(x
(4)
事实上,当总体方差 2 未知时,我们可以用由经验确定的 0 2 代替 S 2 ,对 于给定的显著性水平 ,只要查得临界值 t (n 1) ,这时n的值就能由(4)式确 定。但实际上,确定临界值 t (n 1) 本身,事先就需要知道n的值,即自由度n-1 的值,因此(4)并没有真正解决n值的计算问题。然而,我们通过分析t分布临 界值表可以发现, 对于显著性水平 ≤0.05的情形, 当n≥30时, 其临界值 t (n 1) ≈2, 这个临界值对于大于30的各个n值影响均不太大,因此我们可以采用近似公 式
Z n 2
2
(2)
2. 在 2 未知条件下的必要样本容量 在 2 未知条件下,我们可以得到总体平均数μ在 1 置信水平下的置信区 间为 ( x
S n t (n 1), x S n t (n 1) ,而在对总体平均数进行假设检验时,由于
论文中的样本选择与样本容量
论文中的样本选择与样本容量在统计学和研究领域中,样本选择和样本容量是进行有效实证研究和进行可靠推断的关键要素。
在撰写论文时,研究者需要认真考虑样本选择的合理性和样本容量的大小,以保证研究结果的准确性和可靠性。
本文将探讨在论文中进行样本选择和确定样本容量的方法和原则。
一、样本选择的原则和方法样本选择是指从总体中选择一部分样本进行研究,以推断总体特征。
在确定样本选择的原则和方法时,需考虑以下几个因素:1. 代表性:样本应具有总体的代表性,能够全面反映总体的特征和差异。
代表性的样本能够减少抽样误差,并保证研究结论的一般性。
2. 随机性:样本选择应基于随机抽样原则,使每个个体都有同等机会被选入样本,避免主观选择引入偏差。
常用的随机抽样方法有简单随机抽样、分层抽样、整群抽样等。
3. 可获得性:样本选择应考虑数据获取的可行性和实际条件,避免因数据收集困难导致研究无法进行或结果不可靠。
在论文中,可以通过描述样本来源、抽样方法和样本选择的原则等,来说明样本选择的合理性和代表性。
同时,在文中明确说明是否采用随机抽样方法,并解释为什么选择该方法。
二、样本容量的确定样本容量是指进行研究的样本数量。
样本容量的大小直接影响到推断结果的精确度和统计检验的效力。
确定样本容量时,需要考虑以下几个因素:1. 总体大小:总体大小是确定样本容量的重要依据之一。
总体越大,样本容量越大,以保证具有足够的统计效力。
2. 误差容忍度:研究者需根据研究目的和需求确定可接受的误差容忍度。
误差容忍度越小,需要的样本容量越大。
3. 显著性水平和效应值:研究中常需要根据显著性水平和效应值来确定样本容量。
显著性水平是指在统计检验中犯错误的概率,常用的显著性水平为0.05或0.01。
效应值是指总体差异或关联的大小,根据研究需求确定合理的效应值。
一般来说,可利用统计软件或样本容量计算公式来确定所需的样本容量。
在论文中,可以详细描述使用的公式和参数,并说明样本容量的合理性和足够性。
抽样方法与样本容量的确定
抽样是通过抽取总体中的部分单元, 收集这些单元的信息,用来对作为整体 的总体进行统计推断的一种手段。本章 讨论了抽样的基本问题。 Sampling is a means of selecting a subset of units from a population for the purpose of collecting information for those units, usually to draw inference about the population as a whole.
非概率抽样的优点是: The advantages of non-probability sampling are that:
快速简便; 费用相对较低; 不需要抽样框; 对探索性研究和调查的设计开发很有用。 It is quick and convenient It is relatively inexpensive It requires no sampling frame It can be useful for exploratory studies and survey development
抽样的两种主要类型是概率抽样与 非概率抽样。 There are two types of sampling: nonprobability sampling and probability sampling
非 概 率 抽 样 non-probability 的用途是有限的,因为抽选单元的 倾向性不允许对调查总体进行推断。 然而非概率抽样快速简便,对探索 性研究很有用,特别是在市场调查 中应用非常广泛。
1.随意抽样Haphazard sampling
样本容量的确定
样本容量的确定分类:Statistics在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。
在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。
若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。
当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。
一、影响样本容量的因素(一)总体的变异程度(总体方差)在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。
例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。
所以,当总体方差较大时,样本的容量也相应要大,这样才会使较小,以保证估计的精确度。
(二)允许误差的大小允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。
允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。
(三)概率保证度1-α的大小概率保证度说明了估计的可靠程度。
所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。
(四)抽样方法不同在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。
重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。
此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。
二、样本容量的确定(一) 估计总体均值的样本容量在总体均值的区间估计里,置信区间是由下式确定的:例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。
样本量的确定方法
样本量的确定方法
确定样本量的方法可以根据所需的研究目的和设计来确定。
以下是几种确定样本量的常用方法:
1. 根据研究目的和先前研究的结果估算:可以通过先前的研究或者相关文献来估算所需的样本量。
根据以往研究中所报道的样本量和效应大小,可以进行适当的估算。
2. 使用统计学方法进行计算:可以使用统计学方法来计算所需的样本量。
这些方法包括根据效应大小、显著性水平、统计功效等因素来进行样本量计算,常见的方法有t检验、方差分析、相关分析等。
3. 进行样本量试验:有时候可以进行小规模的样本量试验,然后根据试验结果进行样本量的调整和估算。
这样可以更加准确地估算出所需的样本量。
4. 借鉴类似研究的样本量:可以借鉴已经进行过类似研究的样本量来确定所需的样本量。
根据相似研究中使用的样本量和效应大小,可以进行相应的估算。
需要注意的是,样本量的确定应该综合考虑实际可行性、资源限制以及研究目的的要求。
在确定样本量时,还需要慎重考虑样本的代表性和可靠性,以确保研究结果的有效性和可推广性。
样本量的确定方法
样本量的确定方法.样本量的计算公式为:样本量= (Zα/2 * σ / E)²,其中Zα/2为置信水平对应的标准正态分布值,σ为总体标准差,E 为允许的误差。
2)对于比例类型的变量,样本量的计算公式为:样本量= (Zα/2)² * p * (1-p) / E²,其中Zα/2为置信水平对应的标准正态分布值,p为总体比例,E为允许的误差。
2.分层抽样确定样本量,需要先将总体划分为若干层,然后根据每层的变异程度和大小,计算出每层的样本量,最后将各层样本量相加得到总样本量。
3.整群抽样确定样本量,需要先将总体分为若干群,然后根据群内变异程度和群大小,计算出每群的样本量,最后将各群样本量相加得到总样本量。
总之,样本量的确定需要综合考虑多个因素,包括调查目的、性质、精度要求、实际操作的可行性和经费承受能力等,同时需要根据不同的抽样方法和变量类型选择相应的样本量计算公式。
本文介绍了如何确定抽样调查方案的样本量。
对于已知数据为绝对数的情况,需要根据期望调查结果的精度、置信度、总体标准差估计值和总体单位数来计算样本量。
计算公式为n=σ/(e/Z+σ/N)。
如果是很大总体,则公式变为n=Zσ/e。
例如,如果希望平均收入误差在正负人民币30元之间,调查结果在95%的置信范围以内,置信度为1.96,估计总体标准差为150元,总体单位数为1000,则样本量为88.对于已知数据为百分比的情况,需要根据调查结果的精度值百分比、置信度、比例估计的精度和总体数来计算样本量。
计算公式为n=P(1-P)/(e/Z+ P(1-P)/N)。
如果不考虑总体,则公式为n=ZP(1-P)/e。
一般情况下,取样本变异程度最大值0.5作为P的取值。
例如,如果希望平均收入误差在正负0.05之间,调查结果在95%的置信范围以内,置信度为1.96,估计P为0.5,总体单位数为1000,则样本量为278.确定样本量后,需要进行样本量分配。
第七章 样本设计 ——样本容量的确定
Sx =
pq 1 = n n CN
( pi − P)2 ∑
i =1
CN
Sp百分率标准误差;p为样本中的百分率;q=1-p; n 为样本容量。 例:假设抽选中的100名驾驶者中有40%的人表示其汽车上 配有辐射状轮胎。则标准误差为:=4.899
22
计算样本容量——均值问题
∵ x ~ N (µ , x −µ
在简单随机抽样的条件下,样本容量为
n
=
Z2 σ2
h2
其中: 其中 Z = 标准误差的置信水平 σ = 总体标准差 h = 允许误差(可接受误差水平) 允许误差(可接受误差水平)
24
计算样本容量——均值问题
置信水平Z和误差E的确定需要由调研人员同客 户进行磋商后确定,要在精确度、置信度和成 本之间进行衡量。 估计总体标准误差的四种方法
2
确定概率抽样的样本容量
样本容量的确定通常是介于理论上的完善方案与 实际上可行方案之间的一个折中方案
教条式方法
以“经验性”为幌子,认为样本容量应该是“为 保证精度,一般至少应该是总体的5%” 例如关于鞋子的调查:1万名铁人三项运动员;耐 克对“飞人乔丹”进行调查,200万名潜在的篮 球鞋购买者 简单易行,但不是一种高效率、经济的方法,教 条式方法忽略了抽样的精确度问题。
任何正态分布都可以转化为标准正态分布 均值等于0 标准差等于1
17
置信区间的概念
是一个范围,其终点指定了对于一个问题的某 一应答百分率。 正态曲线的属性是,标准差的1.96倍从理论上 表示95%的分布终点,标准差的2.58倍表明了 99%的分布终点。 95%的置信区间 的置信区间=1.96个标准差 (±)均值 的置信区间 个标准差 ± 均值 99%的置信区间 的置信区间=2.58个标准差 (±)均值 的置信区间 个标准差 ± 均值 以95% 来举例说明。
抽样调查的样本容量的确定方法
抽样调查的样本容量的确定方法抽样调查的样本容量的确定方法摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。
单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。
样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。
关键词:样本容量;抽样调查;抽样误差;极限误差抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。
根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。
等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。
样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用n表示。
确定样本容量是制定抽样调查方案中的一个非常重要的环节。
1.确定样本容量的必要性1.1样本容量大小影响抽样估计的精确度抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。
调查结果相对于总体真实值的精确度与样本容量直接相关。
样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。
1.2样本容量大小影响抽样调查的成本和效益样本量的设计通常受到研究经费及调查时间的限制。
根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。
若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。
因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。
样本容量确定
11第三节 样本容量的确定在区间估计中我们发现,对于某一个总体的参数进行估计时,在样本数目一定的条件下,要提高估计结果的可靠性,就需要扩大置信区间,这就要增加估计中的误差,减少了估计的实际意义。
如果要减少估计的误差,就要缩短置信区间,但这样就必须要降低估计的可靠性。
可见在样本数目一定的条件下,估计的精确性和估计的可靠性不能两全其美。
既要提高估计的精确性,减少误差,又要提高估计可靠性的办法就是增加样本容量。
但是增加样本就要同时增加抽样调查的成本,同时又可能延误时间。
因此就需要研究能够满足对估计的可靠性和精确性要求的最小样本数问题。
一、均值估计问题中,样本大小的决定在总体均值的估计问题中,要决定必要的样本大小,必须先明确如下三个问题:1. 要规定允许的估计误差的大小,即允许的估计值与实际值之间的最大偏离值是多少,实际上也就是估计区间的大小,2. 规定置信度,即估计所要求达到的可靠性,也就是实际的抽样误差不超过所规定的误差的可信度。
3. 要明确总体的标准差,即要求了解总体的分布情况。
总体的标准差小,只要抽较少的样本就能满足对估计精确度和可靠性的要求,若总体标准差大,就必须抽取较多的样本才能达到对估计精确度和可靠性的要求。
设总体标准差为σ,样本均值的标准差为x σ。
估计的置信度为1-α,于是可以相应地得到置信系数Z α/2。
于是对总体均值的估计可由下式得到:()P X Z x -<⋅=-μσαα/21上式中的X -μ实际上就表示估计所允许的最大误差,我们用Δ表示,于是根据上式有n Z σα⋅≤∆2/ 则 2222/∆⋅≥σαZ n 由此只要规定了允许误差的大小Δ和总体的标准差σ,由置信度1-α查表得到相应的Z α/2,代入公式,求得满足要求的最小整数就是满足估计误差不大于Δ和置信度为1-α的要求的最少样本数。
上述公式适用于重复抽样或无限总体不放回抽样时的情形。
但对于有限总体不放回抽样的情形,公式变为如下的形式:12/--⋅⋅≥∆N n N n Z σα 由此可求得满足上式要求的最小的整数为()n N Z N Z 022222221=⋅⋅-+⋅αασσ//∆。
确定样本容量讲解
该是如何呢?(99%的置信水平)
24
三、使用置信区间公式确定样本容量
刚才我们学到的抽样误差的计算公式为
抽样误差% za / 2 s p za / 2
pq n
抽样误差
za
/
2
s x
za / 2
s n
n za / 22 ( pq) e2
n
za / 22 s 2 e2
n —样本容量 za / 2 —与选择的置信水平对应的Z值 p —样本百分比 q —100 p s —样本的标准差
样本量的确定方法
样本量的确定方法样本量的确定方法一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。
以及实际操作的可行性、经费承受能力等。
根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。
实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。
但是这只能原则上确定样本量大小。
具体确定样本量还需要从定量的角度考虑。
从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。
归纳起来,样本量的大小主要取决于:(1)研究对象的变化程度,即变异程度;(2)要求和允许的误差大小,即精度要求;(3)要求推断的置信度,一般情况下,置信度取为95%;(4)总体的大小;(5)抽样的方法。
也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。
对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。
实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。
二、样本量的确定方法如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。
样本容量的确定
本题属于样本平均数与总体平均数差异的检验,根据
Z 0.01 2.32 , Z 0.10 1.28
2 (Z Z ) (2.32 1.28) 15 n 81 6 2
题意 6, 15 ,对于单侧检验,查正态分布表可得:
• 例3:欲调查两地区毕业生数学成绩的差异 是否达到10分,从两地区分别随机抽样, 进行一次数学考试,如果规定,当实际上 两地区无差异或差异很小而在抽样调查 (考试)中错误地判断为差异达到10分的 概率α =0.05;当实际上两地区差异达10分, 而错误地判断为无差异的概率β =0.20,则 应各抽多少被试(据同类考试结果估计两 地区标准差S1=S2=14.3)
当 H1 为真时,即 X 与 存在差异,这时若拒绝 H1,则犯第 二类型的错误, SE X
X
SE X
X X
Z
假设 H0 和 H1 分布所对应的标准误相同,将上面两式相加, 可以得到: 记
Z / 2 Z
X ,在总体标准差已知的情况下,可以得到:
X
,当
总体正态分布总体方差已知时,如果以 95%的置信度,那么
Z n /2 d
2
Hale Waihona Puke 可以看出,在进行平均数估计时,当Alpha确 定后,总体标准差和最大允许误差d是决定样 本容量时的因子。
假设检验
当 H0 成立时,允许犯第一类错误的概率为 ,则:
X Z / 2 SE X
确定样本容量的基本问题
• 确定样本容量时应该考虑的因子
– 以抽样方式所进行的调查或实验研究,就其目 的而言可大致分为两种类型: (1)为了对总体的某个参数进行估计或预测, 即参数估计的问题; (2)检验统计量之间的差异,即假设检验的问 题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
18
抽样分布的概念
总体分布
总体中全部单位的频率分布,平均数为µ,标准差σ
样本分布
单个样本中所有单位的频率分布,具体的分布形式依赖 于总体分布。
抽样分布
一个总体中许多独立样本均值的理论分布。在大样本的 情况下,其分布近似服从于正态分布。
19
抽样分布的概念
如果样本是随机的且容量足够大,则样本均值的分布 近似于正态分布 理论基础是中心极限定理:随着样本容量的增加,从 任一总体中抽取的大量随机样本平均数的分布接近服 从正态分布。
任何正态分布都可以转化为标准正态分布 均值等于0 标准差等于1
17
置信区间的概念
是一个范围,其终点指定了对于一个问题的某 一应答百分率。 正态曲线的属性是,标准差的1.96倍从理论上 表示95%的分布终点,标准差的2.58倍表明了 99%的分布终点。 95%的置信区间 的置信区间=1.96个标准差 (±)均值 的置信区间 个标准差 ± 均值 99%的置信区间 的置信区间=2.58个标准差 (±)均值 的置信区间 个标准差 ± 均值 以95% 来举例说明。
第七章 样本设计
——样本容量的确定
1
确定概率抽样的样本容量
样本容量不能决定代表性,但可影响结果的精度。 样本的精度
样本的统计量(如对一特定问题回答的平均数)与其所 代表的总体的值的接近程度。 大样本比小样本更精确,但是没有成倍的关系。
财务和统计问题
一般原则: 样本越大,抽样误差越小 样本大,耗费的成本也高 抽样成本随样本容量直线递增,抽样误差却只是以样本 量增长速度的平方根递减
Sx =
pq 1 = n n CN
( pi − P)2 ∑
i =1
CN
Sp百分率标准误差;p为样本中的百分率;q=1-p; n 为样本容量。 例:假设抽选中的100名驾驶者中有40%的人表示其汽车上 配有辐射状轮胎。则标准误差为:=4.899
22
计算样本容量——均值问题
∵ x ~ N (µ , x −µ
在简单随机抽样的条件下,样本容量为
n
=
Z2 σ2
h2
其中: 其中 Z = 标准误差的置信水平 σ = 总体标准差 h = 允许误差(可接受误差水平) 允许误差(可接受误差水平)
24
计算样本容量——均值问题
置信水平Z和误差E的确定需要由调研人员同客 户进行磋商后确定,要在精确度、置信度和成 本之间进行衡量。 估计总体标准误差的四种方法
1 Sx = = n CN n
σ
( xi − X )2 ∑
i =1
n CN
由于总体标准差σ是未知的,一般由样本标准差s代替。 例如:驾驶里程调查中,样本容量n是100名驾驶者,标 准差是3000公里,则平均数标准误差=300。
21
平均数或百分率标准误差的概念
标准误差还适用于研究百分率的调查,称之为百分率标 百分率标 准误差。 准误差。 n
汽车行驶的里程数。
受访者的回答可以制成图表。
7
图7.1 年驾驶里程分布阐明了差异性
如果多数回答都接近于同一个数字,而且大多数的回答 者都集中在某一小范围内,则差异性小;反之,则差异 性就大 8
图7.2 分布的伸展反映了差异性总 和
9
传统统计方法
差异性
差异性的基本概念就是指回答的相似程度。差 异性小意味着回答相当相似,差异性大表示回 答很不相似。 如果答案曲线图显示十分集中或呈“尖峰”状 态,则差异性小。如果曲线图显示受访者在各 种可能的答案选项间平均分布,则差异性大。 测量差异性的指标——标准差
14
正态分布重要的原因
许多变量的概率分布趋于正态分布。爱吃快餐 的人平均每月吃快餐的次数,每星期看电视的 小时数,男性身高的分布等。 中心极限定理—对于任何总体,不论其分布如 中心极限定理 何,随着样本容量的增加,抽样平均数的分布 趋近于正态分布
15
正态分布
f (x) = 1 2πσ
2 1 − 2 ( x−µ )2 2σ
5
确定概率抽样的样本容量
传统统计方法
运用以下概念来创见一个有效的样本。
总体标准差的估计值 抽样误差的允许范围 抽样结果在特定范围内的预期置信度
6
传统统计方法
差异性
指受访者对某一特定问题的答案在相异性(或相似 性)方面的总括。 对于有明确答案选项的资料。
你购买可乐是否选择“可口可乐?”
区间性资料、具有多种选项的资料
3
确定概率抽样的样本容量
约定式方法
认为某一个“约定”或某一个数量就是正确的 样本容量。 样本容量是一个恒量,不受总体容量的影响, 但也是其缺点,总体容量可能少于恒量;精度 的要求也会发生变化。
4
确定概率抽样的样本容量
成本基础法
将成本作为确定样本容量的基础。 样本容量的确定不是将调查所获得的信息的价 值作为首要考虑因素,而是把预算作为考虑因 素,通常会忽视调查结果对管理决策的价值。 如何才能在不考虑成本的情况下确定样本容量?
e
, −∞ < x < ∞
f (x)
•f(x) = 随机变量 X 的频数 •µ = 正态随机变量X的均值 •σ 2= 正态随机变量X的方差 •π = 3.1415926; e = 2.71828 •x = 随机变量的取值 (-∞ < x < ∞)
x
x
利用以前的结果 2. 进行试验性调查 3. 利用二手资料 4. 通过判断,把许多管理人员的判断集中起来进 行分析
1.
25
例如:估计快餐族平均每月吃快餐的平均次数: 与公司的管理者进行磋商后,市场调研经理认为有必要估计 一下吃快餐的平均次数。考虑到管理者对精确度的要求,他 规定估计值不得超过实际值的0.10。这个值将作为h带入公式。 此外,市场调研经理还认为,考虑全局,需要把实际总体平 均值在区间以内的置信度定为95%。而若要置信度为95%, 就必须是在2倍标准误差范围内(严格为1.96)。因此2作为 Z值代入公式 最后确定公式中的σ值,幸好公司做过类似的调查。调查对 象是最近30天内吃快餐的平均次数。标准差为1.39,带入样 本容量的公式。经过计算,可知样本容量为722时,可以满 足提出的要求。
2
确定概率抽样的样本容量
样本容量的确定通常是介于理论上的完善方案与 实际上可行方案之间的一个折中方案
教条式方法
以“经验性”为幌子,认为样本容量应该是“为 保证精度,一般至少应该是总体的5%” 例如关于鞋子的调查:1万名铁人三项运动员;耐 克对“飞人乔丹”进行调查,200万名潜在的篮 球鞋购买者 简单易行,但不是一种高效率、经济的方法,教 条式方法忽略了抽样的精确度问题。
σ
n
2
)
∴
σ
x −µ n
~ N (0 ,1)
即 p{
σ
≤ Z} = 1−α
n 则 µ 的 置 信 度 为1 − α 的 置 信 区 间 为 : {x − Z ⋅ σ n , x + Z ⋅σ n } 令 h=Z ⋅ σ n
Z2 ⋅σ h为 可 接 受 的 误 差 水 平 , 则 n= h2
23
计算样本容量——均值问题
Sx 其均值为 µ ,且标准差等于: n为样本容量, σ为总体的标准差
=
σ
n
σ2
n )
x ~ N (µ ,
20
平均数或百分率标准误差的概念
实际总体值与所预期的典型样本结果的差距。 实际总体值与所预期的典型样本结果的差距。
平均数标准误差,即样本均值的标准差(抽样误差)。 平均数标准误差,即样本均值的标准差(抽样误差)。
( x i - x )2 ∑ 标准差=
i=1 n
n −1
10
如何运用标准差来测定差异性呢?
将两个样本的标准差进行比较,以判定相关的差异 性。
11
传统统计方法
比较两个图形,可以得出结论: 在1955年汽车拥有者的驾驶里程较少(平均),而且 差异性也不大(标淮差),但现在的车主们年平均驾 驶里程较多,差异性也较大。
12
正态分布的特征(根据以上图形)
1. 2.
3.
4.
正态分布呈钟形且只有一个众数 关于均值对称,集中趋势的三个衡量标准 (平均数、众数、中位数)相等 一个正态分布的特殊性由其均值和标准差决 定 正态曲线下方的面积等于1
13
5.正态曲线下方任意两个变量值之间的面积,等 于在这一范围内随机抽取一个观察对象的概 率 6.在均值的给定比例标准差范围内的概率为固定 值。即所有的正态分布在平均数+-1个标准差 之间的面积相同,都占曲线下方面积的 68.26%,或者说占全部调查总体结果的 68.26%。这叫正态分布的比例性。
26
计算样本容量——比率问题
n
=
Z2 PQ
h2
保守估计可取P值为.50 保守估计可取 给定 Z 和 E, P 将得到最大可能样本 P=0.50 将会使 将会使PQ 最大
27