抽样估计与样本量确定(市场调查)
抽样样本量的确定_图文
除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
表3: 显示了不同规模的总体在P=0.5时,使用简单随机 抽样,且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量
总体规模 50 100 500
1,000 5,000 10,000 100,000 1,000,000 10,000,000
所需的样本量 44 80 222 286 370 385 398 400 400
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽 可能使之最小化
对于小规模总体,通常必须调查较大比 例的样本,以取得所期望的精度。因此,实 际操作中,对小规模总体经常采用普查而不 是抽样调查。
6.样本设计和估计量
计算样本容量时,通常假定采用的抽样方式为简单随 机抽样(SRS)。所以,如果样本容量计算公式假定为简单随 机抽样。
分层抽样得到的估计值通常比相同规模的简单随机抽 样更精确,或者至少 一样精确。 整群抽样得到的估计值,其精度通常低于使用同一估 计量进行估计时的简单随机抽样的估计值的精度
第10章 抽样估计与样本量确定
19
10.4 参数估计
参数估计就是根据从样本中收集的信息对总体参数进行推 断的过程。根据中心极限定理等推断理论所阐明的抽样分 布与总体分布之间的关系,由样本统计量的具体值(估计 值)估计总体参数。 点估计 区间估计
20
点估计
用样本的估计量直接作为总体参数的估计量。 存在抽样误差。 在点估计的基础上,对总体参数的区间或范围 进行估计(样本统计量加减抽样误差),点估计 值落在该区间范围内的概率为置信度或置信系 数或置信水平。
26
举例P227
已知:n 36,1 95%, 2 0.025,1 2 0.975. 根据样本计算得: x 39.5, s 2 60.37.
2 查 2分布表得知: , 12 2 n 1 20.6120 . 2 n 1 53.1604
课后思考与训练题 P237-238 第4、5、7题
28
10.5 样本量的确定
样本量的确定问题,首先涉及对总体参数估计值的精度要 求,同时也涉及与各种运作限制(如可获得的预算、资源 和时间)之间的平衡问题。 抽样调查估计值的精度是对抽样误差大小的度量。因此确 定样本量是为控制抽样误差,而不是非抽样误差。
该银行信用卡年龄方差 2在95%置信度下的置信区间为 : 53.1604 20.6120 即, 39.75 2 102.51
36 -1 60.37 2 36 -1 60.37
结论是:在95%的置信度下,信用卡用 户年龄标准差为 6.3 ~ 10.1岁.
27
练习题
12
10.3 抽样分布与抽样误差
总体分布:总体各单位的观测值所形成的频数分布。 样本分布:一个样本中各个观测值形成的频数分布。 抽样分布:样本统计量的抽样分布是一种理论分布,是指 在重复抽取容量为n的样本时,由该统计量的所有可能取 值形成的相对频数分布。
第五章 抽样:样本容量的确定(市场调研-北京大学,胡健颖)
9
第五章 抽样:样本容量的确定
3) 均值或比例的标准误差(standard error) ,或抽 样平均误差,公式为: 均值 比例
x
n
P
P(1 P) n
2014-2-6
北京大学光华管理学院 胡健颖
10
第五章 抽样:样本容量的确定
4) 通常总体标准差 σ 是未知的,在这种情况下,可以通过 下面的公式从样本中估计总体的标准差: 均值 比例
思考题: ① 迪斯尼世界的调查表明,有 60%的老顾客喜欢玩滑行铁道。 若要求误差不超过 2%, 置信度为 90% (Z 值查参考书 552 页) , 求所需的样本容量。 ② 客户要求置信度为 99%,允许抽样误差为 2%,按此计算出 需要样本容量为 500,调查费用是 20,000 美元,但他只有 17,000 美元的预算,问有没有其他方案可供选择? ③ 在具有什么条件下,进行调查前就可以将样本容量确定下 来?
在确定估计比例所需的样本容量时有一个优势:如果缺乏估计 P 的依据,可以对 P 值做最糟糕的假设。给定 Z 值和 E 值,P 值 为多大时要求的样本容量最大呢?当 P=0.05 时, “P(1-P)”有极大 值 0.25 存在。
2014-2-6
北京大学光华管理学院 胡健颖
30
第五章 抽样:样本容量的确定
2014-2-6
北京大学光华管理学院 胡健颖
25
第五章 抽样:样本容量的确定
表 5-1 1000 个样本平均数的概率分析:最近 30 天内吃快餐的平均次数 次数分组 2.6-3.5 3.6-4.5 4.6-5.5 5.6-6.5 6.6-7.5 7.6-8.5 8.6-9.5 9.6-10.5 10.6-11.5
抽样数量的确定
抽样数量的确定探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。
针对子样本分析比只限于对总样本分析,所需样本量要大得多;总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。
简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。
在实际中,在确定样本量时,不考虑时间和费用这两个极为重要的因素是不可思议的。
最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。
最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。
有关样本量的经验估计:如果是大型城市、省市一级的地区性研究,样本数在500-1000之间可能比较适合;而对于中小城市,样本量在200-300之间可能比较适合;如果是多省市或者全国性的研究,则样本量可能在1000-3000之间比较适合。
对于分组研究的每组样本量应该不少于50个。
通过试验设计所作的研究,可以采用较小的样本量。
如产品试用(留置)调查,在经费有限的情况下,可以将每组的样本量降低至30个左右,最好每组在50以上,每组超过100个可能是一种资源浪费。
样本量的计算公式:1)对于简单随机抽样,给定均值估计的精度(100%回答)简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。
其中,为置信区间的值,为估计量的标准差,e为调查误差,N为总体大小。
2) 对于简单随机抽样,给定比例估计的精度(100%回答率)于是公式(1)变为:若在以往调查中可得总体比例的一个较好估计,那么直接将它代入上面的公式就可以得到所需的样本量;否则可以用,因为这时总体的方差最大。
则公式简化成市场调研中常采用该公式来确定最低样本量。
市场调研样本容量的确定
怡丰城市场调研样本容量的确定在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。
在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。
若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。
当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。
一、影响样本容量的因素(一)总体的变异程度(总体方差)在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。
例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。
所以,当总体方差较大时,样本的容量也相应要大,这样才会使较小,以保证估计的精确度。
(二)允许误差的大小允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的允许误差可以表示为,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。
允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。
(三)概率保证度1-α的大小概率保证度说明了估计的可靠程度。
所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。
(四)抽样方法不同在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。
重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。
二、样本容量的计算在计算样本容量时,必须知道总体的方差,而在实际抽样调查前,往往总体的方差是未知的。
在实际操作时,可以用过去的资料,若过去曾有若干个方差,应该选择最大的,以保证抽样估计的精确度;也可以进行一次小规模的调查,用调查所得的样本方差来替代总体的方差。
抽样样本量的确定
SSI
精品
第33页
7.回答率
所有的调查都会遇到无回答的困扰即: 由于某些原因,不能获得被抽中样本单位的信息
当一个被调查单位的所有或几乎所有的数据都缺 失时,我们就称之为完全无回答(或称单位无回答)
培训访员,等等),这样做可能更有效率
SSI
精品
第21页
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
SSI
精品
第22页
我们来看假设有一个首次开展的调查,试图估 计对某企业提供的服务持满意态度的顾客比例。对 “顾客满意”这一指标,设置两个可能的值:满意 或者不满意。
❖ 整群抽样得到的估计值,其精度通常低于使用同一估 计量进行估计时的简单随机抽样的估计值的精度
SSI
精品
第32页
设计效果因子
一般来说,当样本容量的计算公式假定为简单随机抽样SRS, 但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应
该乘以设计效果因子。
设计效果=对于同样规模的样本容量,给定样本设计下 估计量的抽样方差对简单随机抽样估计量的 抽样方差的比率。
其中,总体方差S2是最不容易得到的,通常需要根 据过去对类似总体所做的研究作近似计算。
SSI
精品
第39页
求比例样本容量的确定
下面用一个例子,说明估计比例问题时样本容量的确定过程。
在这一例子中,所需的精度是根据误差界限确定的,所研究的指标 取两个值,即P和1-P。 在这种情况下,对于大总体,且估计量服从正态分布时, P的总体方差为:
如何确定抽样方法与样本量
如何确定抽样方法与样本量在设计一个抽样调查时,我们通常需要做的工作是:定义总体及抽样单元、确定或构置抽样杠、选择样本量的大小、制定实施细节并实施。
在这本小册子中我们着重介绍一下定量研究的抽样和样本量这两个技术环节。
最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。
一.非概率抽样非概率抽样是不能计算抽样误差的,因为它是靠调研者个人的判断来进行的抽样。
它包括偶遇抽样或者方便抽样、判断抽样、配额抽样、雪球抽样等。
偶遇抽样(方便抽样)常见的未经许可的街头随方或拦截式访问、邮寄式调查、杂志内问卷调查等都属于偶遇抽样的方式。
偶遇抽样是所有抽样技术中花费最小的(包括经费和时间)。
抽样单元是可以接近的、容易测量的、并且是合作的。
但尽管有许多优点,这种形式的抽样还是有严重的局限性。
许多可能的选择偏差都会存在,如被调查者的自我选择、抽样的主观性偏差等。
这种抽样不能代表总体的推断总体。
因此,当我们在进行街头访问或邮寄调查时,一定要谨慎对待调查结果。
判断抽样判思抽亲是基于调研者对总体的了解和经验,从总体中抽选“有代表性的”“曲型的”单位作为样本,例如从全体企业作为样本,来考察全体企业的经营状况。
如果判断准,这种方法有呆取得具有较好代表性的样本,但这种方法受主观因素影响较大。
配额抽样配额抽样是根据总体的结构特征来给调查员分派定额,以取得一个与总体结构特征大体相似的样本,例如根据人口的性别、年龄构成来给调查员规定不同性别、年龄的调查人数。
配额保证了在这些特征上样本的组成与总体的组成是一致的。
一旦配额分配好了,选择样本元素的自由度就很大了。
唯一的要求闵是所选取的元素要适合所控制的特性。
这种抽样方法的目的是使样本对总体具有更好的代表性,但仍不一定能保证样本就是有代表性的。
如果与问题相关联的某个特征是十分困难的。
另外,用这种方法进行选择严格控制调查员和调查过度程的条件下,可使配额抽样获得与某些概率抽样非常接近的结果。
市场调查与分析抽样技术
市场调查与分析抽样技术
什么是分层抽样和分层随机抽总体均值或总量的估计—估计
市场调查与分析抽样技术
对总体均值或总量的估计—无偏性
市场调查与分析抽样技术
对总体均值或总量的估计—方差
市场调查与分析抽样技术
对总体均值或总量的估计—方差估计
市场调查与分析抽样技术
对总体比例的估计—无偏性
市场调查与分析抽样技术
对总体比例的估计—方差
市场调查与分析抽样技术
对总体比例的估计—方差估计
市场调查与分析抽样技术
分层抽样与简单随机抽样比较
市场调查与分析抽样技术
市场调查与分析抽样技术
若
市场调查与分析抽样技术
如果不考虑近似的因素
市场调查与分析抽样技术
各层样本量的分配
求出所需样本的平均含量? 是P的无偏估计
市场调查与分析抽样技术
分层抽样
分层抽样是对所要认识的总体,利用已知总体 有关调查指标的信息,先依据某种标准把总体划分 若干层,然后在每一层中随机抽出一部分样本单位 构成样本的一种抽样方法。
分层抽样的特点和适用场合: ❖可以得到层的数据 ❖便于组织,方便实施管理 ❖样本更具代表性 ❖提高精度
最优分配—总体比例时的情形
比例分配—分配
市场调查与分析抽样技术
比例分配—自加权样本
市场调查与分析抽样技术
比例分配—方差及估计
市场调查与分析抽样技术
比例分配—估计总体比例时的情形
市场调查与分析抽样技术
最优分配—分配
市场调查与分析抽样技术
市场调查与分析抽样技术
最优分配—Neyman分配
市场调查与分析抽样技术
市场调查与分析抽样技术
Polize-Simmons校正方法
《市场调查与预测》课程教学大纲
《市场调查与预测》课程教学大纲课程名称:市场调查与预测课程代码:1739041课程类型:专业核心课学分:3.5 总学时:64 理论学时:48 实践学时:16先修课程:市场营销学适用专业:市场营销一、课程性质、目的和任务本课程是市场营销专业的专业核心课。
通过本课程的学习,应使学生比较全面系统地掌握市场调研的基础理论和基本方法,在市场营销活动中经常应用的调查、测量方法,同时具备分析基础数据和撰写调查报告的能力。
培养学生严谨的市场调查研究的态度和职业素质。
二、教学基本要求1.知识、能力、素质的基本要求本课程是市场营销专业课程,通过对市场调查的基本概念、调查内容、调查方法技巧、调查过程特点及其每一阶段的具体操作(包括调查方案企划设计、调查抽样、调查实施、调查资料整理设计分析、调查报告书撰写)等方面知识技能的讲解分析与实践训练使学生能够理解掌握现代市场调查的专业知识与专业操作技能技巧,并能比较熟练且规范地开展各种类型的市场调查。
2.教学模式基本要求本课程在学科体系上属于市场营销的一个分支,但其内容又与多种学科相融合,涉及《市场营销学》、《心理学》、《统计学》等多学科的知识,所以,在本课程的教学过程中,应注意其学科特点与学习方法,重点系统论述市场调研与预测的基本理论、方法和技术。
3.考核方法基本要求成绩评定包括平时考查、期中考试和期末考试3种形式。
平时考查成绩占总成绩的20%,期中考试占总成绩的20%,期末考试成绩占总成绩的60%。
其中平时过程性考查主要课堂出勤10分;课后作业、课堂讨论、课内实践等综合评定10分。
平时考核要求作业最少8次,少一次作业扣2分,作业完成质量不高每次扣1分,扣完10分为止;旷课一次扣2分,迟到一次扣1分,扣完10分为止。
三、教学内容及要求第1篇市场调查设计总论第1章市场调研职能1.教学内容1.1 市场调研及其基本分类 1.2 市场调研的功能与价值1.3 市场调研的局限 1.4 市场调研的历史与现状2.教学要求了解市场、市场信息的概念;了解市场调研的历史与现状;理解市场调研的功能与价值;掌握市场调研的含义及基本分类。
在市场研究中样本量的确定
在市场研究中,常常有客户和研究者询问:“要掌握市场总体情况,到底需要多少样本量?”,或者说“我要求调查精度达到95%,需要多少样本量?”。
对此,我往往感到难以回答,因为要解决这个问题,需要考虑的因素是多方面的:研究的对象,研究的主要目的,抽样方法,调查经费…。
本文将根据自己的经验,探讨在市场研究中确定调查所需样本量的一些基本方法,相信这些方法对于其他的社会调查研究也有一定的借鉴意义。
确定样本量的基本公式在简单随机抽样的条件下,我们在统计教材中可以很容易找到确定调查样本量的公式(1):其中:n:代表所需要样本量Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96,99%的Z为2.68。
S:总体的标准差;d :置信区间的1/2,在实际应用中就是容许误差,或者调查误差。
对于比例型变量,确定样本量的公式为(2):其中:n :所需样本量Z:置信水平的z统计量,如95%置信水平的Z统计量为1.96,99%的为2.68p:目标总体的比例期望值d:置信区间的半宽关于调查精度通常我们所说的调查精度可能有两种表述方法:绝对误差数与相对误差数。
如对某市的居民进行收入调查,要求调查的人均收入误差上下不超过50元,这是绝对数表示法,这个绝对误差也就是公式(1)中置信区间半宽d。
而相对误差则是绝对误差与样本平均值的比值。
例如我们可能要求调查收入与真实情况的误差不超过1%。
假定调查城市的真实人均收入为10000元,则相对误差的绝对数是100元。
公式的应用方法对于公式的应用,一些参数是我们可以事先确定的:Z值取决于置信水平,通常我们可以考虑95%的置信水平,那么Z=1.96;或者99%,Z=2.68。
然后可以确定容许误差d(或者说精度),即我们可以根据实际情况指定置信区间的半宽度d。
因此,公式应用的关键是如何确定总体的标准差S。
如果我们可以估计出总体的方差(标准差),那么我们可以根据公式计算出样本量:例如:要了解该城市的居民收入,假定我们知道该市居民收入的标准差为1500,要求的调查误差不超过100元,则在95%的置信水平下,所需的样本量为:即需要调查的样本量为864个。
-抽样调查中样本容量的计算
-----------------------------------Docin Choose -----------------------------------豆 丁 推 荐↓精 品 文 档The Best Literature----------------------------------The Best Literature2009年第9期科技经济市场一种合理、可行的抽样方案,不仅需要针对调查对象选择适宜的抽样方法,还应根据调查研究的精度及预算情况来决定样本容量。
我们知道,在系统误差确定的条件下,抽样的准确性取决于抽样误差,抽样误差又与样本容量有直接关系。
若样本容量过大,会使得实施难度增大,增加经费的开支;而若样本容量过小,可能会影响样本的代表性,使抽样误差增大,影响了调查研究推论的精确性。
因此在实际工作中,如何确定样本容量是很重要的。
下面就对两种抽样情况进行分析,讨论如何确定样本容量。
1简单随机抽样时样本容量的计算1.1重复抽样假设(x 1,x 2,…,x n )是来自于总体的一个简单随机抽样,而总体的期望为μ,方差为σ2。
根据中心极限定理,即从正态总体中,随机抽取样本容量为n 的样本,则样本均数x 服从正态分布。
若当n 足够大时,即使是从偏态总体中抽样,样本均数x 也近似服从期望为μ,方差为的正态分布,即,转化成标准正态分布,则有。
根据统计学中区间估计知识可知:。
(1-α为置信水平)(1)从另一个角度来看。
在一定的置信概率条件下,抽样允许的最大误差称为抽样极限误差,或称允许误差,一般用△表示,而平均数的抽样极限误差就可以用△x 来表示。
由于总量指标是一个确定的值,抽样指标是围绕总体指标波动的随机变量。
那么,抽样指标与总体指标离差的绝对值就是抽样误差的可能范围。
抽样均值的极限误差△x 可表示为△x =|x-μ|。
根据△x 的定义可知:(2)比较(1)式和(2)式,可以得到:,即:(3)1.2不重复抽样当采用不重复抽样时,x 的方差为,即。
市场调研中的样本选择与样本量确定
市场调研中的样本选择与样本量确定市场调研在确定目标受众和进行市场分析时起到了至关重要的作用。
其中,样本选择和样本量的确定是市场调研过程中必不可少的环节。
本文将就样本选择和样本量确定的原则和方法进行探讨,以帮助读者更好地进行市场调研。
一、样本选择的原则和方法在市场调研中,样本选择是一项极为重要的工作,其结果的准确性直接影响到调研结果的可靠性。
以下是样本选择的原则和方法。
1. 代表性原则样本选择的首要原则是代表性。
样本的代表性要求能够真实反映总体的特征和分布情况。
为了确保样本代表性,我们需要根据所研究的对象的特点,选择具有相似特征的人群或单位作为样本。
2. 随机性原则样本选择中的随机性原则是指每个个体或单位都有相同的机会被选择为样本,避免主观或偏见的干扰。
常用的随机化方法有简单随机抽样、分层抽样、整群抽样等,根据实际情况选择适当的方法。
3. 多样性原则样本选择中的多样性原则是指样本需要具有一定的多样性,可以覆盖不同地区、不同性别、不同年龄、不同职业等因素。
这样可以提高样本选择的可靠性和代表性。
二、样本量的确定样本量的确定是市场调研中关键的一环。
合理的样本量可以保证调研结果具有一定的可信度和统计学意义。
以下是样本量确定的原则和方法。
1. 总体大小原则样本量的确定需要考虑总体的大小。
当总体较大时,相同的误差水平需要较大的样本量,以保证结果的精度。
相反,当总体较小时,相同的误差水平需要较小的样本量。
2. 信心水平和置信度原则样本量的确定还涉及到信心水平和置信度的考虑。
信心水平是指调研结果的可靠程度,常见的信心水平有95%和99%。
置信度是指在样本误差范围内,对总体的估计结果。
3. 调查方法和目标变量原则样本量的确定还需要根据调查方法和所要研究的目标变量来确定。
不同的调查方法和目标变量会对样本量的要求产生不同的影响。
一般来说,较为复杂的调查方法和目标变量需要更大的样本量。
三、总结市场调研中的样本选择和样本量的确定是确保调研结果可靠性的重要环节。
抽样方法与样本容量的确定
抽样是通过抽取总体中的部分单元, 收集这些单元的信息,用来对作为整体 的总体进行统计推断的一种手段。本章 讨论了抽样的基本问题。 Sampling is a means of selecting a subset of units from a population for the purpose of collecting information for those units, usually to draw inference about the population as a whole.
非概率抽样的优点是: The advantages of non-probability sampling are that:
快速简便; 费用相对较低; 不需要抽样框; 对探索性研究和调查的设计开发很有用。 It is quick and convenient It is relatively inexpensive It requires no sampling frame It can be useful for exploratory studies and survey development
抽样的两种主要类型是概率抽样与 非概率抽样。 There are two types of sampling: nonprobability sampling and probability sampling
非 概 率 抽 样 non-probability 的用途是有限的,因为抽选单元的 倾向性不允许对调查总体进行推断。 然而非概率抽样快速简便,对探索 性研究很有用,特别是在市场调查 中应用非常广泛。
1.随意抽样Haphazard sampling
抽样样本量的确定
抽样样本量的确定
确定样本量的方法有很多种,下面将介绍其中几种常用的方法:
1.点估计方法:这种方法假设总体参数已知或已经进行过先前的研究,通过计算得到一个点估计值,并根据误差容忍度和置信水平来计算样本量。
例如,如果要估计一个总体比例的点估计值,可以通过以下公式计算样本量:n=(Z^2*p*(1-p))/E^2,其中Z为置信水平对应的标准正态分布的分
位数,p为总体比例的估计值,E为允许的误差容忍度。
2.回归分析方法:当研究中涉及到自变量和因变量之间的关系时,可
以使用回归分析方法来确定样本量。
这个方法基于回归模型的统计力学,
通过指定预期的效应大小、误差容忍度和显著性水平来计算样本量。
3.探索性研究方法:对于探索性研究,通常没有先验的参数估计值可
以使用,因此无法使用点估计方法来确定样本量。
在这种情况下,研究者
可能需要基于经验或者判断来确定样本量。
除了以上几种方法,还有一些特殊的情况需要考虑,如多层抽样、群
组随机化实验等,这些情况下样本量的确定方法可能会有所不同。
总之,确定样本量需要综合考虑多个因素,并利用相关的统计方法来
进行计算。
在实际应用中,需要根据具体情况选择合适的方法,并确保样
本量足够大以获得可靠的统计结果。
抽样调查样本量确定.
抽样调查样本量确定.抽样调查样本量的确定在贸易统计中,对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。
然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。
经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。
一、样本单位数量的确定原则一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。
以及实际操作的可行性、经费承受能力等。
根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。
实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。
但是这只能原则上确定样本量大小。
具体确定样本量还需要从定量的角度考虑。
从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。
归纳起来,样本量的大小主要取决于:(1研究对象的变化程度,即变异程度;(2要求和允许的误差大小,即精度要求;(3要求推断的置信度,一般情况下,置信度取为95%;(4总体的大小;(5抽样的方法。
也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。
抽样估计与样本量确定
使用辅助信息调整权数
[例10.5] 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=780人的名录中抽出了一个n=100人的简单随机样本。 在收集有关吸烟习惯信息时,收集了每个回答者的年龄和性别情况,且100人都做出了回答,由此得到样本数据的分布如表10-3所示:
*
10.3 抽样分布与抽样误差
统计量 ~t(n-1)
总体置信区间 μ= ±
*
总体均值的区间估计例题
[例10.7] 某银行收集到由36信用卡用户组成的随机样本,得到各用户年龄(周岁)数据如下 23,35,39,27,36,44;36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32。 试建立信用卡用户年龄90%的置信区间。
参数估计有两种估计方法: 点估计 区间估计
*
总体参数的点估计
点估计就是用样本的估计量直接作为总体参数的估计值。例如,用样本均值直接作为总体均值的估计,或者用两个样本均值之差直接作为总体均值之差的估计。
点估计是容易做到的,但是,点估计没有给出估计值接近总体参数程度的信息。
当样本均值与总体均值不完全相同时,样本均值与实际总体均值就存在着差距,形成抽样误差。
*
使用辅助信息调整权数
为什么要使用辅助信息来调整权数呢? 首先,使调查的估计值与已知总体总值相匹配。例如,使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分布等)的一致性。 二是为了提高估计值的精度。将辅助信息与抽样设计相结合,将有助于提高估计的精度。 要想在调查设计阶段使用辅助信息,抽样框中的所有单元都必须具备这个辅助信息。否则,就只能在数据收集上来后,在估计阶段利用辅助信息提高估计值的精度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
MRAF
第10章 抽样估计与样本量确定
1
調查分析預測
开篇案例
“百脑汇”调研中的样本计划问题
MRAF
• ―百脑汇”在中国华北几个省市经营连锁电脑超市,它希 望获得更多关于其现有客户特点方面的信息。接受调研委 托的李文博士指派班上的王洪同学为样本计划小组的负责 人。 • 通过与“百脑汇”的市场部经理乔兰的初次会谈,王洪了 解到调研的一个主要目的是分别按人口和心理因素来估计 “百脑汇”的客户构成和比例。此外,确认总体估计值不 超过实际值的±5.0%,可靠度为95%。 • 为了达到这些要求,王洪和他的小组正努力寻找计算所需 样本容量的方法。
[例10.5] 计算过程
步骤 1:设计权数是入样概率的倒数,设计权数计算如下: wd=N/n=780/100=7.8 步骤 2:利用设计权数,计算得到调查估计值,如表10-4所示。 估计公司男女性职员各有429名和351名,且吸烟比例不同。 假定调查完成后,得到如下辅助信息:该公司实际共有360名男 性职员和420名女性职员。如何利用这个辅助信息呢? 步骤 3:对样本分层,计算事后分层权数用于估计。 事后分层权数W pst是事后层的辅助变量总和除以该层回答单元的 数量。 N 男性 360 w 6.55 其中,男性的事后分层权数为: pst ,男性 n r,男性 55 女性的事后分层权数为:w pst ,女性
表10-5 利用辅助信息对抽样调查估计值的调整
事后分层 估计值 吸烟人数 总人数 吸烟者比例
男性 164 360 0.455
女性 47 420 0.111
总计 211 780 0.271 12
在抽样后利用辅助信息计算分层权数用于估计,估计值如表10-5。
調查分析預測
MRAF
10.3 抽样分布与抽样误差
3
調查分析預測
MRAF
10.2 加权及权数调整
• 设计权数
– 设计权数是指每个样本单元所代表的调查总体的单元 数,它是由抽样设计所决定的,通常以wd表示。确定 设计权数是估计的第一步。
• 加权估计
– 设计权数其实就是样本单元的入样概率的倒数。假如 入样概率是1/10,那么每个入选样本代表总体中的10 个单元,此时设计权数即为10。 – 不同样本单元的设计权数可能不同,这取决于抽样设 计。因此,加权估计应区分等概率抽样的加权和不等 概率抽样的加权。
步骤1:计算设计权数。 入样概率p为:P=n/N=25/100=1/4 故,每个样本单元的设计权数为4。 步骤2:计算无回答调整因子。 由于在n=25人中只有nr=20人提供了 所需的信息,最终样本量应为20。假定回 答单元不仅能代表回答单元且能代表无回 答单元,计算无回答调整因子为: n / nr = 25/20 = 1.25 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数 与无回答调整因子的乘积:
– 设计权数×无回答调整因子=无回答的调整权数
• 无回答调整因子是原样本单元的权数和与给出回答的 单元的权数和的比值。对于自加权设计,该比值可用 原样本的单元数与给出回答的单元数的比值来表示。 • 无回答权数调整应区分两种不同情况:
– 等概率抽样 – 不等概率抽样
8
調查分析預測
MRAF
对无回答的权数调整(SRS)
表10-2 公交系统调查的分层数据 层 城市 农村 总体大小 N1=1000 N2=100 样本量 n1=200 n2=50 回答者数量 nr,1=150 nr,2=40
• [例10.4] 对于一项公共交通 系统调查,总体由1100人组成, 并按城乡分为两个层。分层及 样本数据如表10-2所示。那么, 回答者的权数是多少?
中心极限定理,概括为:
设从均值为、方差为 2的一个任意总体中随机抽取容量为n的样本, 当n足够大(n 30)时,样本均值的抽样分布近似服从均值为μ、方差 为σ2/n的正态分布。
16
調查分析預測
MRAF
样本比例的抽样分布
• 样本比例的抽样分布,是在重复抽取容量为n的样本时, 由样本比例的所有可能取值形成的相对频数分布。 • 比较样本比例的分布与总体分布,得出如下结论:
2
調查分析預測
MRAF
10.1 引言
• 估计就是根据从样本中收集的信息对 总体未知量进行推断的过程。 • 抽样估计涉及的重要问题:
– 一个样本单元的设计权数问题。 – 抽样估计,包括总体总量、均值和比例以及抽 样误差的估计。 – 样本量的确定构成抽样设计程序的重要步骤和 内容。同时,样本量的确定与样本估计值的精 度密不可分。
• 抽样调查的目的是要对总体做出推断。 • 了解统计推断的理论基础,首先注意区分三 种不同性质的分布:
– 总体分布 – 样本分布 – 抽样分布
• 同时,特别注意总体分布与抽样分布的关系。
13
調查分析預測
MRAF
三种不同性质的分布
• 总体分布:总体各单位的观察值所形成的频数分布,总 体分布通常是未知的。 • 样本分布:一个样本中各个观察值所形成的频数分布就 叫做。当样本容量n逐渐增大时,样本分布逐渐接近总 体的分布。 • 抽样分布:样本统计量的抽样分布,是指在重复选取容 量为n的样本时,由该统计量的所有可能取值形成的相 对频数分布。抽样分布是一种理论分布。 • 抽样分布提供了样本统计量长远而稳定的信息,是进行 推断的理论基础。
步骤1:各层的设计权数为: 城市层 wd,1=N1/n1==5 农村层 wd,2=N2/n2==2 步骤2:调整以弥补无回答。各层的无回答调整因子计算如下: 城市层:n1 / nr,1==200/150==1.33 农村层:n2 / nr,2==50/40==1.25 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:
– 当样本容量足够大时,样本比例的抽样分布近似地服从正态分布, 样本比例的数学期望等于总体比例,即E(p)=π;在重复抽样条件 下,样本比例的方差为总体方差的1/n,即
样本比例 的方差:
Sp
2
(1 )
n
样本比例 S 的标准误: p
(1 )
n
• 样本比例的中心极限定理
– 设从比例为π、方差为 2的一个任意总体中随机抽取容量为n的样 本,当n足够大(n 30)时,样本比例的抽样分布近似服从比例为π、 方差为(1-)/n的正态分布。
調查分析與預測 MRAF
从总体分布到抽样分布
[例10.6] 设一个总体,含有4个元素(个体) ,即总体单位数 N =4。4个个体分别为x1=1,x2=2,x3=3,x4=4。 可以计算总体均值、方差及其分布。
总体均值
x
i 1
N
P(x)
i
N
N
1 2 3 4 2.5 4
i
0.3 0.2 0.1
MRAF
设计权数的调整
• 上述等概率抽样的加权和不等概率抽样的 加权都是加权的基本形式。 • 权数估计常会遇到更真实和复杂的情况:
– 考虑无回答的情况,然后对权数做出调整; – 考虑来自其他渠道的、更具权威性的某些辅助 信息,将它们合并到权数中。
7
調查分析預測
MRAF
对无回答的权数调整
• 单元无回答是指一个样本单元几乎所有的数据都缺失。 简单的处理办法是忽略它。然而,如果发现忽略单元 无回答是不适当的,则应该对权数进行调整。即,
表10-6 各种分布的均值、比例和标准差的符号表示
分布类型
均值
比例
标准差
总体分布 样本分布
抽样分布
X
x
P
P
SX
S
SP
14
調查分析預測
MRAF
样本均值的抽样分布
• 样本均值的抽样分布,是 指在重复选取容量为n的 样本时,由样本均值的所 有可能取值形成的相对频 数分布。 • [例10.6]设一个总体, 含有4个元素,即总体单位 数N =4。4个个体分别为 x1=1, x2=2, x3=3, x4=4。 则总体分布如图10-1。 • 现在从总体中有放回地抽 取n=2的简单随机样本, 则样本均值的抽样分布如 图10-2。
城市层:
农村层:
w nr,1 w d,1
w nr,2
n1 5 1.33 6.67 n r,1 n w d,2 2 2 1.25 2.5 n r,2
10
調查分析預測
MRAF
使用辅助信息调整权数
• 为什么要使用辅助信息来调整权数呢?
– 首先,使调查的估计值与已知总体总值相匹配。例如, 使用最新的人口普查数据来调整估计值,以确保这些 估计值(如年龄、性别分布等)的一致性。 – 二是为了提高估计值的精度。将辅助信息与抽样设计 相结合,将有助于提高估计的精度。
N 女性 n r,女性 420 9.33 45
回答者数量
男性
女性
总计
吸烟人数
总人数 调查的估计值
25
55 男性
5
45 女性
30
100 (nr) 总计
表10-4 根据某公司吸烟习惯抽样计算的估计值
吸烟人数
总人数 吸烟者的比例
195
429 0.455
39
351 0.111
234
780 0.30
4
பைடு நூலகம்查分析預測
MRAF
等概率抽样的加权
• 当每个单元都有相同的入样概率时,所有样 本单元的设计权数都相同,这种抽样就是自 加权设计。
– SRS抽样和SYS抽样都属于自加权设计,比例分 层抽样也是自加权设计。 – 另外, PPS等也可以设计为一个自加权抽样。
• 对于自加权抽样设计,如果无需对权数调整, 则在计算比例、均值等估计量时可将其忽略, 对总值估计也仅需将样本总值乘上某个倍数。