抽样调查与样本数量的确定和抽样方法讲解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本r3 抽取的概率为P3 第四阶段:每个三级样本单位r3中随机抽取若干四级单位,其中 样
本r4 抽取的概率为P4
总体中个体被抽取的概率P, 要求P=P1 ·P2 ·P3 ·P4 =n/N
28.04.2020
P4 =
n/N P1 ·P2 ·P3
27
多阶段抽样举例
某省对农民家庭的调查,要从1700万户中抽取1000户。每户被抽 取的概率是P=n/N=0.1/17005.8810-5 。假定,总体按地理位置分 成东、西、南、北四层,第一阶段抽取30个县,第二阶段从每个 样本县中抽取5个乡,第三阶段从每个样本乡中抽取3个村,第四 阶段从样本村中按P4抽取若干户。前三个阶段可以采用等距抽样 或比例抽样。假定南部某村有250户,该村所在的乡有05万户,而 乡所在的县有10万户,该县所在的南部有320万户。
28.04.2020
6
总体定义举例
例:2000年中国18岁以上的女性(人口统计) 例:最近一个月出国旅游的上海居民(使用情况) 例:已经看到过某广告的消费者(认知度) 例:复旦大学在读的各类MBA学生
总体定义不清楚的举例
例:患高血压的上海居民
例:有神经性疾病的上海居民
例:上海的个体户
例:深圳市高收入的家庭
抽样框的作用是它使我们在抽样中,避免了直接对总体中 的个体这具体的对象进行抽样,借助相应的表达单元在书面就 可以进行抽样了(可以纸上谈兵)。
如,抽取复旦大学在读的MBA学生样本,就可以用他们的 花名册来进行。
28.04.2020
5
调查对象总体
在调查前,先要确定要调查的对象总体,即要对对象总体进行定 义,明确他们是由什么样的个体组成,他们的特征什么。
23
等距抽样问题及处理
存在的问题: S不是整数。
处理的方法:取 S 或 S +1,代替抽样的距离。如果所抽的样本不 够n,则将起始的元素补充到最后,仍按上述距离抽样直至满n为止。
利用矩阵处理:
1 2 3……k … … s s +1 …… 2k … … 2s
…… …… …… …… …… 2k ……ns
28.04.2020
16
分析工具中的抽样栏
28.04.2020
17
自无限总体的简单随机抽样
每个个体来自同一总体 抽样原则:
每个个体的选择是独立的
可以设计不同的方案,如:对某麦当劳店顾客的抽样 调查,抽样方法是,凡是用优惠券购买的顾客的后一 个顾客作为一个样本,如此抽取的样本符合要求。
28.04.2020
注:选择的抽样框可能存在缺陷。 多阶段抽样,每一阶段都可以构造相应的抽样框
28.04.2020
9
第三节 随机抽样方法
随机抽样
简单随机抽样 分层抽样 等距抽样
整群抽样
多级抽样
28.04.2020
10
抽样的类型
随机抽样 非随机抽样
简单随机抽样 分层抽样 等距抽样 整群抽样 多级抽样 便利抽样 判断抽样 配额抽样
引荐抽样
28.04.2020
31
非随机抽样
非随机抽样
便利抽样 判断抽样 配额抽样
引荐抽样
28.04.2020
32
案例:老外喜欢上海吗?
有一项数据认为,一个国际性大都市,其常住的外国人一般占总人 口的5%以上。而上海目前的比例还不到1%。
据统计,现在常年在上海的外国人在10万以上。而在20世纪40年代, 常住上海的外国人最多的时候是15万人。但到70年代未,这个数字曾一度 减少到700人。
已知清华学生20000人,复旦学生10000人,上海财大10000 人,北大25000人,长沙师范5000人,现随机抽取2个大学, 并对该大学的学生进行调查。
28.04.2020
26
多阶段抽样
定义:整群抽样后再对样本群进一步抽样的方法。 注意:为了保证总体中元素在多阶段的抽样中仍以n/N概率被抽取,
7 4
28.04.2020
13
简单随机抽样方法(随机数表法)
1、给总体中的个体编号,从1~ N,确定最大编号N是 几位数,小于这个位数的编号前面添加0,保持所有 编号的位数相同。
2、构造相同位数的随机数表。(可借助Excel) 3、从随机数表的任何一列和一行开始,然后依次选n
个随机数,这些随机数对应的元素就是我们的样本
抽样调查与样本数量的 确定和抽样方法讲解
28.04.2020
1
第一节 抽样调查的意义 第二节 调查对象总体和抽样框 第三节 随机抽样方法 第四节 非随机抽样方法 第五节 抽样误差与样本数量的确定
28.04.2020
2
第一节 抽样调查的意义
抽样调查就是对要调查的对象的总体中的部分进行调查,以此获 得研究所需的资料,通过推断也能估计总体的结果。抽样调查避 免了对全部对象调查所造成的费用、人力、调查对象损害等方面 的问题。
抽样调查的结果与实际结果总会有误差。它有两种类型的误差: •部分代替全部的不一致性造成的误差。 这种误差称为抽样误差。它的存在是不可避免的,我们只能通 过好的抽样方法来减少它,但如果是随机抽样,这种误差的大 小是可以估计的。 •调查过程中的方法和其它影响因素造成的误差。 这种误差称为非抽样误差。它的误差大小是很难估计的,但通 过努力是可以尽可能避免的。
在最后阶段的概率需要根据前面的几个阶段的抽样概率来确 定。比如,四阶段的随机抽样: 第一阶段:R个单位随机抽取若干个样本单位,其中 样本r1抽取的
概率为P1 第二阶段:每个一级样本单位r1中随机抽取若干二级单位,其中 样
本r2 抽取的概率为P2 第三阶段:每个二级样本单位r2中随机抽取若干三级单位,其中 样
意义在于: •调查对象的全部无法确定时,调查也能继续 •调查会损害调查对象时,能减少损害 •某种情况下,能使调查的误差更小 •省时、省力、省钱
抽样的原则
•经济性:按委托方要求,尽可能少的抽样
•代表性:代表性的强弱影响抽样调查的误差
28.04.2020 •便利性:样本要可接触和容易接触
3
抽样调查的误差
该县户数 P1 = 所在层的总户数
该乡户数 P2 = 所在县的总户数
该村户数 P3 = 所在乡的总户数
(该层应抽县数) (该县应抽乡数) (该乡应抽村数)
28.04.2020
28
计算表
按地理位置分层 各层应抽县数 各县被抽中的概
率P1
P2
P3
P4 户数
第一阶段(从全省抽30县)
东部410万户 西部510万户 南部320万户
可以获得总体清单?
28.04.2020
7
抽样框的构造
抽样框构造的要求
有明确表达单元与总体中的个体对应 总体中一个元素只对应一个表达单元 抽样框包含总体 抽样框的表达单元的清单容易得到
28.04.2020
8
抽样框的举例
例:上海居民家庭的抽样框:电话号码 例:复旦大学在册的大学生抽样框:学生的学号 例:患高血压的上海居民的抽样框:上海医院及就诊的患者名单
28.04.2020
抽样调查 的总误差
误差公式:E= E1 + E2
抽样误 差
非抽样误差
4
第二节 调查对象总体和抽样框
调查对象的总体:或称同质总体,是某项调查所要调查的 全体对象,我们希望从他们那里获得研究所需的信息。
例:调查今年上海市的外资企业,总体是今年上海市外资 企业。
抽样框:它是总体中个体的一种表达机制,如它们的目录、 名单或清单等,它把总体中的个体与某种表达的单元联系起来。 为此,我们只要对这些抽样单元进行抽样,而所抽取的单元 (样本)所对应的个体就是总体中所抽取的样本。
28.04.2020
24
整群抽样
定义:已知总体可以分为若干较大的群,以群为抽样单位的抽样框, 其抽样单位的清单可以得到,则可对此进行随机抽样,并可获得样 本群。再把样本群中的所有个体作为样本,这样的抽样方法称为整 群抽样。 分群的要求:群与群之间要求尽可能相似
28.04.2020
25
分群抽样举例
总体的元素,即组成总体的个体。如,人、商店
总体定义 的三要素
总体的范围,即组成总体的个体范围。如,上海范围
总体定义的时间。如,2000年
总体定义 的要求
特征明显,如,人口统计特征、产品使用情况、认 知度等。从中我们能收集到符合研究要求的信息。
获得总体的清单要容易,便于随机抽样。否则只能 通过过滤问卷确定样本。
引荐抽样
28.04.2020
11
简单随机抽样
定义:已知总体的个数N、要抽取的样本数目n及抽样框,并以
相同的概率
n N
从抽样框中抽取样本的方法,称为简单随机抽样。
模型:从总体N中随机抽取n个样本,方法有从总体中一起抽取n 个样本,或者一个一个无放回的抽取n样本。 n样本构成的样本 组被抽取的概率是 1
要求:层与层之间特征明显;层内元素间的差异要小,即对于调 查的内容,会反映近似的信息。
28.04分层
分配比例
按特征把总体 分成s层 N1、 N2、…… Ns
Ri=
Ni N
确定每层 样本数ni
确每定层每抽层取 样ni样本本数ni
ni=n Ri
注:样本抽取的概率也是
n
N=
1
Ni n
注:个体的编号不连续,同样可采用随机数表方法
28.04.2020
2位数的随机数表: 23 15 75 48 59 01
65 54 55 50 43 10
54 50
43
03 87 16 30 28 32 38 97 29 49 51 94
例:54名学生中 抽取3名作为代 表。从第2行第1 列开始。样本结 果是:54、50、 43三个编号代表 的学生。
14
简单随机抽样方法(随机数法)
1、对总体中的个体进行编号1~N,把此数码列在Excel 工作表中。
2、借助Excel中的数据分析中的随机抽样工具进行
3、每次在列出的数码中抽取一个数,已抽取数码在列 表中去掉。这种方法相当于无放还的抽签法。
例:在16人中抽取4人作为代表。
28.04.2020
15
Excel中的数据分析栏
18
输入参数
28.04.2020
19
分层抽样
定义:已知总体的元素个数N,元素按某种特征可以分成若干层, 在每层中按简单随机抽样方法抽取样本,这种抽样方法,称为 分层抽样。
适合:总体量大,调查中需要按某种特征分类的各类都有代表。 例:中国民族政策的执行情况的研究,抽样要按民族分类进行分 层抽样。例:研究商店对产品供应商的意见,抽样要按商店的规 模分层抽样
MIT班应抽取4人: 春季班应抽取8人:
120 40 1200 =4
240 40 1200 =8
校本部班应抽取17人:
500
40 1200
=16.67
28.04.2020
22
等距抽样
定义:已知总体的个数N,要抽取n个样本,在1~S=N/n中随机抽 取一个,以后每隔S取一个,这样的方法称为等距抽样。
Ni
N
=
ni
Ni
28.04.2020
21
分层抽样举例
已知,复旦MBA在读学生1200人,现抽取40人,对其进行调查。按 学生的性质分类,深圳班100人,香港班240人,MIT班120人,春季 班240人,校本部班500人。为此,
深圳班应抽取3人:
100
40 1200
=3.33
香港班应抽取8人:
240 40 1200 =8
方法:
编号:从1~N 计算距离: S=N/n
抽取第一个样本:在1~S中简单随机抽样
其它样本的抽取:第一个样本编号加S的倍数即为 其它样本编号
28.04.2020
例:从1000中抽取100个样本。 S=1000/100=10,在10中简单随 机抽取一个样本,假设为6,则其它99个样本分别是16、 26、 ………996。
上海现在已经能为外国人提供大量的就职机会。外国人一般通过两种
2
北部460万户
(460/1700) 30=8
28.04.2020
29
举例
已知清华学生20000人,复旦学生10000人,上海财大 10000人,北大25000人,长沙师范5000人,现随机抽 取2个大学,并对该大学的学生进行调查。
28.04.2020
30
第四节 非随机抽样方法
非随机抽样
便利抽样 判断抽样 配额抽样
N n
注:抽样框构造:个体对应小球、或卡片、或号码。
28.04.2020
12
简单随机抽样方法(抽签法)
1、将总体中的每个个体与相应的卡片或小球对应,把它 们放入暗盒。
2、 从暗盒中一起抽取n各个卡片或小球或无放回的逐个抽 取n个卡片或小球。它们对应的个体就是我们抽取的样 本个体。
12 3 87
4
0 965
(410/1700)30=7
(510/1700)30=9 (320/1700) 30=6
该县户数
7
(10/320) 6
410
第二阶段(从抽中的县中各抽取5个乡)
(0.5/10) 5 第三阶段(从抽中的乡中各抽取3个村)
(0.025/0.5) 3 第四阶段(从抽中的村中抽取若干户)
8.36 10-3
相关文档
最新文档