统计学之数据的收集

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

§2.4 抽样调查时获得数据的一些常用方法
• 下面介绍的几种抽样方法没有 深奥的理论;读者完全可以根 据常识判断在什么情况下获取 简单的随机样本不方便以及每 个方法有什么好处和缺陷。
• 实际上,一般仅有少数人有机 会来确定抽样方案。读者仅需 把这些方法当成常识来了解就 可以了(或者跳过这部分)
§2.4 抽样调查时获得数据的一些常用方法
• 整群抽样(cluster sampling) 先把总体划分成若干群 (cluster),再(通常是随机地) 从这些群中抽取几群;然后再在 这些抽取的群中对个体进行简单 随机抽样。
• 比如,在某县进行调查,首先在 所有村中选取若干村子,然后只 对这些选中的村子的人进行调查。 如果各村情况差异不大,这种抽 样还是方便的。
第二章数据的收集
§2.1 数据是怎样得到的?
• 可从报纸、电视、互联网、 年鉴等方面看到各种数据
• 并且从这些数据可以提取对 自己有用的信息。
• 这些间接得到的(并非自己 收集的)数据都是二手数据。
§2.1 数据是怎样得到的?
• 获得第一手数据要困难得多
• 某方便面企业每年至少花三四 千万元来收集和分析数据
§2.4 抽样调查时获得数据的ቤተ መጻሕፍቲ ባይዱ些常用方法
• 系统抽样(systematic sampling)。 这是先把总体中的每个单元编号,然 后随机选取其中之一作为抽样的开始 点进行抽样。
• 在选取开始点之后,通常从开始点开 始按照编号进行所谓等距抽样;也就 是说,如果开始点为5号,“距离” 为10,则下面的调查对象为15号、25 号等等。
§2.4 抽样调查时获得数据的一些常用方法
• 多级抽样(multistage sampling)。
• 在群体很大时,往往在抽取若干群之 后,再在其中抽取若干子群,甚至再 在子群中抽取子群,等等。最后只对 最后选定的最下面一级进行调查。
• 比如在全国调查时,先抽取省,再抽 取市地,再抽取县区,再抽取乡、村 直到户。每一级都可能采取各种抽样 方法。也称为多级混和型抽样。
• 这种差异不是错误,而是必然 会出现的抽样误差(sampling error)。
§2.3 收集数据时的误差
• 抽样调查中,人们因为种种原 因没有对调查做出反映,这种 误差称为未响应误差 (nonresponse error)。
• 一些人因为各种原因回答时并 没有真实反映他们的观点,这 称为响应误差(response error)。
附:随机数的产生
• 最原始的办法是掷一种正20面体的均 匀材料制成的骰子,标有两套0到9的 数字。每次产生一个0到9的数字。
• 另一种是查阅随机数表。在一些传统 的统计教科书后可以找到随机数表; 也有专门的随机数表的册子
• 在人工干预和操作情况下收集的 数据就称为试验数据 (experimental data)。
• 同学们自己可以举出大量的观测 数据和试验数据的例子
§2.2 个体、总体和样本
• 需要调查北京市民对交通规则 的观点;对象是所有市民,
• 目的是希望知道市民中对该问 题的不同看法各自占有的比例
• 显然,不可能去问所有的北京 市民,而只能够问一部分;
• 并且根据这一部分的观点来理 解整个北京市民的总体观点。
§2.2 个体、总体和样本
• 在这个例子中,单个北京市民 的观点称为个体(element)
• 所有北京市民对这个问题的观 点为一个总体(population), 总体是包含所有要研究的个体 的集合。
§2.2 个体、总体和样本
• 而调查时问到的那部分市民的 观点(也就是部分个体)称为 该总体的一个样本(sample), 是总体的一部分。
• 也有可能试图调查所有的人 (比如人口普查),那叫做普 查(census)。
§2.2 个体、总体和样本
• 在抽取样本时,如果总体中的 每一个体都有同等机会被选到 样本中,这种抽样称为简单随 机抽样(simple random sampling),
• 而这样得到的样本则称为随机 样本(random sample)。
§2.3 收集数据时的误差
• 和抽样误差不一样,未响应 误差和响应误差都会影响对 真实世界的了解
• 应该在设计调查方案时和进 行调查过程中尽量避免
§2.4 抽样调查时获得数据的一些常用方法
• 在抽样调查时,最理想的样本 是随机样本。但是实践起来不 方便
• 在大规模调查时一般不用全部 随机抽样的方式,而只是在局 部采用随机抽样的方法。
• 不难想象,如果编号是随机选取的, 则这和简单随机抽样是等价的。
附:随机数的产生
• 大小为N的总体中产生样本量为n 的随机样本的一个常用的方法是 利用随机数(random number)
• 利用随机数步骤为:(1) 把总体的 所有个体编号;(2) 产生n个在0到 N之间的随机数;(3)与如此产生 的随机数中的数目相同的个体则 形成了样本量为n的简单随机样本。
§2.2 个体、总体和样本
• 如果总体是一锅八宝粥,随机 样本则是充分搅拌后的八宝粥 中的任意一勺
• 该勺中的八宝粥的成分比例应 该和整个一锅粥类似
• 搅拌越充分,样本的代表性也 越好
§2.3 收集数据时的误差
• 一勺八宝粥中的成分比例和整 锅不尽相同,可能稍微多些或 稍微少些。这是很正常的,因 为样本的特征不一定和总体完 全一样
• 调查其产品及竞争者在市场中 的状况、各种类型消费者对其 产品的态度、收集各地方的经 济交通等信息等等
§2.1 数据是怎样得到的?
• 他们如同间谍,收集各种情 报
• 他们很舍得在这方面花钱。 因为市场信息数据是企业生 存所必需的,绝不是可有可 无的。
§2.1 数据是怎样得到的?
• 在自然的未被控制的条件下观测 到的数据,称为观测数据 (observational data)。
• 分层抽样(stratified sampling)。 这是先把要研究的总体按照某些 性质分类(stratum),再在各类 中分别抽取样本。
• 比如,按教育程度把感兴趣的人 群分成几类;再在每一类中调查 和该类成比例数目的人,以确保 每一类都有相应比例的代表。
§2.4 抽样调查时获得数据的一些常用方法
相关文档
最新文档