贾俊平版统计学课件 第2章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10480 22368 24130 42167 37570 77921 99526 96301 89579 85475 15011 46573 48360 93093 39975 06907 72905 91977 14342 36857 01536 25595 22527 06243 81837 11008 56420 05403 63661 53342 02011 85393 97265 61680 16656 42751 69994 07972 10281 53988 81647 30995 76393 07856 06121 27756 98872 18876 17453 53060 91646 89198 64809 16376 91782 53498 31016 20922 18103 59533 69179 27982 15179 39440 60468 18602 71194 94595 57740 38867 14194 53402 24830 53537 81305 70659 18738 56869 84378 62300 62590 93965 49340 71341 49684 96055 44013 69014 25331 08158
把总体的所有单位按一定顺序排列,先从数字1到k之间随
机抽取一个数字r作为初始单位,以后依次取 r+ k,r+2k …
等单位组成样本. (1)便于抽取样本
(2)对估计量方差的估计缺少一般的方法
系统抽样示意图
(5) 多阶段抽样(multi-stage sampling)
把总体按某种规则划分为若干个组,先抽取组,但并不是 调查组内的所有单位,而是从抽中的每个组中再抽取若干个单 位进行调查, 称为二阶段抽样. ▽ 将该方法推广,则称为多阶段抽样. ▽ 具有整群抽样相同的特点,使样本单位相对集中. ▽不需要包含所有低阶段抽样单位的抽样框(例如在省抽 县、县抽乡、乡抽村、村抽户的农产量四阶抽样中,凡未 被抽中的县、乡、村就不必编制关于乡、村、户的抽样 框) ;同时由于实行了再抽样,使调查单位在更广泛的范 围内展开. ▽在大规模的抽样调查中,经常被采用的方法.
4 非概率抽样(non-probability sampling)
抽取样本时并不是依据随机原则,而是根据研究目的和对
数据的要求,采用某种方式从总体中选择部分单位进行调查.
主要方式有: (1)方便抽样
(2)判断抽样
(3)自愿样本 (4)滚雪球抽样 (5)配额抽样
(1) 方便抽样
调查时由调查人员依据方便的原则,随意确定样本单位
中 国 人 口 统 计 年 鉴 中 国 市 场 统 计 年 鉴
Internet
2 系统内部的数据
1)业务资料,如与业务经营活动有关的各种单据,记录 2)经营活动过程中的各种统计报表 3)各种财务,会计核算和分析资料等
3 二手数据的特点
1)搜集容易,采集成本低 2)作用广泛 分析所要研究的问题 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径 3)搜集二手资料在研究中应优先考虑
3 概率抽样
从调查对象的总体中随机抽取一部分单位进行调 查,用以推断总体的数量特征。 (1).经济(由于只抽取总体的很少一部分,大 量节省人力和财力) (2).快速(由于调查工作量小,所需时间短)
(3).应用范围广(适用各种调查,特别是破坏 性测定和总体太大的情况)
(4).准确性高(所需调查人员少,则相对素质 高,从而数据质量高,结论可靠)
表2-1 单一变量控制配额分配表
按年龄分配
年龄 20–30 30–40 40–50 50以上 合计 人数 150 150 100 100 500
(Ⅱ)典型抽样
从全部单位中选择若干典型单位进行调查的方法,因此也
是一种部分调查方法.
▽ 通过典型单位揭示事物的本质和规律 ▽ 不能根据调查结果推断总体
(Ⅲ)代表抽样
从全部单位中选择若干代表单位进行调查的方法,因此也
是一种部分调查方法.
▽ 通过代表单位揭示事物的本质和规律 ▽ 不能根据调查结果推断总体
Байду номын сангаас
第一次全国经济普查的对象:中华人民共和国境内(
不包括香港,澳门特别行政区和台湾省)从事第二,第三产 业活动的全部法人单位,产业活动单位和个体经营户.
1 普查
(1)一次性或周期性(普查涉及面广,调查单位多,要耗 费大量的人力、物力和财力,所以间隔较长时间,如10年才进 行一次。我国的人口普查从1953年到2010年共进行过6次,每逢 末尾为“0”的年份进行人口普查,末尾为“3”的年份进行第 三产业普查,末尾为“5”的年份进行工业普查,末尾为“7” 的年份进行农业普查。) (2)普查一般需要规定统一的标准调查时间,以避免调查 数据的重复或遗漏,保证普查结果的准确性。我国前四次人口 普查的标准时间定为普查年份的7月1日0时,第五次人口普查为 2000年11月1日0时。第六次人口普查为2010年11月1日0时。农 业普查的标准时间定为普查年份的1月1日0时。标准时间一般定 为调查对象比较集中、相对稳定的时期。 (3)数据比较准确和规范(按统一规定进行登记) (4)应用范围较窄(调查工作量大,需大量人力和财力, 第1次经济普查费用为20亿。)
4 二手数据的评估
1)数据是谁搜集的? 可信度评估 2)为什么目的而搜集的? 3)数据是怎样搜集的? 4)什么时候搜集的?
2.1.2 数据的直接来源(原始数据)
有两种方法,通过调查方法获得的数据称为调查数据,而
通过实验方法得到的数据称为实验数据.
(1)调查方法常用于社会科学(通常取自有限总体) ▽ 普查
简单随机抽样法
方法1: N的第1位数大于5, 例如 N=678, n=5时, 规定 001-678 (保留) 000, 679-999 (舍去) 方法2: N的第1位数小于5, 例如 N=327, n=5时,则规定 001-327 (保留)
328-654 (-327)
655-981 (-654) 000, 982-999 (舍去)
▽ 抽样调查
(2)实验数据常用于自然科学, 目前也被逐渐运用到社会科 学中.
2.2 调查数据
2.2.1 统计调查方式 普查 全面调查 统计报表 概率抽样
调查方式
抽样调查
非概率抽样
1 普查
为特定目的专门组织的一次性全面调查,用于搜集某
一时点上的社会经济现象的数量(例如人口普查、工业普 查、农业普查等)。普查适用于特定目的、特定对象,旨 在搜集有关国情国力的基本统计数据,为国家制定有关政 策或措施提供依据。 第一次全国经济普查的目的:了解国民经济的规模、 结构和效益。决不是要通过经济普查来查企业和个体户有 没有偷税漏税、查他们违法违纪的问题。
(3) 自愿样本
被调查者自愿参加,向调查人员提供有关信息.
例如,参与报刊上和互联网上刊登的调查问卷活动.
(Ⅰ)样本只能反映特定人群的情况. (Ⅱ)调查结果不能推断总体.
(4) 滚雪球抽样
先选择一些调查单位,对其调查之后,再请他们提供另 外一些调查对象,调查人员根据所提供的线索,进行此后的
调查。这个过程持续下去,就会形成滚雪球效应.
(Ⅰ)适合于对稀少群体和特定群体研究,容易找到那些属 于特定群体的被调查者,调查的成本也比较低 (Ⅱ)调查结果不能推断总体
(5) 配额抽样
先把总体中的全部单位按某个因素(变量)划分为若干类,
然后在每个类中采用方便抽样或判断抽样的方式选取样本单位. (Ⅰ)操作简单,可以使总体中不同类别的单位都能包括在样 本中(使得样本的结构和总体的结构类似). (Ⅱ)调查结果不能推断总体.
简单随机抽样示意图
(2) 分层抽样(stratified sampling)
把抽样单位按某种规则划分为不同的层,然后从不同的层 中独立、随机地抽取样本.
(Ⅰ)保证样本的结构与总体的结构比较相近,从而提高估
计的精度. (Ⅱ)可以方便组织实施调查. (Ⅲ)不仅可以对总体参数进行估计,也可以对各层的目标 量进行估计.
数是别人调查或科学实验的数据,对使用者来说称为二手 数据。二手数据主要是公开出版的或公开报道的数据,当
然有些是尚未公开出版的数据。
1 系统外部的数据
1) 统计部门和政府部门公布的有关资料,如各类统计年鉴, 公开出版的有《中国统计年鉴》以及各省、市、地区的统 计年鉴等。提供世界各国社会和经济数据的出版社也有很 多,如《世界经济年鉴》 2) 各类经济信息中心、信息咨询机构、专业调查机构等提供 的数据 3) 各类专业期刊、报纸、书籍所提供的资料 4) 各种会议,如博览会、展销会、交易会及专业性、学术性 研讨会上交流的有关资料 5) 从互联网或图书馆查阅到的相关资料
(Ⅰ)重点抽样
从全部单位中选择重点单位进行调查的方法.
▽ 要求总体存在少数重点单位
▽ 不能根据调查结果推断总体 (重点单位:这些单位虽然数量很少,但这些单位的数值却很
大,占总体的比例很高,通过对这些单位的调查就能了解总体
的基本情况). 例:为了解全国钢铁工业生产情况,就可以把鞍钢、武钢、 首钢、宝钢等特大型企业作为重点单位进行调查,就能了解全 国钢铁生产的基本情况.
▽ 调查员在街头、公园、商店等公共场所进行调查.
▽ 厂家在出售产品柜台前对路过顾客进行的调查. (Ⅰ)优点:实施方便,调查的成本低.
(Ⅱ)缺点:样本单位的确定带有随意性,样本无法代表有
明确定义的总体,调查结果不宜推断总体.
(2) 判断抽样
研究人员根据经验、判断和对研究对象的了解,有目 的选择一些单位作为样本.判断抽样是主观的,样本选择的 好坏取决于调研者的判断、经验、专业程度和创造性. (Ⅰ)优点:抽样成本比较低,容易操作. (Ⅱ)缺点:样本是人为确定的,没有依据随机的原则,调 查结果不能用于对推断总体. 主要方法有: (Ⅰ)重点抽样 (Ⅱ)典型抽样 (Ⅲ)代表抽样
分层抽样示意图
(3) 整群抽样(cluster sampling)
把总体按某种规则划分为若干个组,每个组称为群. 抽样
时只抽取群,并对抽取的群进行普查.
(Ⅰ)抽样时只需群的抽样框 (Ⅱ)调查的地点相对集中,可以节省调查费用,方便调查
的实施
(Ⅲ)估计精度通常低于简单随机抽样
整群抽样示意图
(4) 系统抽样(systematic sampling)
(1) 简单随机抽样(simple random sampling)
简单随机抽样要求有完整的抽样框,通常采用随机数 表组织样本.随机数表由 0,1,2,…,9随机排列而成.利用随 机数表组织样本时,应先确定起始点,然后从左到右,或
从上到下按预先规定抽取n个数,这n个数对应的单位就是
简单随机样本.
随机数表
2 统计报表
统计报表是按照国家有关法规的规定,自上而下地统 一布置,自下而上地逐级提供基本统计数据的一种调查方 法,以全面调查为主。这种调查组织方式在我国政府统计 工作中,经过几十年的改进和完善,已形成了一套比较完 备的统计报告制度,它要求以原始数据为基础,按照统一 的表式、指标、报送时间和报送程序填报,已成为国家和 地方政府部门获取统计数据的主要统计调查组织方式。 ⑴ 按填报范围不同分为全面报表和非全面报表(全面 报表:要求每一个单位都填报;非全面报表:一部分单位填 报) ⑵ 按报送时间不同分为日报、月报、季报和年报 ⑶ 按报送范围不同分为国家、部门和地方统计报表
第2 章
统计数据的搜集
2.1 数据的来源
2.2 调查数据
2.3 实验数据 2.4 数据的误差
2.5 数据文件
2.1 数据的来源
对使用者,数据来源有两种方式:
1 直接来源
2 间接来源
2.1.1 数据的间接来源(间接数据)
对大多数使用者来说,亲自去做调查往往是不可能的。
由于种种原因,不能直接取得数据时,所使用的数据大多
(1) 简单随机抽样(simple random sampling)
简单随机抽样是最基本的一种抽样方法,并且是其它 抽样方法的基础. 简单随机抽样是从总体N个单位中随机地
抽取n个单位作为样本,每个单位有相同的概率被抽取.
▽特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 ▽局限性 当N 很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助信息以提高估计的效率
把总体的所有单位按一定顺序排列,先从数字1到k之间随
机抽取一个数字r作为初始单位,以后依次取 r+ k,r+2k …
等单位组成样本. (1)便于抽取样本
(2)对估计量方差的估计缺少一般的方法
系统抽样示意图
(5) 多阶段抽样(multi-stage sampling)
把总体按某种规则划分为若干个组,先抽取组,但并不是 调查组内的所有单位,而是从抽中的每个组中再抽取若干个单 位进行调查, 称为二阶段抽样. ▽ 将该方法推广,则称为多阶段抽样. ▽ 具有整群抽样相同的特点,使样本单位相对集中. ▽不需要包含所有低阶段抽样单位的抽样框(例如在省抽 县、县抽乡、乡抽村、村抽户的农产量四阶抽样中,凡未 被抽中的县、乡、村就不必编制关于乡、村、户的抽样 框) ;同时由于实行了再抽样,使调查单位在更广泛的范 围内展开. ▽在大规模的抽样调查中,经常被采用的方法.
4 非概率抽样(non-probability sampling)
抽取样本时并不是依据随机原则,而是根据研究目的和对
数据的要求,采用某种方式从总体中选择部分单位进行调查.
主要方式有: (1)方便抽样
(2)判断抽样
(3)自愿样本 (4)滚雪球抽样 (5)配额抽样
(1) 方便抽样
调查时由调查人员依据方便的原则,随意确定样本单位
中 国 人 口 统 计 年 鉴 中 国 市 场 统 计 年 鉴
Internet
2 系统内部的数据
1)业务资料,如与业务经营活动有关的各种单据,记录 2)经营活动过程中的各种统计报表 3)各种财务,会计核算和分析资料等
3 二手数据的特点
1)搜集容易,采集成本低 2)作用广泛 分析所要研究的问题 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径 3)搜集二手资料在研究中应优先考虑
3 概率抽样
从调查对象的总体中随机抽取一部分单位进行调 查,用以推断总体的数量特征。 (1).经济(由于只抽取总体的很少一部分,大 量节省人力和财力) (2).快速(由于调查工作量小,所需时间短)
(3).应用范围广(适用各种调查,特别是破坏 性测定和总体太大的情况)
(4).准确性高(所需调查人员少,则相对素质 高,从而数据质量高,结论可靠)
表2-1 单一变量控制配额分配表
按年龄分配
年龄 20–30 30–40 40–50 50以上 合计 人数 150 150 100 100 500
(Ⅱ)典型抽样
从全部单位中选择若干典型单位进行调查的方法,因此也
是一种部分调查方法.
▽ 通过典型单位揭示事物的本质和规律 ▽ 不能根据调查结果推断总体
(Ⅲ)代表抽样
从全部单位中选择若干代表单位进行调查的方法,因此也
是一种部分调查方法.
▽ 通过代表单位揭示事物的本质和规律 ▽ 不能根据调查结果推断总体
Байду номын сангаас
第一次全国经济普查的对象:中华人民共和国境内(
不包括香港,澳门特别行政区和台湾省)从事第二,第三产 业活动的全部法人单位,产业活动单位和个体经营户.
1 普查
(1)一次性或周期性(普查涉及面广,调查单位多,要耗 费大量的人力、物力和财力,所以间隔较长时间,如10年才进 行一次。我国的人口普查从1953年到2010年共进行过6次,每逢 末尾为“0”的年份进行人口普查,末尾为“3”的年份进行第 三产业普查,末尾为“5”的年份进行工业普查,末尾为“7” 的年份进行农业普查。) (2)普查一般需要规定统一的标准调查时间,以避免调查 数据的重复或遗漏,保证普查结果的准确性。我国前四次人口 普查的标准时间定为普查年份的7月1日0时,第五次人口普查为 2000年11月1日0时。第六次人口普查为2010年11月1日0时。农 业普查的标准时间定为普查年份的1月1日0时。标准时间一般定 为调查对象比较集中、相对稳定的时期。 (3)数据比较准确和规范(按统一规定进行登记) (4)应用范围较窄(调查工作量大,需大量人力和财力, 第1次经济普查费用为20亿。)
4 二手数据的评估
1)数据是谁搜集的? 可信度评估 2)为什么目的而搜集的? 3)数据是怎样搜集的? 4)什么时候搜集的?
2.1.2 数据的直接来源(原始数据)
有两种方法,通过调查方法获得的数据称为调查数据,而
通过实验方法得到的数据称为实验数据.
(1)调查方法常用于社会科学(通常取自有限总体) ▽ 普查
简单随机抽样法
方法1: N的第1位数大于5, 例如 N=678, n=5时, 规定 001-678 (保留) 000, 679-999 (舍去) 方法2: N的第1位数小于5, 例如 N=327, n=5时,则规定 001-327 (保留)
328-654 (-327)
655-981 (-654) 000, 982-999 (舍去)
▽ 抽样调查
(2)实验数据常用于自然科学, 目前也被逐渐运用到社会科 学中.
2.2 调查数据
2.2.1 统计调查方式 普查 全面调查 统计报表 概率抽样
调查方式
抽样调查
非概率抽样
1 普查
为特定目的专门组织的一次性全面调查,用于搜集某
一时点上的社会经济现象的数量(例如人口普查、工业普 查、农业普查等)。普查适用于特定目的、特定对象,旨 在搜集有关国情国力的基本统计数据,为国家制定有关政 策或措施提供依据。 第一次全国经济普查的目的:了解国民经济的规模、 结构和效益。决不是要通过经济普查来查企业和个体户有 没有偷税漏税、查他们违法违纪的问题。
(3) 自愿样本
被调查者自愿参加,向调查人员提供有关信息.
例如,参与报刊上和互联网上刊登的调查问卷活动.
(Ⅰ)样本只能反映特定人群的情况. (Ⅱ)调查结果不能推断总体.
(4) 滚雪球抽样
先选择一些调查单位,对其调查之后,再请他们提供另 外一些调查对象,调查人员根据所提供的线索,进行此后的
调查。这个过程持续下去,就会形成滚雪球效应.
(Ⅰ)适合于对稀少群体和特定群体研究,容易找到那些属 于特定群体的被调查者,调查的成本也比较低 (Ⅱ)调查结果不能推断总体
(5) 配额抽样
先把总体中的全部单位按某个因素(变量)划分为若干类,
然后在每个类中采用方便抽样或判断抽样的方式选取样本单位. (Ⅰ)操作简单,可以使总体中不同类别的单位都能包括在样 本中(使得样本的结构和总体的结构类似). (Ⅱ)调查结果不能推断总体.
简单随机抽样示意图
(2) 分层抽样(stratified sampling)
把抽样单位按某种规则划分为不同的层,然后从不同的层 中独立、随机地抽取样本.
(Ⅰ)保证样本的结构与总体的结构比较相近,从而提高估
计的精度. (Ⅱ)可以方便组织实施调查. (Ⅲ)不仅可以对总体参数进行估计,也可以对各层的目标 量进行估计.
数是别人调查或科学实验的数据,对使用者来说称为二手 数据。二手数据主要是公开出版的或公开报道的数据,当
然有些是尚未公开出版的数据。
1 系统外部的数据
1) 统计部门和政府部门公布的有关资料,如各类统计年鉴, 公开出版的有《中国统计年鉴》以及各省、市、地区的统 计年鉴等。提供世界各国社会和经济数据的出版社也有很 多,如《世界经济年鉴》 2) 各类经济信息中心、信息咨询机构、专业调查机构等提供 的数据 3) 各类专业期刊、报纸、书籍所提供的资料 4) 各种会议,如博览会、展销会、交易会及专业性、学术性 研讨会上交流的有关资料 5) 从互联网或图书馆查阅到的相关资料
(Ⅰ)重点抽样
从全部单位中选择重点单位进行调查的方法.
▽ 要求总体存在少数重点单位
▽ 不能根据调查结果推断总体 (重点单位:这些单位虽然数量很少,但这些单位的数值却很
大,占总体的比例很高,通过对这些单位的调查就能了解总体
的基本情况). 例:为了解全国钢铁工业生产情况,就可以把鞍钢、武钢、 首钢、宝钢等特大型企业作为重点单位进行调查,就能了解全 国钢铁生产的基本情况.
▽ 调查员在街头、公园、商店等公共场所进行调查.
▽ 厂家在出售产品柜台前对路过顾客进行的调查. (Ⅰ)优点:实施方便,调查的成本低.
(Ⅱ)缺点:样本单位的确定带有随意性,样本无法代表有
明确定义的总体,调查结果不宜推断总体.
(2) 判断抽样
研究人员根据经验、判断和对研究对象的了解,有目 的选择一些单位作为样本.判断抽样是主观的,样本选择的 好坏取决于调研者的判断、经验、专业程度和创造性. (Ⅰ)优点:抽样成本比较低,容易操作. (Ⅱ)缺点:样本是人为确定的,没有依据随机的原则,调 查结果不能用于对推断总体. 主要方法有: (Ⅰ)重点抽样 (Ⅱ)典型抽样 (Ⅲ)代表抽样
分层抽样示意图
(3) 整群抽样(cluster sampling)
把总体按某种规则划分为若干个组,每个组称为群. 抽样
时只抽取群,并对抽取的群进行普查.
(Ⅰ)抽样时只需群的抽样框 (Ⅱ)调查的地点相对集中,可以节省调查费用,方便调查
的实施
(Ⅲ)估计精度通常低于简单随机抽样
整群抽样示意图
(4) 系统抽样(systematic sampling)
(1) 简单随机抽样(simple random sampling)
简单随机抽样要求有完整的抽样框,通常采用随机数 表组织样本.随机数表由 0,1,2,…,9随机排列而成.利用随 机数表组织样本时,应先确定起始点,然后从左到右,或
从上到下按预先规定抽取n个数,这n个数对应的单位就是
简单随机样本.
随机数表
2 统计报表
统计报表是按照国家有关法规的规定,自上而下地统 一布置,自下而上地逐级提供基本统计数据的一种调查方 法,以全面调查为主。这种调查组织方式在我国政府统计 工作中,经过几十年的改进和完善,已形成了一套比较完 备的统计报告制度,它要求以原始数据为基础,按照统一 的表式、指标、报送时间和报送程序填报,已成为国家和 地方政府部门获取统计数据的主要统计调查组织方式。 ⑴ 按填报范围不同分为全面报表和非全面报表(全面 报表:要求每一个单位都填报;非全面报表:一部分单位填 报) ⑵ 按报送时间不同分为日报、月报、季报和年报 ⑶ 按报送范围不同分为国家、部门和地方统计报表
第2 章
统计数据的搜集
2.1 数据的来源
2.2 调查数据
2.3 实验数据 2.4 数据的误差
2.5 数据文件
2.1 数据的来源
对使用者,数据来源有两种方式:
1 直接来源
2 间接来源
2.1.1 数据的间接来源(间接数据)
对大多数使用者来说,亲自去做调查往往是不可能的。
由于种种原因,不能直接取得数据时,所使用的数据大多
(1) 简单随机抽样(simple random sampling)
简单随机抽样是最基本的一种抽样方法,并且是其它 抽样方法的基础. 简单随机抽样是从总体N个单位中随机地
抽取n个单位作为样本,每个单位有相同的概率被抽取.
▽特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 ▽局限性 当N 很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助信息以提高估计的效率