统计学第二章数据的收集与整理共79页

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如全校教师的情况
复合分组
第一标志(职务)
高级职称 (教授,副教授)
非高级职称 (讲师,助教)
第二标志(年龄) 45岁以上 45岁以下 45岁以上 45岁以下
第三标志(性别) 男 女 男 女 男 女 男 女
数据分布的展示----次数分布
次数分布 在统计分组的基础上,将总体的所有单位按组归类整理,形成总体 各单位在各组间的次数分布状况,称为次数分布
分组
统计分组是根据统计研究的目的,选择某一标志作为分组的依据, 将总体分成若干个不同的组。经统计分组后,各组组内的个体的性质是相 同的,不同组的个体的性质是不同的。统计分组是数据资料整理的核心 对总体而言是“分”,即将总体分为性质相异的若干组成部分;对个体而 言是“合”,即将性质相同的个体组合起来。
如发生甲流,要研究其病毒机理,只需找一组甲流患者进行临床研究
资料审定
调查资料的审定目的,就是要 保证资料的准确性,尽可能地缩小 调查误差。即对对调查资料的准确 性、完整性和及时性进行检查 。
调查必然产生统计误差
统计误差
登记误差是由于调查过程中各有关环节工作的失误而造成的。 代表性误差是由于非全面调查只观察总体一部分单位,这部分单位不能完 全反映总体的性质而产生的误差。 系统误差:如产值统计时,有的单位好大喜功,虚报产值。虚报瞒报都是 系统误差。理论上说,系统误差是可以消除的 抽样误差:可控制,但不可避免;
统计分组的关键:
(1)正确选择分组标志 (2)正确确定各组的界限
统计分组的原则:
(1)穷尽原则
(2)互斥原则 如按学历分组:大学,高中,初中,小学(则未受教育或大学以上的没包括在内)
对鞋子分组:男鞋,女鞋, 童鞋(童鞋中包含了男童和女童的鞋子)
分组种类
按分组标志多少可分为:
(1)简单分组 按一个标志对总体进行分组,如人口普查中按性别分组
位,经费,初稿,讨论,细则) 问卷设计(问题设定:单选,多选,
开放式问题…) 样本设定(样本容量,抽样方式)(此
处为了对比,主要为后面分析做准备, 可以考虑两个调查对象【校内,校 外】)
调查问卷案例
关于学生学习动机的统计结果
调查表
调查表一般有两种:一种是一览表,另一种是单一表。
统计调查的方法
• 四、调查表与问卷
• 调查表有一览表和单一表两种。
• 一览表是在一张表上登记若干调查 单位
• 单一表是在一张调查表上只登记一 个调查单位的项目
• 调查表确定以后,需要编写填表说 明和指标解释。
• 五、确定调查时间和调查期限 • 1、调查时间:调查资料所属时间(可以为时点,也可为区间) 时点:人口普查(2019年11月1日零点)
次数(频数) 其中各组包含的总体单位个数
频率(比率) 各组单位数占总体单位数的比重
分配数列(分布数列) 各组的频数或频率按照一定的顺序排列而成的数列,称为分配数列 或分布数列
次数分布数列的种类
按标志分为
品质分配数列(如按籍贯将学生
进行分组,统计每组的人数分布情况)
单项式变量数列(打靶
数量分配数列 时中的环数)
调查单位: 每个学生
现象的总体或调查范围。(类
似于总体)
调查单位:构成调查对象的每
一个个体单位。(类似于个体)
如:调查目的是为了获取国有企业的改制情况 此时,所有国有企业就是调查对象
具体的每个国有企业就是调查单位
• 调查单位与报告单位不同: 调查单位是调查项目的承担者(即被调查者) 报告单位是负责向上报告调查内容,提交统计资料的单位。
某市450家百货商店营业额分组统计(异矩分组)
月营业额(千元)
1~10
10~100 100~1000 1000~10000 10000~100000 合计
在群间差异性不大或者不适宜单个地抽选调查样本的情况下, 可采用这种方式,对调查工作的组织和进行比较方便 ,可以 节省经费。但当群间差异较大时,样本代表性比较差.
例题5
重点调查
重点调查(Key-point Survey)是指在调查对象中, 选择一部分重点调查单位收集统计资料的一种非全面调查。 关键词:重点调查单位,是指这些被调查的总体单位中数目 不多,所占比重不大,但其调查的标志值却在总量中占有很 大比重,在总体中具有举足轻重的作用。
起止时间:反映现象在某一时期那发展过程的结果(某企业 2019年1月1日到同年12月31日期间工业总产值资料)
2、调查期限:进行调查工作的时间 如:人口普查规定的时限为:2019年11月1 日到11月10日
• 六、制定调查工作的组织实施计划 成立校风调查设计组 制定校风调查方案(目的,对象,单
如:当调查城镇居民家庭收入状况(此时两者是一致的) 此时调查单位和报告单位都是城镇居民家庭
如果调查城镇居民家庭中工人收入状况 此时,调查单位是城镇居民家庭中的工人,而报告单位则是城
镇居民家庭
• 三、确定调查项目
• 调查内容:
• 校风,考风,教风.每个 方面又选择了若干代表性 的问题来呼应等25个选择 题
(2)分组体系:按两个或两个以上的标志进行简单分组 (两种情况) 平行分组:各简单分组之间彼此独立,即无主次之分,也不相互交 叉,分别从各自的角度说明问题
如:为了全面了解全社会固定资产投资总额构成,则可分别按经济类 型,产业构成,资金来源等几个标志进行分组
复合分组:按两个或两个以上的标志层叠起来分组,是在简单分组 的基础上对各组再按另一标志作进一步分组
美国普查局
抽样调查
抽样调查(Sampling Survey)是一种非 全面调查,它是在全部调查单位中抽取一部分单 位作为样本进行调查,再根据调查结果推断总体 的一种调查方法。广义的抽样调查包括随机抽样 与非随机抽样。
非随机抽样:一些物价指数的编制
常用的随机抽样包括:简单随机抽样,分层抽样,系统抽 样,整群抽样
普查
普查(Census)是对调查对象的全部调查单位逐一进行 的调查。其特点:是一次性调查,是专门组织的全面调查, 即普查主要用来调查属于一定时点上的现象总量。 特点:一次性、大量性、全面性 缺陷:耗费大量人力,物力,财力和时间(我国现阶段的普 查主要是十年一次的人口普查和五年一次的经济普查
美国普查局 census.gov/
如采用该方法抽样调查全班同学的身高情况(50人,样本容 量为10)
整群抽样

由于整群抽样就是将群视为抽样单元的简单随机抽样。
对抽中群内的所有单位进行研究。整群抽样总是采用不重复
抽样方法.
• 如调查某县小学教育状况,可从该县中随机抽取若干个小学, 然后对抽中的小学进行全面调查。此时抽样单位扩大了..
异矩数列
如果数据分布不均匀,为了正确反映各类型特征,就需要采用 异矩分组.例如人口年龄的分组,可依据人口成长的生理特点 分成: 0岁~6岁(婴幼儿组), 7岁~17岁(少年儿童组),18岁~59岁(中青 年组), 60岁以上(老年组)
有些经济现象的标志值几乎成几何级数变化,组矩就宜按几 何级数确定.例如:某市450家百货商店,按营业额大小反映其 规模类型的分布特征,分组如下:
组矩式变量数列(学生 按成绩分组)
组矩式变量数列的分类:
组矩式变量数列按照分组组矩的是否相等分为:等矩数列 和异矩数列
按首末两组的上、下是否齐全分为:闭口数列和wk.baidu.com口数列
单变量值分组

1. 将一个变量值作为一组
2. 即不同的变量值在不同的组

3. 适合于离散变量 4. 适合于变量值较少的情况

打靶时中的环数
(2)次级资料
2. 数据收集的主要渠道——统计调查
(1)统计调查方案的设计 (2)统计调查方法
(3)统计调查的组织方式
原始资料
原始资料也称为第一手资料,是反映被调查 对象原始状况的资料。如原始记录、统计台帐、 调查问卷答案、实验结果等。(通过普查或抽样调 查获得)
举例:数据集03、数据集04
次级资料
简单随机抽样
简单随机抽样又叫纯随机抽样,是最简单、最 普遍的抽样组织方法。它是按照随机性原则直接从总体 的全部单位中,抽取若干个单位作为样本单位,保证总 体中每个单位在抽选中都有同等被抽中的机会。 方法:抽签法、随机数表法(计算机产生)
如面试时决定先后顺序,抽奖等
随机数表法:excel
分层抽样
分层抽样时,各层样本容量的确定一般有两种方法 • 根据各层标志值变动大小确定 • 按各层单位数所占比例抽样即比例抽样 对于总体情况复杂、各单位之间差异较大、单位数 量较多的抽样调查问题,一般可采用分层抽样组织 方式 如调查全省职工家庭生活情况---工业,商业,文教,卫生等 如调查全校各单位职工福利情况 该方法可有效提高抽样样本的代表性。
统计调查方 法
1. 现场观察法 2. 报告法 3. 问卷法 4. 访谈法 5. 实验采集法
统计调查的组织方式
1. 统计报表 2. 普查 3. 抽样调查 4. 重点调查 5. 典型调查
统计调查 组织方式
全面调查
非全面调查
统计报表
统计报表(Statistical Report Forms) 是指依照国家统计局或国家各行政管理部 门的规定,自上而下地统一布置,以一定 的原始记录为依据,按照统一的表式,统 一的指标项目,统一的报送时间与报送程 序,自下而上地逐级定期提供基本统计资 料的一种调查方式。
如调查全国的钢铁产量,只需调查那几个大的钢厂企业:鞍钢, 宝钢,武钢等即可) 如调查全国的棉花生产情况,只需调查河南,山东等棉花集中产区即可)
典型调查
典型调查(Model Survey)是指根据调查目的,在对所研究现象全 面分析的基础上,有意识地选择有代表性的典型单位进行深入细致地调查, 以便认识事物的本质与发展变化规律的一种非全面调查方法。 关键词:典型单位,是指那些能充分、集中地体现调查对象总体某些方面共 性特征的最有代表性的单位。
• 2、网络
中中
国国
人市
口场
统统
计计
年 鉴
年 鉴
数据的整理
统计资料的整理,是根据统计研究的 目的,对所收集到的大量、零星分散的原 始资料进行科学加工与综合,使之系统化、 条理化、科学化,为统计分析提供反映事 物总体综合特征资料的工作过程。
1. 统计资料的审定 2. 统计资料的分组 3. 次数分布
统计调查方案设计的内容

如学生按成绩 进行分组 60以下 60—70 70—80 80—90 90以上
组距分组
1. 以变量值变化的一个区间为一组(主要考虑 连续变量分组,此时相邻组的组限必须是重 叠的)
2. 适合于变量值较多的情况 3. 必须遵循“不重不漏”的原则 4. 可采用等距分组,也可采用不等距分组 5 单变量值分组是组距分组的特例
某大学校风调查方案
• 一、调查目的:为什么 一、调查目的
要进行此次调查
为了进一步提高我校的教学质量、教
学水平并改善教学环境,以利于进一
步全面贯彻素质教育方针,提高学生
工作的管理水平,加强师资队伍建设
• 二、确定调查对象和调查 单位—向谁调查?
某大学校风调查方案 二、调查对象:学校的学生
调查对象:被研究的社会经济
第二章 数据的收集与整理
tongjixue2019sina tjx2019
密码
本章内容
一、 数据的收集 二、 数据的整理 三、 次数分布
数据的收集
统计资料收集是根据统计研究的目的要求, 采用一定组织形式与科学方法,进行采集与研 究问题有关的各类信息资料的工作过程。
1. 统计资料及其来源
(1)原始资料
系统抽样
系统抽样又叫等距抽样或机械抽样。它是先把总体所有单 位按某一标志排队,并根据总体单位数与样本单位数的比例计算出 抽样距离和间隔,在第一个间隔区间里随机确定一个起始点作为第 一个样本单位,以后每隔相等的距离和间隔抽取样本单位。
对总体单位排队时所采用的标志,可以是与调查项目有关 的,也可以是与调查项目无关的,前者称为有关标志排队法;后者 称为无关标志排队法,该方法在避开周期性的情况下也可有效提高 抽样样本的代表性。
次级资料也称为第二手资料,是已经存在的经他人整理 分析过的资料。如期刊、报纸、广播、电视以及因特网上的资料, 各级政府机构公布的资料,企业内部记录和报告等。
举例:数据集01、数据集02
间接来源
• 1. 公开出版物:《 中国统计年鉴》、《中国 统计摘要》、《中国金融统计年鉴》、《中国工 业经济统计年鉴》、《中国农村统计年鉴》、 《中国人口统计年鉴》、《中国市场统计年鉴》、 《世界经济年鉴》、《国外经济统计资料》、 《世界发展报告》……
相关文档
最新文档