第2章 统计数据的收集与整理
第2章统计数据的搜集与整理精品PPT课件

▪ 优点:应用范围广、结果正确、直接
▪ 缺点:成本高、研究时间长。
统计学
2-15
统计调查的组织方式
►统计报表
▪ 依据国家统计局或国家各行政管理的规定,自上而下 地统一布置,以一定的原始记录为依据,按照统一的 表式、指标、时间和程序自下而上地逐级提供基本统 计资料的调查方式。
►专门调查
▪ 普查
▪ 抽样调查
▪ 重点调查
►重点单位是指在全体中虽然数目不多,所占比不 大,但调查标志值却占较大比重。
▪ 典型调查
►有意识地选择有典型意义或具有代表性的单位。
统计学
2-16
统计报表
►是我国定期搜集基本统计资料的一种重要形式。 ►特点
▪ 来源于基层单位的原始记录 ▪ 项目稳定,有利于资料积累和动态比较
►种类
▪ 国家、部门和地方统计报表 ▪ 全面统计报表和非全面统计报表 ▪ 定期报表和年报 ▪ 基层表表和综合报表 ▪ 电讯报表和书面报表
►统计调查方法
▪ 现场观察法、报告法、问卷法、访谈法、实验 采集法等。
►统计调查的组织方式
▪ 统计报表 ▪ 专门调查
统计学
2-12
抽样调查方案
►确定调查目的(为什么调查) ►确定调查对象和调查单位
▪ 有许多性质相同的调查单位组成的现象总体。 ▪ 调查单位:所要研究的个体。
►确定调查项目:调查中所要调查单位的特征。 ►设计调查表与问卷设计 ►选择调查方法 ►确定调查时间和调查期限 ►制定调查的组织实施计划
统计学
2-13
统计调查方法
► 现场观察法
▪ 带有明确的目的到现场,直接观察获得数据信息。 ▪ 优点:准确;缺点:成本大
► 报告法(通讯法)
统计学 第二章 统计数据的搜集、整理和显示

(二)实验方式
所谓实验方式,就是运用自然科学的试验 法,通过观测人为安排条件下试验产生的各种 结果并加以记录的方式来获取数据,或通过人 为安排条件下的试验来探求某个或某些因素对 所研究事物的数量影响程度和作用方式,凭借 实验结果来揭示所考察因素与所研究事物之间 的数量因果关系。
1、实验的原则
运用实验方式需要遵循下列两个原则:均衡分散
1、普查
普查是根据特定的统计研究目的而专门组织的 一次性的全面调查,用以收集所研究现象总体的全 面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的 普查机构,配备一定数量的普查人员,对观测单位 直接进行登记。如我国历次的人口普查等。二是利 用观测单位的原始记录和核算资料,颁发调查表, 由观测单位按要求填报。如物资库存普查等。
重点调查的单位可以是一些企业、行业、 也可以是一些地区、城市。此种调查方式的优点是, 所投入的人力、物力少,而又较快地搜集到统计 信息资料。一般来讲,在调查任务只要求掌握基 本情况,而部分单位又能比较集中反映研究项目 和指标时,就可以采用重点调查。
在下列问题中为了得到数据,采用什么调查? • 为了买校服,了解每个学生衣服的尺寸。 • 商检人员在某超市检查出售的饮料的合格率。 • 对占全市工业总产值五分之一的六个大型企 业进行调查,以了解全市工业总产值的基本 情况。
观测性误差
数 据 收 集 误 差
也叫登记性误差或调查性误差,它 是在调查观测的各个环节因工作粗 心或被观测者不愿很好配合而造成 的所收集数据与实际情况不符的误 差,包括计量错误、记录错误、计 算错误、抄写错误、汇总错误、计 算机输入误差等工作误差,以及被 调查者不愿或难以提供真实情况的 误差,有时还存在调查人员弄虚作 假的误差和各种人为因素干扰的误 差。 这部分误差通常是人为造成的,通 过对统计调查资料的严密审核,是 可以发现并加以更正的。观测性误 差则可能存在于任何统计调查。 因样本不能完全代表总体而产生 的估计结果与总体真实数量特征 不符的误差。根据样本不能完全 代表总体的原因不同,代表性误 差又分为系统性代表性误差和偶 然性代表性误差两种。
第二章 统计数据的收集与整理

A.54.7% B. 63.7%
A. 你是否认为苏联应该让美国记者入境,并将他们 看到的新闻发回美国去。
B. 你是否认为美国应该让苏联的记者来美国来,并 把他们看到的新闻发回苏联去。
A.81.9% B. 74.6%
●先易后难:熟悉在前,生疏在后。 例:
二、收集资料的方法
(一)初级资料收集方法 1.访问法
面谈调查 电话调查 网上调查
(1)面谈调查也称采访法,是通过指派调查 员根据调查提纲向被调查者访问,提出问 题,由被调查者答复以取得资料的一种方 法。具体可分为自由交谈、调查表提问等 方法。
优点:资料可信,调查表回收率高。 缺点:成本较高,受调查员素质和态度影响大
3)多项选择式问句 ●对一个问题事先列出三个或三个以上可能 的答案,让被调查者根据实际情况,从中选 择。
例:某饭馆欲了解本店在同类饭馆中的市场占有率 有朋自远方来,你首选哪家饭馆? A. 老四川( ) B. 小四川 ( ) C. 新四川( ) D. 四川酒家( ) E. 其他( )
4)排序式问句
学历要求 技能要求
本科
设计调查问卷 // 负责市场调研 // 掌握SPSS统计软件
所属行业 经验要求
咨询
不限
本科
项目数据分析 // 实地访谈调查
咨询
不限
本科 硕士
市场数据分析 // 掌握SPSS统计软件 数据收集与分析
咨询 咨询
3-5年 不限
本科
数据分析与挖掘 // 撰写调研报告
咨询
1-3年
大专 本科
调查单位是调查对象中所要调查的每一个 具体单位。 调查单位:逛街的每一位学生
统计学第二章数据的收集与整理

30
24
18
12
组矩(异矩)
a
b
c
d
数据在b—c之间取值的频率可以表示为: 频率=组距(b-c)*(频率/组距)=即为红色部分的面积
开口数列:首组缺下限或末组缺上限的数列
闭口数列:首末两组的上,下限都齐全的数列
如果数据分布不均匀,为了正确反映各类型特征,就需要采用异矩分组.例如人口年龄的分组,可依据人口成长的生理特点分成: 0岁~6岁(婴幼儿组), 7岁~17岁(少年儿童组),18岁~59岁(中青年组), 60岁以上(老年组)
有些经济现象的标志值几乎成几何级数变化,组矩就宜按几何级数确定.例如:某市450家百货商店,按营业额大小反映其规模类型的分布特征,分组如下:
1
统计资料及其来源 原始资料 (2)次级资料
2
数据收集的主要渠道——统计调查 统计调查方案的设计 (2)统计调查方法 统计调查的组织方式
3
数据的收集
原始资料也称为第一手资料,是反映被调查对象原始状况的资料。如原始记录、统计台帐、调查问卷答案、实验结果等。(通过普查或抽样调查获得)
举例:数据集03、数据集04
原始资料
次级资料也称为第二手资料,是已经存在的经他人整理分析过的资料。如期刊、报纸、广播、电视以及因特网上的资料,各级政府机构公布的资料,企业内部记录和报告等。
举例:数据集01、数据集02
次级资料
间接来源
1. 公开出版物:《 中国统计年鉴》、《中国统计摘要》、《中国金融统计年鉴》、《中国工业经济统计年鉴》、《中国农村统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》…… 2、网络
统计数据的收集与整理.

第二章 统计数据的收集与整理
(二)分布数列的编制
若按照间断式组限分组时,则需要转换成连续式组 限后再计算组中值,闭口组时采用上 (2.3.1) 式计算。
组中值 上限 下限 2 (2.3.1)
若按照间断式组限分组时,则需要转换成连续式组限后 再计算组中值,闭口组时采用上 (2.3.1) 式计算,开口组时需 要采用 (2.3.2) 式、 (2.3.3) 式以下近似算: 第一组为××以下,缺少下限,则 组中值=组上限-下一组组距/2 最末组为××以上,缺少上限,则 组中值=组下限+上一组组距/2 (2.3.2) (2.3.3)
第二章 统计数据的收集与整理
(一)分布数列的分类
品质数列 按品质标志分组所形成的分配数列称品质分配数列或属性分配数列,简 称品质数列。它是由总体各组名称及各组总体单位数(次数)组成,如表2.3.4 所示。
表 2.3.4 按性别分组 女生 男生 合计
某高校学生的性别分布 人数 5458 7804 13262 比例(%) 41.2 58.8 100.0
•二、确定调查对象和调查单位
确定调查对象
• 调查对象是指根据调查目的、任务确定的由那些性质上相同的众 多调查单位所组成的总体。即统计总体。
确定调查单位
调查单位就是构成调查总体的每一个单位,调查总体中的个体,也 就是在调查过程中应该登记其标志的那些具体单位。
第二章 统计数据的收集与整理
第一节 统计调查方案设计
第二章 统计数据的收集与整理
第二节 统计数据收集
• 一、收集资科的方式
取得统计数据有多种途径,但概括起来不外乎是直接方式和间接方
式。
(一)统计资料的直接收集
直接获取第一手统计资料的主要方法包括:统计调查和试验设计。 统计调查的方式主要有 普查 抽样调查 重点调查 统计报表制度。
统计数据的收集整理与显优秀课件

统计数据的收集整理与显优秀
分布在各组中的个体单位数叫做次数或 频数。
各组次数与总次数之比叫做比率或频率 。
将各组别与次数按一定的次序排列所形 成的数列称作次数分布数列,简称分布数列 ,又称分配数列或频数分配。
统计数据的收集整理与显优秀
白领 高中 68
4 17 否
蓝领 小学 72
3 24 是
白领 大学 99
3 33 是
统计数据的收集整理与显优秀
依照各居民户职业类别和文化程度的 具体标志表现对居民户总体进行分组
统计数据的收集整理与显优秀
居民户总体按职业类别分组
按职业类 纳入组内户 别分组 的门牌号
白 领 1、2、5、7
蓝 领 3、4、6
统计数据的收集整理与显优秀
2.意义 统计整理是统计工作过程的第三阶段 ,是统计调查的继续,是统计分析的前提,它 是从对现象的感性认识过渡到对现象理性 认识的开始,是这个过程的连续点,并为 这个过程提供坚实的基础,它在统计工作 中起着承前启后的作用 。
统计数据的收集整理与显优秀
3.统计整理的内容与程序
5
5/7=71.43 %
设计并计算统计指标
完
整
的
分
组
表
统计数据的收集整理与显优秀
数量标志分组
A.单项式分组设计
用单一的数值作为组的名称,这样的分 组设计称为单项式分组设计。单项式分组 设计适用于离散型分组标志或经过离散化 处理的连续型分组标志。
统计数据的收集整理与显优秀
40
【例1】己知某车间有24名工人,他们的日产
统计数据的收集整理与显优秀
统计学第二章数据搜集整理

普查的规定
• • • • 规定统一的调查项目 规定统一的标准时点 规定统一的普查周期 例如:第六次人口普查,调查表,性别、年龄、 民族、受教育程度、行业、职业、迁移流动、社 会保障、婚姻生育、死亡、住房情况等 • 截止时间,标准时点是2010年11月1日零时 • 人口普查的周期是10年,2000年,2010年
频率
fi
fi
fi :第i组频数
32
(2)频率的性质 (A )
0
fi
1 fi
(B ) (3)频数密度与频率密度(消除异距分组对频数影响) (A) (2.7) 频数密度=频数/组距 (B) (2.8) 频率密度=频率/组距 各组频数密度与各组组距乘积之和等于总体单位数,各 组频率密度与各组组距乘积之和等于1.
29
组数的确定(H.A.Struges经验公 式)
•
n = 1 + 3.3logN
N – 24 – 44 – 89 – 170 – 359 n 5 6 7 8 9
(斯特杰斯)
• • 15 • 25 • 45 • 90 • 180 • 组距=
30
四、频数(次数)分布
1.频数分布的基本理论
(1)频数分布的定义 在统计分组的基础上,将总体所有单位按某一标志 归类排列,并计算其相应出现的次数。 频数分布是统计整理的重要形式,通过对零乱的、 分散的原始资料进行有次序的整理,形成一系列反映 总体各组之间单位分布状况的数列,即分布数列。
10
• 概率抽样的特点: 1、样本单位按随机原则抽取,排除了主观因素对 选样的影响。 2、根据部分调查的实际资料对调查对象总体的数 量特征作出估计。 3、抽样误差可以事先计算并加以控制。 • 抽样调查的适用场合
第2章 统计数据的收集整理与显示

A:您至今未买电脑的原因是什么?(单选不可以,多 选可以) (a)买不起(b)没有用(c)不懂(d)其它
(3) 无论多/单选题,任一个备选答案都不能有多 重含义。 A.您选择信息专业的目的是:
(a)自己喜欢,好就业(b)„„
(4) 无论多/单选题,备选答案之间不能有包含关 系。 A.您上大学的目的是:
例2.1 某车间50个工人看管机床台数资料如下:
3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 5
试对数据进行分组。 解:由于机器台数属于离散型变量,因此使用单项式分 组方法。将原始资料按变量值升序排列,然后将相同变 量值分为一组,最后将资料分成若干组。
2.按数量标志分组 数值型数据:主要是按照数值进行分组。 例:对学生成绩分组,可分为60分以下、60~70分、 70~80分、80~90分、90分以上5个组。
单项式分组 按数量标志分组的方法: 组距式分组
单项式分组:把每一个变量值作为一组。 适用条件:通常只适于离散变量且变量值较少的情况
表2-2 变量编码表
NUM SEX JOB A11 A12 A13 A14 A15 A21 A22 A23 A24
001
002
1
1
1
210来自001
1
1
1
0
1
1
1
1
0
0
0
1
0
编码表说明:
NUM- 编码 SEX- 性别 jOB- 职务 A11~A15代表第一题中5个选项,选中者输入1, 未选中者输入0。 A21~A24代表第二题中4个选项,选中者输入1, 未选中者输入0。
第2章统计资料的搜集与整理

• 2)目的是推断总体的未知数字特征。 • 3)最常用的调查方式。 • 4)具有经济性好、时效性强、适应面广、
准确性高等特点。
2020/3/3
20
• 3、统计报表 • 统计调查方式之一。 • 过去曾经是我国主要的数据搜集方式。
• 按照国家有关法规的规定,自上而下地 布置,自下而上地逐级提供基本统计数 据。
出来,为统计资料的使用和分析做好准备。
2020/3/3
40
四、统计分组(P39)
• (一)统计分组的意义 • 统计分组是将总体所有单位按照一定的
标志区分为若干部分。在不同部分之间, 存在着着差异,而在每一部分内部,我 们忽略其差异,视其性质相同。
• 分组的关键是选择恰当的分组标准和准 确地划分组的界限。
测量、登记、计算上的差错以及调查者和被调查者 主观原因使调查中获得的原始资料不准确引起的误 差而引起的误差。 • 这种误差不是抽样调查所特有的,而是所有统计工 作都可能存在、并难以计算和控制的。 • 它的减少或避免,只有通过改进调查设计、加强组 织和管理、提高统计人员素质予以实现。
2020/3/3
32
真题分析
• 统计资料的基本特征是【 】 • A.数量性、总体性、客观性 • B.准确性、及时性、全面性 • C.大量性、同质性、差异性 • D.科学性、具体性、社会性 •A
2020/3/3
7
真题分析
• 判断并改正划线部分:统计资料描述的 是大量的、密集性事物的综合特征。这 说明统计资料具有客观性。
16
我国历次人口普查资料
普查时间 1953.7.1 1964.7.1 1982.7.1 1990.7.1 2000.11.1 2011.11.1
第二章统计数据资料的搜集与整理

分类:
按报送范围: 全面报表——要求调查对象中的每一个 单位均要填报 非全面报表——只要求一部分调查单位 填报 按报送日期: 月报、季报、年报 月报内容简单、时效性强 年报内容比较全面
(二)报告法
基层单位根据上级的要求,以各种原始 记录与核算资料为基础,搜集各种资料, 逐级上报给有关部门
统计报表制度
(三)观察与实验
调查者通过直接的观察或实验获得数据 的一种方法
1.直接观察法
是指就调查对象的行动和意识,调查人 员边观察边记录以收集信息的方法
由于调查人员不是强行介入,受访者无 需任何反应,因而常能够在被观测者不 觉察的情况下获得信息资料
第二章 统计数据资料的搜集与整理
第一节 统计数据资料的来源
一、统计数据资料的来源渠道 直接来源
是通过直接的调查获得的原始数据, 一般称之为第一手或直接的统计数据 主要通过统计调查获得 间接来源 是别人调查的数据,并将这些数据进 行加工和汇总后公布的数据,通常称之 为第二手或间接的统计数据
二、统计数据资料的间接来源
内容:
表式 由国家统计部门根据研究的任务 与目的而专门设计制定的统计报表表格, 用于搜集统计资料。是统计报表制度的 主体
填表说明 是对统计报表的统计范围、 指标等做出的规定,具体有填报范围、 指标解释、分类目录、其他有关事项的 规定
(四)重点调查
概念:是在调查对象中选择一部分重点 单位进行的一种非全面调查。
市场调查和社会调查常用方法
2.邮寄调查
是通过邮寄或宣传媒体等方式将调查表 或调查问卷送至被调查者手中,由被调 查者填写,然后将调查表寄回或投放到 指定收集点的一种调查方法
第二章统计数据搜集与整理

相应子总体的特征,深化对总体的认识。
14
[例]A,B,C三个工人一日产量分别为800, 1200,2000件,那么批量N=4000件,若抽 取样本量n=80,那么分层抽取件数为:
A层:80×(800/4000)=16件
第二章 统计数据收集、 整理与显示
1
主要内容
▪ 2.1 统计数据的收集 ▪ 2.2 统计数据的整理 ▪ 2.3 统计数据的显示——统计表和统计
图
2
§2.1 统计数据的收集
一、数据的收集
▪ 统计数据收集是根据统计研究的目的要求,采 用科学的形式和方法,有计划、有组织地获取 所研究变量数据的过程。在社会经济统计中, 统计数据收集也称为统计调查。它是进行统计 数据整理和分析的必要前提。
☺
➢ 适合于变量值较少,变动幅度不
☺
大的情况
34
表2—4 某企业日产量
日产量 10 11 12 13 14
合计
工人数 70
100 380 150 100 800
35
(2)组距式变量数列
▪ 将变量值的一个区间作为一组的变量数列是组距式 变量数列
▪ 每一组两端的值称为组限,各组最小值称为下限,最大值称 为上限。
8
普查应该注意:
统一规定普查的标准时间和统一的普查期限, 以避免由于时间变动使资料重复和遗漏。
统一规定普查内容和指标解释,不得任意改变 或增减项目。同类普查,各次调查的项目应尽 可能一致,以便于历史资料的对比研究。
同类普查应尽可能按周期进行,以便观察现象 发展变化的过程和规律。
9
(3)抽样调查
➢ 数量标志分组是从某个变量的数量差异上区分各种类型 组,其关键是正确划分各组界限。
应用统计学第2章 数据的搜集与整理

掌握数掌握数据的测量尺度及常用类型; 了解统计数据搜集的意义; 掌握统计分组、分配数列的编制方法; 掌握数据图表展示方法。
本章教学目的
第2章 数据的搜集与整理
第2章
统计分组、分配数列的编制方法数据图表展示方法
本章重点和难点
第2章 数据的搜集与整理
第2章
2.4 分配数列
第2章
1.列表法
2.4 分配数列
2.4.3 品质分配数列的表示方法
第2章
2.图示法(1)条形图。条形图是指用宽度相同、高度不同的条形来表示数据变化的图形。条形图可以横向展示,也可以纵向展示,纵向展示时又称柱形图。
2.4.3 品质分配数列的表示方法
2.4 分配数列
第2章
2.图示法(2)饼图。饼图是用圆形及圆形面积的大小来表示数据数值大小的图形。饼图通常用来表示研究总体中各个组成部分的比例分布,对于结构性的研究问题非常实用。
2.5.2 统计表的分类
2.5 统计表
第2章
2.分组表 统计表的主词按照某种标志进行分组后所形成的表称为分组表,利用分组表可以展示统计总体不同现象的特征,说明各个分组之间的内部结构和相互关系,如表2-13所示。
2.5.2 统计表的分类
2.5 统计表
第2章
3.复合表统计表的主词按照两个或两个以上的标志进行分组的表称为复合表,如表2-14所示。
2.1.1 数据的测量尺度
第2章
2.1 数据的测量尺度与常用类型
第2章
1.绝对数、相对数和平均数绝对数是数据最基本的表现形式,是其他数据指标形成的基础。相对数反映了研究对象的相对水平,由两个相互联系的绝对数的对比而得到。平均数反映了研究对象的总体表现水平,是一个抽象了的研究对象总体各单位在某一数量标志下的表现差异,表示研究对象的总体各单位的一般水平,而不是某个单位的具体水平。
第二章统计数据的搜集与整理

第⼆章统计数据的搜集与整理第⼆章统计数据的搜集与整理(⼀)教学⽬的通过本章的学习,了解统计数据搜集与整理的基本理论与⽅法,掌握各种⽅法的特性。
(⼆)基本要求要求灵活运⽤各种数据搜集的⽅式⽅法,并对所得数据进⾏加⼯整理,为以后各章学习打下基础。
(三)教学要点1、数据搜集的⽅式⽅法;2、统计调查⽅案的设计;3、统计分组;4、变量数列的编制;5、统计数据的显⽰。
(四)教学时数9课时(五)教学内容本章共分四节:第⼀节数据的计量与类型⼀、数据的计量尺度在计量学的⼀般分类⽅法中,依据对事物计量的精确程度,可将所采⽤的计量尺度由低级到⾼级、由粗略到精确分为四个层次,即名类尺度、顺序尺度、区间尺度和⽐尺度。
1.定类尺度定类尺度(Nominal scale,亦称分类尺度、列名尺度等)是这样⼀种品质标志,按照它可对研究客体进⾏平⾏的分类或分组,使同类同质,异类异质。
例如,按照性别将⼈⼝分为男、⼥两类;按照经济性质将企业分为国有、集体、私营、混合制企业等。
这⾥的“性别”和“经济性质”就是两种名类尺度。
名类尺度是最粗略、计量层次最低的计量尺度,利⽤它只可测度事物之间的类别差,⽽不能了解各类之间的其他差别。
名类尺度计量的结果表现为某种类别,但为了便于统计处理,例如为了计算和识别,也可⽤不同数字或编码表⽰不同类别。
⽐如⽤1表⽰男,0表⽰⼥;⽤1表⽰国有企业,2表⽰集体企业,3表⽰私营企业,等等。
这些数字只是不同类别的代码,决不意味着它区分了⼤⼩,更不能进⾏任何数学运算。
名类尺度能对事物做最基本的测度,是其他计量尺度的基础。
2.定序尺度定序尺度(Ordinal scale,亦称序数尺度、顺位尺度等)是这样⼀种品质标志,利⽤它不仅能将事物分成不同的类别,还可确定这些类别的等级差别或序列差别。
例如“产品等级”就是⼀种测度产品质量好坏的顺序尺度,它可将产品分为⼀等品、⼆等品、三等品、次品等;“考试成绩”也是⼀种顺序尺度,它可将成绩分为优、良、中、及格、不及格等;“对某⼀事物的态度”作为⼀种顺序尺度,可将⼈们的态度分为⾮常同意、同意、保持中⽴、不同意、⾮常不同意,等等。
2 第二章 统计资料的收集和整理

二、资料的搜集
(Collection of Data) 要求:原始数据准确、完整、及时。 资料的主要来源: 1.经常性资料:①统计报表:国家统一 制定并要求定期逐级上报的报表;②报 告卡(单);③日常医疗卫生工作记录。 2.一时性资料:①专题调查(不施加 处理因素);②实验(试验)研究(施 加处理因素) 。
三类资料间关系
例:一组2040岁成年人的血压
等 级 资 料
<8 8 12
低血压 正常血压 轻度高血压
计量资料 计数资料
15
17
中度高血压
重度高血压
以8kPa和12kPa为界分为正常 与异常两组,统计每组例数
第三节 统计工尽可能少的人力、财力及物力达到 预期的研究目的。设计是后三个步骤的 依据,是统计工作中最关键的一步。 方法:应遵循对照、齐同、随机和重复4个 基本原则。医学科研设计有调查设计和 实验设计。调查设计包括专业设计和统 计设计,统计设计包括资料搜集整理与 分析全过程的统计设想和安排;实验设 计包括动物实验、临床试验、社区干预 实验。
第二节 统计资料的类型
计量资料
(measurement data) 对每个观察单位用定量的方 法测定某项指标数量的大小所收 集的资料称为计量资料,一般有 度量衡单位。与计数资料的主要 区别在于观察单位之间只有量的 差别,没有质的不同。
计数资料
(enumeration data)
将观察单位按照某种性质或 类别进行分组,然后计数各组的 观察单位数所收集的资料称为计 数资料。与计量资料的主要区别 在于观察单位之间只有质的不同, 没有量的差别。
数值变量
(numerical variable)
数值变量又称为定量变 量,是指相同性质的观察单 位所具有的变量值是定量的, 表现为数值大小,一般有度 量衡单位,大多数数值变量 属于连续性变量。
管理统计学 第2版 第二章 统计数据的收集整理与显示

(4)系统抽样
首先将总体中各 单位按一定顺序 排列,根据样本 容量要求确定抽 选间隔,然后随 机确定起点,每 隔一定的间隔抽 取一个单位的一 种抽样方式。是 纯随机抽样的变
种
最主要的优势就 是经济性。最大 的缺陷在于总体 单位的排列上。 一些总体单位数 可能包含隐蔽的 形态或者是“不 合格样本”,调 查者可能疏忽, 把它们抽选为样
• 普查需要规定标准的时点:如第五次人口普查规定的标准时间 为2010年11月1日零时为标准时间。
统计报表
• 统计报表是按照国家有关的规定,自上而下同一布置,自下而上逐级 提供统计资料的调查组织方式。
• 统计报表是我国特有的一种统计调查方式,是建立在各基层单位原始 记录的基础上的一种统计调查方式,由于统计报表是逐级上报和汇总 的,有利于各级部门了解本地区、本部门或本行的的社会和经济发展 现状。
2.1 统计数据的收集
数据的来源
• 间接来源 研究者直接从公开出版物或通过网络渠道获取
所需数据,如《中国统计年鉴》、《中国统计摘 要》、《中国社会统计年鉴》 • 直接来源
研究者直接通过调查取得研究所需数据资料
2.1 统计数据的收集
普查
常用的统计 调查方式
抽样调查
重点调查
典型调查
简单随 机抽样
分层抽样
抽样调查
• 抽样调查是取得数据资料的最主要的一种方式,它是按照 随机原则从总体中抽取部分单位组成样本,对样本指标进 行测定,根据样本指标推断总体指标的一种非全面调查。
抽样调查的具体组织形式 抽样调查
简单随 机抽样
分层抽样
等距抽 样
整群抽样
(1)简单随机抽样
从总体N个单位中任意抽取n个单位作为样本, 使每个可能的样本被抽中的概率相等的一种 抽样方式
统计学第二章

第二章统计数据的收集、整理与显示2.1统计数据的收集一、统计数据的来源1、直接来源(原始来源):分为实验和统计调查(直接观察、报告、采访、登记)2、间接来源(二手资料):出版物、网络二、统计调查组织方式1、分类①按调查单位的范围大小分:全面调查和非全面调查②按调查时间是否连续分:经常性调查和一次性调查③按调查组织方式分:统计报表和专门调查。
其中专门调查又分为普查、重点调查、典型调查、抽样调查2、统计报表制度:按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度①优点:能保证统计资料的全面性和连续性;能保证统计资料的统一性和及时性;能满足各级部门对统计资料的需要②缺点:统计报表过多会增加基层负担;有可能由于虚假瞒报而影响统计资料质量3、普查:是指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查(主要用于搜集时点资料)①作用:可以为抽样调查提供抽样框;可以收集统计报表所不能提供的反映重大国情国力的基本统计信息②局限:由于需要大量的人力、物力、财力,不宜经常进行4、重点调查:是指为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式。
(这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况)①作用:能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料②局限:只适用于客观存在重点单位的情况5、典型调查:是指在对调查对象有一定了解的基础上,有意识的选择少数典型单位进行调查的一种非全面调查方式。
(指在数量表现上具有普遍意义呵呵代表性的总体单位,可以用来推断总体的数量)①作用:一定条件下能估计总体指标数值;可以用来研究新生事物②缺陷:不能确定推断的把握程度,无法计算和控制推断误差6、抽样调查:是指按照随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
男 女
地区 图2-2 部分地区男女样本分布图
图2-1 部分地区样本分布图
2. 圆图
60—64 5% 55—59 6% 50—54 8% 30—34 14% 65—69 4% 20—24 11% 25—29 12%
45—49 13%
40—44 13%
35—39 14%
三、简要回答下列问题
1. 2. 3. 4. 5. 统计调查的基本要求 统计调查方案包括的主要内容 统计数据的整理一般包含哪些程序 统计分组的意义 统计表的基本结构
四、SPSS操作练习
1. 在国民体质监测中获得50名对象的受教育程度调查结果,答案 用1~6数字表示,分别代表:①未上过学;②扫盲班;③小学; ④初中;⑤高中或中专;⑥大专及以上。试对下列数据,利用 SPSS制作单项变量频数表。
练习题
一、单项选择题 二、填空 三、简要回答下列问题 四、SPSS操作练习
一、单项选择题
1. 获得奖学金的学生分为甲、乙、丙三组。这里甲、乙、丙是( ) A. 定类数据 B.定序数据 C.定距数据 D.定比数据 2. 电视观众对于收费电视频道是否应该插入广告的态度分为不应该、应该、无所谓三种。这 里的数据是( ) A. 定类数据 B.定序数据 C.定距数据 D.定比数据 3. 从资料收集方法的角度来说,国民体质监测属于( ) A. 观察法 B.实验法 C.问卷调查法 D.访谈调查法 4. 从资料来源的角度来说,国民体质监测属于( ) A. 普查 B.重点调查 C.抽样调查 D.典型调查 5. 如果想利用图示的方法说明某单位2008年经费支出构成情况,应该使用( )。 A.条图 B.饼图 C.线图 D.点图 6. 如果想利用图示的方法说明7~18岁学生平均身高的变化趋势,应该使用( )。 A.条图 B.饼图 C.线图 D.点图 7. 如果想利用图示的方法说明全国各省市区国内人均生产总值水平,应该使用( )。 A.条图 B.饼图 C.线图 D.点图 8. 学生获得的奖学金是( ) A. 定类数据 B.定序数据 C.定距数据 D.定比数据
80.7 78.8 71.3 62 67.5
66 60 56.8 70 65
72 62.9 68.8 62.9 75
66.6 62.8 77 62.5 72.5
80 65 58.1 73 62.5
62.3 62.5 57 63.3 61.7
79 55.4 65 72.5 74
76 61 70.6 71 62.4
图2-3 辽宁省各年龄段人口构成
3. 线图
身高(cm ) 180 170 160 150 140 130 120 110 7 8 9 10 11 12 13 14 15 16 17 18 19 年龄
图2-4 辽宁省7-19岁男生平均身高折线图
4. 散点图
2.4 频数分布SPSS例解
[例2-3] 现有60名学生的年龄数据如下,计算频数表。
二、填空
1. 在调查对象中有意识地选择部分有代表性的单位进 行调查时,称为( )调查。 2. 在调查对象中按照随机性原则选择部分单位进行调 查时,称为( )调查。 3. 如果按照对象职业将数据进行分组,属于数据的 ( )分组。 4. 如果按照对象月人均收入额将数据进行分组,属于 数据的( )分组。 5. 用来表示总体中各单位在各组间的分布特征的统计 结果称为( )。
11 12 7 7 8 12 8 8 11 8 8 10 9 8 10 11 10 8 12 9
12
11 12 7
8
7 10 7
10
7 12 9
9
9 10 12
8
9 10 9
10
10 12 7
8
11 9 10
8
11 12 9
11
8 10 11
8
7 8 9
解:该例属于单项变量的分组,可以直接利用 Frequencies过程进行计算,步骤如下: 1. 选择“Analyze”→“Descriptive Statistics” →“Frequencies”,打开“Frequencies”对话框, 如图2-6所示; 2. 在对话框左侧的变量列表中选择“年龄”单击向右 箭头按钮,将其加入到“Variable(s)”框中; 3. 选中对话框下方的“Display frequency tables” 复选框,显示频数表; 4. 单击“OK”按钮,SPSS自动完成计算,结果如表 2-13所示。
二、统计图
(一)统计图的基本结构 统计图通常由标题、图域、标目、图例和 刻度5部分组成。 (二)常用统计图的种类 常用的统计图有条形图、圆图(饼图)、 线图和散点图等。
1. 条形图
人数 600 500 400 300 200 100 0 北京 天津 河北 山西 辽宁 吉林 黑龙江 地区
600 人数 500 400 300 200 100 0
59.1 62.7 72.5 62.4 62.5
参考答案:
组限 164~ 166~ 168~ 170~ 172~ 174~ 176~ 178~ 180~ 182~ 184~ 186~ 合计 频数 1 2 4 6 7 7 8 6 4 2 2 1 50
50名学生身高频数分布表
频率 2.0 4.0 8.0 12.0 14.0 14.0 16.0 12.0 8.0 4.0 4.0 2.0 100.0 累计频率 2.0 6.0 14.0 26.0 40.0 54.0 70.0 82.0 90.0 94.0 98.0 100.0
一、数据来源
(一)积累类数据 (二)文献类数据 (三)报表类数据 (四)专题调查类数据
二、数据收集方法
(一)观察 (二)实验 (三)问卷调查 (四)访问调查
三、统计调查形式
(一)普查 (二)抽样调查 (三)重点调查 (四)典型调查 (五)统计调查的基本要求 1. 准确性 2. 及时性 3. 全面性 4. 系统性
第2章
统计数据的收集与整理
2.1 2.2 2.3 2.4 统计资料的收集 统计资料的整理 统计图表 频数分布SPSS例解
2.1 统计数据的收集
数据是统计分析的基础,如果没有统计数据,所 有统计分析就无从谈起;如果没有完整、准确的统计 数据也不可能得到符合客观现实的统计结论。因此, 统计资料的收集是统计工作的第一个环节。研究者取 得的原始统计资料一般是杂乱无序的,并且可能存在 缺失、损毁和错误,必须经过一定的整理、审查、分 类、汇总等程序,然后才能真正进入到统计分析过程。 统计数据的收集就是根据统计研究的目的和要求, 有组织、有计划地向调查对象收集原始资料的过程。
2.3 统计图表
一、统计表 (一)统计表的基本结构
标号 标题 横标目的总标目 横标目 …… 合计 纵标目 …… 合计
(二)统计表的种类 根据说明事物的主要标志(主语)的复杂程度,统 计表可以分成简单表和复合表。 (三)编制统计表的基本要求 1. 统计表必须重点突出,简单明了,即一张表 只包括一个中心内容,表达一个主题。 2. 统计表要主谓分明,层次清楚,即主谓语的 位置准确,标目的安排及分组要层次清楚,符合逻辑, 便于分析比较,这是一个统计表质量优劣的关键所在。
四、统计分组 (一)统计分组的意义 (二)分组标志 (三)频数表
1. 单项变量分组 2. 等组距分组 组距是每组所包括的变量范围,它等于上限与 下限之差。组距分组即每组含有若干变量值。在进行 组距分组时如果各组组距相同,称为等组距分组。
[例2-1] 有50名18岁城市男生的身高数 据如下,制作频数分布表。
5 5 4 5 4 5 6 4 3 5 6 6 5 5 4 5 5 3 3 5 5 5 5 4 5 6 1 3 3 4 5 5 5 5 5 2 5 5 3 2 2 5 5 4 3 5 5 5 6 4
2. 50名成年男子的体重数据如下,试利用SPSS制作等组距变量频数表。
72.5 63 56 63 64
表2-13 60名学生的年龄分布频数
年龄
频数
频率
累计频率
7
8
8
14
13.3
23.3
13.3
36.7
9
10 11 12 合计
10
11 8 9 60
16.7
18.3 13.3 15.0 100.0
53.3
71.7 85.0 100.0
[例2-4] 利用SPSS计算[例2-1]数据的频数分布表。
表2-14
四、调查方案设计
(一)确定调查目的和内容 (二)确定调查对象和调查单位 (三)确定调查项目 (四)拟定调查表 (五)确定调查的时间 (六)制定调查的组织实施计划
2.2 统计数据的整理
一、统计数据整理的目的与程序 (一)统计数据整理的目的 (二)统计数据整理的程序 二、数据预处理 一般把统计数据的人工审核、数据编码和录入、 数据排查统称为数据预处理。 三、变量分类 (一)定类变量 (二)定序变量 (三)定距变量 (四)定比变量
185.7 180.9 177.3 173.0 167.0 183.8 168.5 179.0 180.5 170.0 177.0 177.0 176.0 171.5 176.0 172.5 175.8 178.5 173.2 175.1 180.0 174.0 169.0 172.8 178.0 169.7 170.0 166.8 168.7 165.3 176.2 182.8 171.6 172.5 176.4 172.7 187.0 171.5 178.5 172.0 170.3 184.0 180.5 175.2 175.0 179.2 174.0 177.5 179.0 175.6
(1)计算全距: R X max X min 187165.3 21.7 21.7 10.85 11 (2)确定组距(i)或分组数(k) k R i 2 (3)确定组限 (4)频数划记 本例计算结果如表2-5所示