02第二章第2节 统计数据的整理
统计学课件-第二章统计整理

目
CONTENCT
录
• 统计整理概述 • 数据收集与整理 • 统计分组 • 频数与频率分布 • 统计表
01
统计整理概述
统计整理的定义
统计整理是根据统计研究的目的,将统计调查所得到的大量原始 资料进行审核、汇总和加工,使之系统化、条理化,从而得出能 够反映现象总体特征的综合数字资料的工作过程。
统计表的编制原则与步骤
原则
统计表的编制应遵循科学性、简明性和实用性的原则。科学性要求表格设计合理 、逻辑严谨;简明性要求表格内容简洁明了、易于理解;实用性要求表格能够满 足实际需要,提供有价值的信息。
步骤
编制统计表的一般步骤包括收集数据、设计表格结构、录入数据、核对数据、调 整表格格式和发布表格等。在编制过程中,需要注意数据的准确性和完整性,同 时要合理设计表格的结构和布局,使得表格内容丰富、条理清晰。
分组是统计整理的关键环节, 是统计分析的基础。
统计分组的方法
按照数量标志分组
根据数量标志将总体分为若干个部分,然后对各部 分进行统计描述和统计分析。
按照品质标志分组
根据品质标志将总体分为若干个类别,然后对各类 别进行统计描述和统计分析。
复合分组
同时使用数量标志和品质标志进行分组,以便更全 面地揭示总体的内部结构。
它是在统计调查取得大量原始资料之后,对所有资料进行的“去 粗取精、去伪存真、由此及彼、由表及里”的再加工过程。
统计整理的目的
将大量杂乱无章的个体资料、群体资料进行审核、 汇总,使其成为系统化、条理化的可资运用的统计 资料。
揭示总体单位的数量特征和相互关系,形成能够说 明总体特征的综合资料。
保证统计资料的准确性和及时性,为统计分析提供 可靠的依据。
第二章第二节 统计整理

第二节统计整理一、统计整理的概念和意义统计整理是指根据统计研究的目的和任务,对统计调查或科学实验获得的大量原始资料进行科学的分类、汇总,或对已经加工过的资料进行再加工,使之成为系统化、条理化、标准化的能反映总体特征的综合统计资料的工作过程。
通过统计调查或实验,我们取得了大量的原始资料,但这些原始资料一般是分散的、不系统的个体资料。
它们只能说明总体各单位的具体情况,而不能说明总体特征,难以反映总体的全貌情况。
用这样的资料,无法从总体上认识和研究社会经济现象的数量表现,无法揭示社会经济现象发展变化的本质和规律。
因此,必须对这些分散的、不系统的个体资料采用科学的方法进行加工、整理、汇总,使之成为系统化、条理化、标准化的能反映总体特征的综合统计资料,并以此计算各种反映总体特征的综合指标,认识社会经济现象的总体特征和全貌,认识、分析社会经济现象的本质和发展变化规律。
可见,统计整理不是单纯的数据汇总,而是运用科学的方法,对调查资料进行分类和综合,从感性认识上升到理性认识。
它是从对社会经济现象个体量的认识到社会经济现象总体量的认识的连接点,是统计调查的继续,是统计显示与分析的前提和基础,在整个统计工作中起着承前启后的作用。
统计数据整理的质量,直接影响着统计工作的成果。
二、统计整理的内容统计整理的内容,主要包括以下几个方面:(1)对原始资料进行审核与检查,如果发现被调查单位的资料不齐全或有差错,要及时查询订正。
(2)对各项指标进行综合汇总,并按调查和分析目的的要求进行各种分组,汇总出各组单位数和各项指标的总数。
(3)将汇总的结果编制成统计表与统计图,以便进一步分析和应用。
三、统计整理的方法与步骤(一)统计分组统计分组是根据研究的任务和对象的特点,按照某种分组标志将统计总体分为若干组成部分。
理解统计分组的概念要注意三点:(1)统计分组的对象是总体。
(2)统计分组应有分组标志。
(3)统计分组对总体而言是“分”,对总体单位而言是“合”。
统计学 第二章 统计数据的搜集、整理和显示

(二)实验方式
所谓实验方式,就是运用自然科学的试验 法,通过观测人为安排条件下试验产生的各种 结果并加以记录的方式来获取数据,或通过人 为安排条件下的试验来探求某个或某些因素对 所研究事物的数量影响程度和作用方式,凭借 实验结果来揭示所考察因素与所研究事物之间 的数量因果关系。
1、实验的原则
运用实验方式需要遵循下列两个原则:均衡分散
1、普查
普查是根据特定的统计研究目的而专门组织的 一次性的全面调查,用以收集所研究现象总体的全 面资料(即总体中的所有个体都是观测单位)。 普查的组织方式一般有两种:一是建立专门的 普查机构,配备一定数量的普查人员,对观测单位 直接进行登记。如我国历次的人口普查等。二是利 用观测单位的原始记录和核算资料,颁发调查表, 由观测单位按要求填报。如物资库存普查等。
重点调查的单位可以是一些企业、行业、 也可以是一些地区、城市。此种调查方式的优点是, 所投入的人力、物力少,而又较快地搜集到统计 信息资料。一般来讲,在调查任务只要求掌握基 本情况,而部分单位又能比较集中反映研究项目 和指标时,就可以采用重点调查。
在下列问题中为了得到数据,采用什么调查? • 为了买校服,了解每个学生衣服的尺寸。 • 商检人员在某超市检查出售的饮料的合格率。 • 对占全市工业总产值五分之一的六个大型企 业进行调查,以了解全市工业总产值的基本 情况。
观测性误差
数 据 收 集 误 差
也叫登记性误差或调查性误差,它 是在调查观测的各个环节因工作粗 心或被观测者不愿很好配合而造成 的所收集数据与实际情况不符的误 差,包括计量错误、记录错误、计 算错误、抄写错误、汇总错误、计 算机输入误差等工作误差,以及被 调查者不愿或难以提供真实情况的 误差,有时还存在调查人员弄虚作 假的误差和各种人为因素干扰的误 差。 这部分误差通常是人为造成的,通 过对统计调查资料的严密审核,是 可以发现并加以更正的。观测性误 差则可能存在于任何统计调查。 因样本不能完全代表总体而产生 的估计结果与总体真实数量特征 不符的误差。根据样本不能完全 代表总体的原因不同,代表性误 差又分为系统性代表性误差和偶 然性代表性误差两种。
管理统计学第二章统计数据的搜集与整理

D.一家市场研究机构想要调查行人是否注意到新加坡的大片 在我国,公开出版或报道的社会经济统计数据主要来源是国家和地方的统计部门以及各种学报。 岛屿安装了新的交通信号灯系统(LED)。 无论采取何种方式进行调查,在取到需要的统计数据时,都有一些具体的数据搜集方法。 A.比例尺度 统计调查是取得社会经济数据的主要途径,也是直接获得第一手统计数据的重要手段。
教师的平均工资水平
学生的智商
(b) 该地区的学生数量
比例尺度
学校名称
无序分类尺度
每名学生花费的金额
比例尺度
教师的平均工资水平
比例尺度
学生的智商
间隔尺度
1.3 绝对数与相对数
• 绝对数: 反映客观现象总体在一定时间、地点条件 下的总规模、总水平的综合指标,表现为事物的绝 对水平的描述。如:一定总体范围内的粮食总产 量、农业总产值、国营企业数等。
【例2-1】判断下列变量的类型
• 邮局信件的重量 可以作加法、减法计算,但不可以作乘法计算。
• 连续定量变量
• 小轿车的牌子 • 定性变量 定量变量 该地区的学生数量
无论采取何种方式进行调查,在取到需要的统计数据时,都有一些具体的数据搜集方法。
• 镭射唱片总的播放时间 • 连续定量变量 管理统计学第二章统计数据的搜集与整理
。
• 比例尺度:由于也有测量单位,因此我们可以用数值之间 的差值来描述两个对象之间的差距。数值之间的比例有意 义,而且“零”这个数值有内在的含义。
– 不仅可以作加减运算,还可以作乘除运算。 – 例如,身高、重量和花费的时间就属于这一类。
第2章_统计数据的收集与整理

➢ 确定调查项目 调查项目是指对调查单位所要调查的具体内容属性,这些属
性在统计上又称标志。它是由调查对象的性质、调查目的和任务 所决定的,包括一系列品质属性和数量属性。
➢ 设计调查表或问卷 调查项目一般采用调查表或调查问卷的形式。将调查项目科
学地分类、排列,就构成调查表或调查问卷。 (举例)
第二章 统计数据的收集与整理
第二节 统计数据收集
• 一、收集资科的方式
取得统计数据有多种途径,但概括起来不外乎是直接方式和间接方 式。
(一)统计资料的直接收集
直接获取第一手统计资料的主要方法包括:统计调查和试验设计。 统计调查的方式主要有 ➢ 普查 ➢ 抽样调查 ➢ 重点调查 ➢ 统计报表制度。
第二章 统计数据的收集与整理
第二章 统计数据的收集与整理
(一)统计资料的间接收集
• 凡不是通过直接的统计调查和试验,而是从其他各
种渠道搜集的第二手资料,我们把它总称为统计资料的 间接收集。
• 间接资料的来源大体包括:统计年鉴、统计摘要、 统计资料汇编、统计台账、统计公告、报纸、杂志、网 上资料等。
第二章 统计数据的收集与整理
• 顺序数据(rank data)
• 对事物类别顺序的测度 • 数据表现为类别,用文字来表述 • 例如,产品分为一等品、二等品、三等品、次品等
• 数值型数据(metric data)
1. 对事物的精确测度 2. 结果表现为具体的数值 3. 例如:身高为175cm、168cm、183cm
第二章 统计数统据计的数收据集的与分整类理
第二章 统计数据的收集与整理
第三节 统计数据整理
(二) 统计分组的方法
➢ 按标志的特征分组 总体单位的各个标志按分组标志的特征分组区
第二章 统计数据的整理

第二章统计数据的整理【学习目标】本章主要介绍有关统计数据整理的基础知识,包括数据整理的含义及其重要性、数据整理的内容、数据分组的意义、分组的类型和方法、经济统计中的常用分类、分配数列的含义和类型、一些分配数列中的概念、变量数列的编制方法、统计表的构成和编制、各种统计图的绘制等,这些内容对以后学习统计数据的描述有着重要的作用。
学习时要求掌握统计数据整理的最基本理论,在此基础上熟练掌握主要的整理操作方法,能够根据不同的统计原始数据编制相应的分配数列,并能根据所编制的数列编制恰当的统计表和绘制适当的统计图。
【重点难点】1.数据整理的内容2.数据分组的类型和方法3.经济统计中的常用分类4.变量数列的编制方法5.统计表的编制6.各种统计图的绘制【学习内容】第一节统计整理的意义和内容一、统计数据整理的意义统计数据整理,就是根据统计研究的任务与要求,将调查所得到的大量原始资料进行科学的加工、分类、汇总,使之条理化、系统化,得出能够反映总体综合特征的统计资料的工作过程。
大量数据收集上来以后,并不能直接用来分析,因为这些数据间的差异仍然体现为一种原始的无序的状态,只有经过整理后我们才能找出现象的规律性。
例如,通过人口普查,可以取得每个人的性别、年龄、民族、文化程度和婚姻状况等个体资料,这仅说明单个人的具体情况,然而,通过对普查人口资料的整理,就可以得到全国及各地区的人口总数、人口性别结构、民族构成、年龄结构等反映全国人口综合特征的统计资料,达到对全国人口的全面、系统的认识。
统计数据的整理工作在统计工作过程中具有十分重要的地位,它实现了从调查得到的大量个别单位的标志表现向说明总体数量特征的指标数值的过渡,是人们对社会经济现象从感性认识上升到理性认识的连接点。
同时,统计整理又是统计分析的前提,如果不对统计资料进行整理,就得不到必要的统计分组和变量数列,也得不到科学合理的统计图表,就无法计算统计分析指标,也就谈不上进一步的统计分析了。
统计学第二章数据搜集整理

普查的规定
• • • • 规定统一的调查项目 规定统一的标准时点 规定统一的普查周期 例如:第六次人口普查,调查表,性别、年龄、 民族、受教育程度、行业、职业、迁移流动、社 会保障、婚姻生育、死亡、住房情况等 • 截止时间,标准时点是2010年11月1日零时 • 人口普查的周期是10年,2000年,2010年
频率
fi
fi
fi :第i组频数
32
(2)频率的性质 (A )
0
fi
1 fi
(B ) (3)频数密度与频率密度(消除异距分组对频数影响) (A) (2.7) 频数密度=频数/组距 (B) (2.8) 频率密度=频率/组距 各组频数密度与各组组距乘积之和等于总体单位数,各 组频率密度与各组组距乘积之和等于1.
29
组数的确定(H.A.Struges经验公 式)
•
n = 1 + 3.3logN
N – 24 – 44 – 89 – 170 – 359 n 5 6 7 8 9
(斯特杰斯)
• • 15 • 25 • 45 • 90 • 180 • 组距=
30
四、频数(次数)分布
1.频数分布的基本理论
(1)频数分布的定义 在统计分组的基础上,将总体所有单位按某一标志 归类排列,并计算其相应出现的次数。 频数分布是统计整理的重要形式,通过对零乱的、 分散的原始资料进行有次序的整理,形成一系列反映 总体各组之间单位分布状况的数列,即分布数列。
10
• 概率抽样的特点: 1、样本单位按随机原则抽取,排除了主观因素对 选样的影响。 2、根据部分调查的实际资料对调查对象总体的数 量特征作出估计。 3、抽样误差可以事先计算并加以控制。 • 抽样调查的适用场合
第2章 统计数据的收集整理与显示

A:您至今未买电脑的原因是什么?(单选不可以,多 选可以) (a)买不起(b)没有用(c)不懂(d)其它
(3) 无论多/单选题,任一个备选答案都不能有多 重含义。 A.您选择信息专业的目的是:
(a)自己喜欢,好就业(b)„„
(4) 无论多/单选题,备选答案之间不能有包含关 系。 A.您上大学的目的是:
例2.1 某车间50个工人看管机床台数资料如下:
3 6 2 4 3 2 6 4 3 2 4 2 5 2 6 2 3 5 4 3 2 3 6 5 4 2 4 3 2 2 3 5 4 5 6 2 2 6 4 3 2 6 3 4 5 4 5 2 3 5
试对数据进行分组。 解:由于机器台数属于离散型变量,因此使用单项式分 组方法。将原始资料按变量值升序排列,然后将相同变 量值分为一组,最后将资料分成若干组。
2.按数量标志分组 数值型数据:主要是按照数值进行分组。 例:对学生成绩分组,可分为60分以下、60~70分、 70~80分、80~90分、90分以上5个组。
单项式分组 按数量标志分组的方法: 组距式分组
单项式分组:把每一个变量值作为一组。 适用条件:通常只适于离散变量且变量值较少的情况
表2-2 变量编码表
NUM SEX JOB A11 A12 A13 A14 A15 A21 A22 A23 A24
001
002
1
1
1
210来自001
1
1
1
0
1
1
1
1
0
0
0
1
0
编码表说明:
NUM- 编码 SEX- 性别 jOB- 职务 A11~A15代表第一题中5个选项,选中者输入1, 未选中者输入0。 A21~A24代表第二题中4个选项,选中者输入1, 未选中者输入0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
20.9
31.3 43.1
28.6
1985
1992 2000
28.4
21.8 15.9
43.1
43.9 50.9
28..5
34.3 33.2
2010
2011 2012 2013 2014
10.2
10.1 10.1 10.0 9.2
46.8
46.8 45.3 43.9 42.6
43.0
43.1 44.6 46.1 48.2
数量分组的种类:
变量分组
单项式分组:一个变量值代表一组
组距式分组:一组变量值代表一组 等距分组和异距分组 间断式分组和连续式分组
单项式分组:
某厂工人按日产量分组 产量(件) 2 3 4 5
返回本问题
组距式分组,等距分组
某校学生按成绩分(分) 60以下 60~70 70~80 80~90 90以上
合计
人数
60 50 10 40 30 10
100
(2)按分组标志的性质不同
品质分组: 又称属性分组,按品质 标志分组而成。
变量分组: 又称数量分组,按数量 标志分组而成
品质分组
变量分组
学生按籍贯分 学生按身高分(米) 安徽省 1.5以下 1.5~1.6 山东省 1.6~1.7 河北省 …… 1.7~1.8 1.8以上
返回本问题
饮料分组表
人数 分组 可口可乐 15 11 旭日升 百事可乐 9 汇源果汁 6 9 露露 合计 50
频数
可口可乐 旭日升 百事可乐 汇源果汁 露露
饮料分组图
电冰箱消费者对广告宣传途径的效果评价?
社会 您觉得哪种类型的广告宣传效果最好?(仅选一项) 1.电视 2.网络 3.杂志 4.报纸 5.路牌 6.宣传页
返回本问题
2、将数据分组 和汇总
为了更加清楚的显示数据的规律,可将已 排序的数据进行分组,并汇出各组总量。 分组的目的: 使性质相同的数据归为一组 性质不同的数据分开,使数 据之间的差异性显示出来。
分数 60以下 60~70 70~80 80~90 90以上 合计
人数 5 11 16 13 5 50
汇源果汁
可口可乐 露露
旭日升冰茶
百事可乐 可口可乐
可口可乐
露露 百事可乐
可口可乐
汇源果汁 可口可乐
可口可乐
百事可乐 露露
可口可乐
旭日升冰茶
百事可乐
汇源果汁
旭日升冰茶
饮料分组表
人数 分组 可口可乐 15 11 旭日升 百事可乐 9 汇源果汁 6 9 露露
合计
50
返回10
4、制作统计表和统计图
统计表和统计图是统计数据显示的方式 更形象 更直观 两者均可借助于计算机完成
试显示其规律
Fanhui3
学生统计学成绩分布表
分数 60以下 60~70 70~80 80~90 90以上 合计 人数 1 10 20 10 1 42
对称分布
通过整理可以将数据 的规律显示出来。
Fanhui3
整理的地位
在统计工作过程中起着承前启后的作用
统计调查
统计整理
统计分析
Fanhui3
(二)统计整理的程序
首组的组中值 = 首组上限 – 邻组组距 / 2
末组的组中值 = 末组下限 + 邻组组距 / 2
返回本问题
注意实际问题:
西瓜重量 2斤以下 2---6斤 6斤以上 组中值 ? 4 ?
说明:
单项式分组只适用于离散型变量且变量 值较少的情况。因为如果数据过多,单项 式分组达不到显示数据规律的目的。 在数据较多或连续型变量的情况下,需使 用组距式分组。
异距分组,连续分组
某厂职工按收入分(元) 600以下 600~1000 1000~1500 1500以上
异距分组,间断分组:
某市所有企业按 人数多少分组 100以下 101~1000 1001以上
组距式 分组中涉及的概念:
组数(n) 组距(d) 组限 组中值
返回本问题
A、 组数(n)的计算公式
1500 1800 2000 2500 2800 3000 3600 3800
月储蓄(元)
300 500 600 680 700 880 900 1100
家庭数(630户)
25 70 13 75 400 18 10 20
居民月收入和储蓄额之间有正依存关系
商场按流转额分 50万元以下 50~200万元 200~400万元 400~600万元 600~800万元 800~1000万元 1000万元以上
返回本问题
组距式数列、等距数列:
某班学生考试成绩 考分 人数(人)比重(% ) 50~60 2 5.0 60~70 7 17.5 70~80 11 27.5 80~90 12 30.0 90~100 8 20.0 合计 40 100.0
返回本问题
组距式数列、异距数列:
某地区人口年龄分布 人口按年龄分组 人口数(万人) 1岁以下(婴儿组) 1 1~7岁(幼儿组) 6 7~17岁(学龄儿童组) 12 18~55岁(有劳动能力的人口组) 24.6 55岁以上(老年组) 8.1 合计 51.7
又称统计分布、次数分布、频数分布、分布数列
返回本问题
2、频数分布的构成要素
总体按某种标志所分的组
各组出现的单位数(次数或频数)
f 频率:次数的相对数,即: f/∑f
返回本问题
3、频数分布的种类
品质数列 变量数列 单项式数列 等距数列 异距数列
组距式数列
注意变量数列的构成要素:标志值和次数
返回本问题
C、 组限
分上限和下限 70~80 80~90 90~100
组下限 组上限
组限的划分方法:
若变量为 连续型: 相邻组的组限必须重叠; 在统计次数时,应遵循的原则 为:上组限不统计在本组内。
ቤተ መጻሕፍቲ ባይዱ
若变量为 离散型:
相邻组的组限必须断开
D、组中值
各组上限和下限之间的中点值
上限+下限 2
返回本问题
开口组的组中值的求法
发达国家第一产业在2%~3%之间,第二产业在 30%~40%之间,第三产业在60%以上。
如美国三者的比例为:1 % 、23.7 %和75.3%
我国的产业结构状态:第一产业比重下降,第二、 第三产业比重上升,合乎经济发展趋势。但第二产 业比重偏高,第三产业比重偏低,说明产业结构需 进一步优化。
人均月收入(元)
返回26
(三)Excel中的整理工具
1、数据排序
2、频数分布表 3、数据透视表 4、统计图 都属于统计表
返回本问题
1. 数据排序
在“数据”中选择“排序”即可操 作。
2.频数分布函数(Frequency)
通过该函数,可以对数据进行分组与归 类,从而使数据的分布形态更加清楚地表 现出来。 新Excel:在“公式”中找“函数” 旧Excel :在“插入”中选择“函数”即可操作。
(二)统计分组的原则和方法
1、原则:穷尽性和互斥性
某百货公司:
服装分类 男装 女装 童装 西装 销售额(万元) 10 15 6 8
分组是否正确?
企业人数
100以下
企业人数
100以下
职工工资
1000以下
职工工资
1000以下
101~500
501~1000
100~500
500~1000
1001~3000 1000~3000
分一下几步:
1、对原始数据进行审核和排序
2、将数据进行分组 和 汇总
3、制作统计表和统计图——整理结果的显示 4、积累和保管统计数据
返回本问题
1、对原始数据进行审核和排序
(1)审核:即检查数据中的错误 ☆审核无误后将数据录入计算机中建立数据表 (2)排序:录入的数据一般是无序的,不能反映 现象本质与规律性。 为了发现数据的一些明显特征或趋势, 可对其进行排序。 排序可借助于计算机完成
三、频数分布(统计分布)
—— 是统计整理的结果
(一)频数分布的概念 (二)频数分布的编制方法
(三)累计频数和累计频率分布表
(四)频数分布的类型
返回本节首
(一)频数分布的概念
1、定义: 在统计分组的基础上,将总体的 所有单位按组归类排列,并计算其相应的次 数,形成总体中各个单位在各组间的分布。
3001~5000 3000~5000
1001以上
1000以上
5001以上
5000以上
分组是否正确?
2、统计分组方法
(1)品质分组的方法:
方法比较简单。
(2)数量分组的方法:
能反映事物质的差异
须注意:确定合适的数量分组界限
采用正确的分组形式
采用单项式还是组距式分 组;等距还是异距分组; 间断式还是连续式分组….
美国统计学家斯特吉斯: n= 1+ 3.322 lgN 其中, n 为组数,N为总体单位总数 经验分组见30页
B、 组距(d)
组的最大值 减 组的最小值
注意:组数和组距的关系:
100~110 110~120 ……
当全距(R)一定时,两者成反比。
即:R是已知的,在组数确定后, d = R / 组数
返回本问题
对称分布
通过分组能对总体的分布状况进行描述
某超市随机抽取50人进行调查,了解哪种 饮料更受欢迎,结果如下。试显示其规律
旭日升冰茶 可口可乐 露露 可口可乐 百事可乐 可口可乐 旭日升冰茶 百事可乐 露露 旭日升冰茶 旭日升冰茶 可口可乐 旭日升冰茶 可口可乐 可口可乐 旭日升冰茶 露露 旭日升冰茶 汇源果汁 露露 百事可乐 可口可乐 百事可乐 汇源果汁 露露 可口可乐 旭日升冰茶 百事可乐 露露 汇源果汁