第三章统计数据的整理
第3章 统计整理
![第3章 统计整理](https://img.taocdn.com/s3/m/9dc06b19650e52ea5518988d.png)
(2)必须选择最主要的标志作为分组依据;
例3:根据统计调查资料来研究人民生活水平变动情况时, 可供选择的分组标志有家庭人口数、每户就业人数、每 一就业者负担人数、家庭总收入、平均每人每月生活费 收入等,其中最能反映人民生活水平变动的标志是:平 均每人每月生活费收入,应选择这一标志作为分组标志。
练习:企业按净产值分组为:单位(万元) 10以下 10-20 20-30 计算首组和末组的组中值。 30-40 40-70 70以上 首组组中值=10-10/2=5(万元) 末组组中值=70+30/2=85(万元)
第四节
统计汇总
一、统计汇总:即在统计分组的基础上,将统计资料
归并到各组中去,并计算各组和总体的合计数(包 括单位总数和标志总量)的工作过程。
例如:对全国的工业企业进行
简单分组: 按所有制类型分:全民所有制企业、集体所有制企业 按轻重工业分:重工业、轻工业 按企业规模大小分:大型企业、中型企业、小型企业
复合分组:
重工业 全民所有制 轻工业 集体所有制
大型企业 中型企业 小型企业
重工业
轻工业
3、按分组标志的性质分为品质分组和数量分 组。
N 15-24 25-44 45-89 90-179 n 5 6 7 8
180-359 9
360-719 10
适用条件:
1.近似正态分布 2.现象特性适合等距分组
组
限
组限:指每组两端数值。分为上限和下限。 上限:每组的终点数值(最大值)。 下限:每组的起点数值(最小值)。 组限的形式:与变量的特点有关,重合式和不重合式。
第一节 统计整理的意义和程序
一、统计整理的意义 二、统计整理的程序
统计学 第3章 统计数据的整理
![统计学 第3章 统计数据的整理](https://img.taocdn.com/s3/m/fb7e50b9bb68a98270fefa33.png)
统计分组的标志
第三章 统计数据的整理
统计分组的标志:分组标志就是将总体分为各个性质不同的标准或根据。
根
据分组标志的特征不同,总体可按属性标志分组,也可按数量标志分组。
1.按属性标志分组
以属性标志作为分组标志,并在属性标志的变异范围内划分各组界限,将总体 分为若干组。属性标志划分,概念明确,容易确定分组组数,如性别。
2.按数量标志分组
以数量标志作为分组标志,并在数量标志的变异范围内划分各组界限,将总体 分为若干组。如工资。
第三章 统计数据的整理
(五)简单分组和复合分组
在统计分组时,根据统计研究目的不同,分组标志的选择可以是一个标志,也可以是 两个或两个以上的标志,这样就有简单分组和复合分组之分:
1.简单分组 对总体只按一个标志分组称为简单分组。
第三章 统计数据的整理
数量次数分布的编制方法
在组距次数分布中,各组组距相同的次数分布称为等距次数分 布(表3-8)。各组组距不同的次数分布称为异距次数分布。
等距次数分布一般在现象性质差异变动比较均衡的条件下使用。
优点:
• 易于掌握次数分布的特性。
• 各组次数可以直接比较。
组数= 全距/组距
组距=全距/组数
100.00
提问:这是单 项次数分布还 是组距次数分 布?
第三章 统计数据的整理
数量次数分布的编制方法
例:对某工厂某月50名工人装配零件(件)情况进行调查, 得到下列初级资料:
106 81 98 111 91 107 86 105 93 106 82 108 114 122 109 104 125 103 113 102 106 84 128 104 91 112 85 96 115 89 97 105 92 111 107 97 105 124 106 86 96 110 112 103 108 110 109 125 101 119
统计学第3章统计整理
![统计学第3章统计整理](https://img.taocdn.com/s3/m/737ed2cc6edb6f1afe001f2f.png)
14
7.0 21 10.5 193 96.5
4 90 —100 31 15.5 52 26.0 179 89.5 5 100—110 65 32.5 117 58.5 148 74.0
6 110—120 52 26.0 169 84.5 83 41.5
7 120—130 8 130—140
23 11.5 192 96.0 31 15.5
一、分配数列的概念和种类
1.概念
统计总体按照某一标志分组以后, 用以反映总体各单位分配情况的统计 数列,称分配数列,又可称次数分配, 或次数分布。
它由两部分组成: 总体所分的各个组和各组所拥有的 单位数(次数或频数)。
例
月工资分组(元) 工人数(人) 占总数比重(%)
1000 以下
210
39.6
1000-1500
组距式 分组
以变量值变动的一个区间作为一组,区间的 距离称为组距。适用于连续型变量和离散型 变量的变量值较多的情况。
第三章 统计整理
在进行组距分组时,会涉及到一 些问题,包括:等距分组和不等距分 组、组限、组中值。
第三章 统计整理
等距 分组
不等距 分组
各组组距均相等。如: 10—20 20—30 30—40
组中值 = (上限值+下限值)÷2
开口组组中值的计算: 缺下限:组中值=本组上限— 相邻组组距/2
缺上限:组中值=本组下限+ 相邻组组距/2
例
产值(万元)
第一组组中值:
50以下 50 — 60 60 — 70 70以上
50-(10÷2)= 45 最后一组组中值: 70+(10÷2)= 75
第二节 分配数列
较合适是? (c)
统计学(第三章)
![统计学(第三章)](https://img.taocdn.com/s3/m/1f187df7f705cc17552709d4.png)
四、统计分组方法 统计分组的关键在于选择分组标志和 划分各组界限。划分各组界限,就是要在 分组标志的变异范围内,划定各相邻组之 间的性质界限和数量界限。 (一)按品质标志分组的方法 选择反映事物属性差异的标志作为分 组标志,界限比较明确,类型比较稳定。 如,企业按所有制分组、人口按性别分组 等。
(二)按数量标志分组的方法 数量标志有离散型和连续型之分,其分 组的方法和形式也不同。 1、按离散型变量标志分组其形式有2个 (单项式分组和组距式分组); 2、按连续型变量标志分组其形式只有一 个(组距式分组)。
某班级学生按性别分组 学生按性别分组 男 女 合 计 人数(人) 60 40 100
2、按数量标志分组。按数量标志分组 就是选择反映事物数量差异的数量标志作 为分组标志,并在数量标志的变异范围内 划定各组界限,将总体划分为性质不同的 若干组成部分。 3、根据分组选择标志的多少不同,统 计分组又可分为简单分组和复合分组。 简单分组。简单分组是指对统计总体 仅按一个标志进行分组。
二、统计整理的步骤 1.设计统计整理方案 2.对原始资料进行审核 3.对原始资料进行分组和汇总 4.编制统计表或绘制统计图 综上所述,设计整理方案、对原始资 料进行审核是整理的前提,统计分组是统 计整理的基础,统计汇总是统计整理的中 心环节,编制统计表或绘制统计图是统计 整理的结果。
1.2、统计分组 一、统计分组的意义 统计分组既是统计认识问题的一种基 本方法,又是统计整理工作的具体内容之 一,因此它在整个统计工作过程中具有十 分重要的作用。
4、次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
1、钟形分布 钟形分布的特征是“中间多,两边少”,这类 分布是以平均值为中心的,越接近中心,分配的次 数越多,离中心越远,分配的次数越少,其曲线就 像一口古钟。
统计学统计数据的整理和显示
![统计学统计数据的整理和显示](https://img.taocdn.com/s3/m/fa42f6650812a21614791711cc7931b765ce7bd0.png)
组数
组中值:各组中点位置所对应的变量值。其计算公式为:
01
或= (适用上开口组)
03
组中值= (适用所有闭口组)
02
或= (适用下开口组)
表3—2 三次产业增加值结构变化 资料来源:《中国统计年鉴》《2003年中国发展报告》,国家统计局2003年版,中国统计出版社。
从表中可以看出,我国1998—2002年,GDP年均增长7.7%,其中第一产业增加之年均增加2.9%,第二产业、第三产业增加值分别增长8.9%和8.0%。反映在结构中,第一产业比重下降,二、三产业比重上升。其中第一产业比重从1997年的19.1%下降到2002年的14.5%,下降了4.6个百分点;第二产业从50%提高到51.8%,上升了1.8个百分点;第三产业从30.9%提高到33.7%,上升了2.8个百分点。它反映着我国产业结构的变化发展过程。
举例说明:
1
某工厂生产车间30人工人日产量原始数据如下:
第三章 统计数据的整理和显示
本章主要内容
肆
叁
贰
壹
统计整理及其类型 统计整理:就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。包括(1)对统计调查所搜集到的各种数据进行分类和汇总;(2)对现成的综合统计资料的整理。本章指的是第一种整理。
第一节 统计数据整理概述
3.历史资料的审核:在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。
第三章统计数据的整理与显示
![第三章统计数据的整理与显示](https://img.taocdn.com/s3/m/96e919c33186bceb19e8bb47.png)
统计整理方案 1、 确定汇总的统计指标和
综合表; 2、 确定分组方法; 3、 确定汇总资料的形式; 4、 确定资料的审查内容和
审查方法。
第三章 统计数据整理与显示
§2 统计分组 一、统计分组意义和作用 1、概念:它是根据统计研究的需要,将
统计总体按照一定的标志分成若干 个不同的组别。 对总体而言是“分”,对个体而言是“合”。 2、统计分组的原则
第三章 统计数据的整理 与显示
➢ 数量分组的方法 ➢ 分配数列的编制
§1 统计数据整理
一、统计整理的意义和内容 统计整理在统计工作中处于中间阶段,
起着承前启后的作用。通过数据整理,可 以使混乱、缺乏条理性的资料变成有条理 性、在某种程度上能够说明总体特征的有 用的资料。
它是根据统计研究的任务,对调查阶 段所搜集到的大量的原始资料进行加工汇 总,使其系统化、条理化、科学化,以反 映总体综合特征的资料的工作过程。
试将工人分成5组
其基本步骤为: 第一步:将原始资料按数值大小依次排列。 全距(Range)=最大变量值—最小变量值。
=576-432=144
第二步:确定变量的类型和分组方法(单 变量分组或组距分组)。
第三步:确定组数和组距(interval)。当 组数确定后,组距可计算得到: 组距=全距/组数
原则: 应将总体单位分别的特点显示出来 要考虑到原始资料的集中程度 要考虑到所研究对象的实际情况,考
例:重庆市按GDP计算的三次产业结构(%)
1980年
GDP
100
第一产业 38.4
第二产业 44.6
第三产业 17
1990年 100 33.4 39.7 26.9
2000年 100 17.8 41.4 40.8
统计数据的整理和显(1)
![统计数据的整理和显(1)](https://img.taocdn.com/s3/m/51559f09ce2f0066f433222d.png)
分组的原则:穷尽和互斥
1.按品质标志分组或按数量标志分组,或用两 种标志结合分组 2.按主要标志与辅助标志分组
(四)统计分组体系
1.简单分组与平行分组
标 按性别分组
志 男性 女性
(二)统计分组的作用
1.划分性质不同的各种类型,研究其特征和规律性
表1 我国近几年农业总产值情况 单位:亿元
类型 1995年 1996年 1997年 1998年
农业 11884.6 13539.8 13866.9 14099.3
林业
709.9
778 817.8 848.7
牧业
6044.9 7083 7620.3 7729.8
如:某校按学生人数分组,其组限为: 100人以下 101—200 201—300 301人以上
组距分组中,上述分组都是等距分组,即各组组 距相等,其特点是:
由于各组组距相等,各组次数的分布不受组距大 小的影响,它消除了组距对其分布的影响,与次数 密度的分布是一致的,一般呈正态分布。
同时也存在不等距分组即只要有一组组距不相等的 分组,也称异距分组。例如学生年龄18岁以下,1920,21-24,25岁以上等。其特点是:
60—70
—60
70以上等
61人以上等
我们把这种分组形式称为开口组。“以下”称之 为下开口,“以上”称之为上开口。
下开口的组中值=本组上限-(1/2)*相邻组 的组距
上开口的组中值=本组下限+(1/2)*相邻组 的组距
例如结合上面学生成绩的分布计算其组中值 下开口组中值=60-(1/2)×(70-60)=55 上开口组中值=70+(1/2)×(70-60)=75
第三章 统计资料整理
![第三章 统计资料整理](https://img.taocdn.com/s3/m/60db297bf242336c1eb95efe.png)
31
简单表案例
某年某公司所属两企业自行车合格品数量表
厂别 甲厂 乙厂 合 计 合格品数量(辆) 5000 7000 12000
32
简单分组表案例
2005年某月某公司各企业劳动生产率统计表 分组 总产值 (万元) 职工人 数(人) 劳动生产率 (元/人)
大型
中型 小型 合计
33
复合分组表案例
某年某地区工业增加值和职工人数
26
第三步:确定组限和组中值。以区分事物质的差别。
对于离散变量,相邻组组限可以间断,也
可重叠;
对于连续变量,相邻组组限必须重叠; 符合“上组限不计入”原则; 首末两组可使用“××以下”及“××以
上”的开口组。
27
第四步:归类汇总,计算各组次数。
本着“不重复,不遗漏”的原则,按照各个总体单位的具体 标志值,将其划归某一具体组之中。 对于重叠设置的组距数列,要本着“上限不在内”的原则。
19
某地区人口分布状况
人口按年龄分组 1岁以下(婴儿组) 1-7岁(幼儿组) 7-17岁(学龄儿童组) 17-55岁(有劳动能力的人口组) 55岁以上(老年组) 合计
人口数(万人) 1 6 12 24.6 8.1 51.7
20
对于异距数列,为了消除各组组距大小对次数分布的影响,
需计算
次数密度=该组次数/该组组距
14-16
16-18 18-20
16
12 5
540
620 680
8
三、统计分组的种类和分组标志的选择
(一)统计分组的种类 1、按标志的性质不同分为:品质标志分组和数量标志分组: 2、按选择标志的多少不同,可分为: 简单分组:对统计总体仅按一个标志进行分组。特点:只能 反映现象在某一标志特征方面的差异情况,说明的问题比较 简单明了。 复合分组:对同一总体采用两个或两个以上的标志重叠起来 进行分组。特点:可从几个不同角度了解总体内部的差别和 关系,因此能更全面、更深入地研究问题;复合分组的组数 随着分组标志的增加而成倍地增加。
统计学第三章 统计数据的整理
![统计学第三章 统计数据的整理](https://img.taocdn.com/s3/m/af616859e53a580217fcfe50.png)
汇总技术:
有传统手工汇总和现代电子计算机汇总两种技术。
(1)手工汇总。常用的汇总方式有四种: • 划记法。划“正”字符号计数,多用于对总体单位数或次数的简单汇总。
• 过录法。将原始资料分类过录到事先设计的汇总简表中,可用于对内容项 目较多的资料的汇总。
• 折叠法。将每张调查表中需要汇总的同类项目及数据折压一个印记,一张 一张的重叠在一起,再进行汇总。这种方法一次只能选择一个项目及其数 据进行汇总,故适用于数据较少的资料。
• 卡片法。将需要汇总的项目数据分类登记在卡片上,再汇总计算。这种方 法适用于总体单位数多、且多采用复合分组形式的事物,特别是设备、器 材类的实物资产的汇总。
(2)电子计算机汇总。其数据处理程序如下: • 第一步,编程。使用计算机语言编写出一套完整的数据处理程序。
• 第二步,数据录入。计算机自动按程序进行数据处理,并将数据处理结果 存储在磁盘、磁带等磁介质中。
树茎
数叶
数据 个数
10 7 8 8
3
11 0 2 2 3 4 5 7 7 7 8 8 8 9
13
向上累 计个数
3
16
12 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
40
13 0 1 3 3 4 4 5 7 9 9
10
50
14 0 0 1 3
16284
22.3
第三产业
20228
27.7
合计
73025
100.0
3、变量数列的编制
成绩 (分)
某班学生《统计学》考试成绩分布表
学生人数 频率 (人) (%)
向上累计
人
第三章统计整理
![第三章统计整理](https://img.taocdn.com/s3/m/9678338a6529647d27285271.png)
按照习惯,成绩一般分为不及格、及格、 按照习惯,成绩一般分为不及格、及格、中 良好、 等、良好、优秀
即 组限 60分以下 60~70 70~80 80~90 90分以上 65 75 85 组中值
上组限不在内
利用Excel Excel进行分组 ㈢ 利用Excel进行分组
数据分析” 直方图 直方图” 选“工具”-“数据分析”-“直方图” 工具” 数据分析 定义“输入区域” 数据 定义“输入区域”—数据 分组中每组上限, “接收区域”—分组中每组上限,包括在本组 接收区域” 分组中每组上限 内 “输出区域”—结果 输出区域” 结果
编制结果如下: 编制结果如下:
日产量(件)X 日产量(件)X 20 21 22 23 24 25 26 合计 工人数(人) 工人数(人) f 3 5 6 4 3 2 1 24
组距数列
指每个组的变量值用一个区间来表现 的变量数列
编制条件:
变量是连续变量; 变量是连续变量; 或:总体单位数较多,变量不同取值个数 总体单位数较多, 也较多的离散变量。 也较多的离散变量。
复合分组
按性别 分类
对教师 的分类
共计12组 共计 组 × × 男 2×3×2
女 高级 中级 初级 青年 中年
按职称 分类 按年龄 分类
第三节 次数分布 ★ 一、分布数列的概念及种类
二、组距数列的编制 三、累计次数与累计频率
将总体各单位按分组标志分组后, 将总体各单位按分组标志分组后, 次数分布 形成的各单位在各组的分布
地位
统计整理的步骤
拟定统计整理方案 统计资料的预处理 数据处理 制作统计表或统计图
第二节 统计分组
将总体中所有单位按一定的标志划 统计分组 分为类型或性质不同的若干部分的 过程 统计分组的作用: 划分现象的类型 反映现象内部结构 分析现象之间的依存关系
统计学原理与实务第三章统计整理
![统计学原理与实务第三章统计整理](https://img.taocdn.com/s3/m/c658434ee97101f69e3143323968011ca300f736.png)
平均指标与变异指标
总结词
平均指标是用来反映社会经济现象总体的一 般水平或集中趋势的指标。
详细描述
平均指标通常用平均数表示,如人均收入、平 均工资等,用于描述总体的一般水平。
平均指标的分类
数值平均数和位置平均数,如算术平均数、调和 平均数、几何平均数等。
变异指标
变异指标是用来反映总体各单位之间数量差异程度 的指标。
直接计数法、测量法、推算法等。
相对指标
总结词
相对指标是用来反映社会经济 现象之间数量对比关系的指标 。
相对指标的分类
结构相对数、比例相对数、比 较相对数、强度相对数等。
详细描述
相对指标通常用相对数或比例表示 ,如人口密度、劳动生产率等,用 于揭示事物之间的数量关系。
相对指标的计算方法
直接计算法、对比法、平均法 等。
通过调查、观测、实验等方式直 接获取原始数据。
间接来源
通过文献资料、政府部门或统计机 构等途径获取已整理过的数据。
现代技术
利用互联网、大Biblioteka 据等技术手段进 行数据收集。数据预处理与筛选
01
02
03
04
缺失值处理
根据实际情况对缺失数据进行 填充或删除。
异常值处理
识别并处理异常值,如使用Z 分数法或IQR法。
详细描述
变异指标通常用变异系数或标准差表示,用于揭 示总体各单位之间的数量差异程度。
变异指标的分类
绝对变异指标和相对变异指标,如标准差系数、离差系 数等。
05
统计整理的应用实例
人口普查数据的整理
总结词
系统化、标准化
详细描述
人口普查数据涉及大量个体数据,需要进行系统化、标准化的整理,以便进行 后续的数据分析。具体包括数据清洗、分类、编码等步骤,确保数据质量可靠、 准确。
统计学-第三章 统计数据整理
![统计学-第三章 统计数据整理](https://img.taocdn.com/s3/m/5b384876bed5b9f3f90f1c9d.png)
2020/1/10
(三)分组标志的选择(关键)
(1)分组标志:进行统计分组的标准或根据。 (2)遵循的原则(三个):
(a)符合统计研究的目的和要求; (b)必须选择最主要的、能反映总体本质特征的标志作为分组依据; (c)要考虑到社会经济现象所处的具体历史条件。
(四)统计分组的种类(两大类,五小类)
2020/1/10
引例 如何整理和显示数据?
为确定一批灯泡的使用寿命(单位:小时),质检人员在 该批灯泡中随机抽取100只进行测试,所得数据如下表3-1:
表3-1 100只灯泡使用寿命表 700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701 708 729 694 681 695 685 706 661 735 665 668 710 693 697 674 658 698 666 696 698 706 692 691 747 699 682 698 700 710 722 694 690 736 689 696 651 673 749 708 727 688 689 683 685 702 741 698 713 676 702 701 671 718 707 683 717 733 712 683 692 693 697 664 681 721 720 677 679 695 691 713 699 725 726 704 729 703 696 717 688
2020/1/10
第三节 频数分布(重点)
(一)分布数列的意义
2.分布数列的两要素(名称和频数)
(1)组的名称:按一定标志划分出来的各个组。按 数量标志分组表现为各组的变量值(标志值),常 用x表示。 (2)各组次数(频数):落在各组中的总体单位个 数,绝对数。常用f表示。频率:各组频数f占总体 单位总数的比重,频数的相对数形式。反映总体的 构成,常用f/f表示。(频率分析)
第三章统计整理
![第三章统计整理](https://img.taocdn.com/s3/m/04cf5d0d03d8ce2f00662350.png)
统计整理
第一节 统计整理的意义和步骤
第二节 统计分组
第三节 分配数列 第四节 统计表和统计图
本章的教学目的、要求及内容
一般了解统计整理的概念和内容、统计分组、分配 数列及统计表等概念和内容。
重点与难点:重点掌握统计分组的方法,在分组的 基础上进行次数分配数列的编制,并学会用统计表 来表示统计资料。
预处理
分组汇总
编制表图
数据的预处理
数据的预处理,主要包括三个方面: 1. 数据的审核 2. 数据的筛选 3. 数据的排序
统计数据资料整理的内容
统计整理的步骤:
(1)拟定统计整理方案 (2)审查原始资料 (3)对各项原始资料分组、汇总,计算总体总量指标 (4)将汇总的结果,以统计表或统计图的形式表现出 来 (5)将统计资料进行系统积累
统计分组的作用 3、揭示现象的内部结构
现象的内部结构是表明现象本质特点的一个重要方面,将同 一总体不同时期的结构联系起来,还可以看到现象的发展趋 势和规律。 “九五”期间我国国内生产总值构成(%)
年
份
1996
20.4
1997 1998
19.1 18.6
1999
17.6
2000
15.9
第一产业
第二产业
分配数列表
频数
分布数列的种类
分布数列以分组标志特征不同可以 分为: 品质数列
Байду номын сангаас
变量数列
品质数列
品质数列:按品质标志分配而形成的数列叫属性 分配数列,简称品质数列。用来观察总体单位中 不同属性的单位分布情况。
例 某班学生的性别构成情况
按性别分 组 男 女 合计
绝对数人 比重(%) 数 30 75 10 40 25 100
统计学(第3章)
![统计学(第3章)](https://img.taocdn.com/s3/m/3ea4d325453610661ed9f497.png)
4、定比尺度(比率尺度 ratio scale)
是对事物之间比值的一种测度,可用
于参数与非参数统计推断。 特征:
除区分事物的类别、进行排序、比较大 小,而且还可以进行加减乘除运算。 具有绝对零点,即“0”表示“没有” 或“不存在”。 所有统计量都可以对其进行分析。与定 距尺度的唯一区别是有绝对固定的零点。
第三章 统计数据的整理 10
3、观察数据和实验数据
观察数据:通过调查或观测而得 到的数据。 实验数据:通过控制实验对象而 收集的数据。
第三章 统计数据的整理
11
4、直接数据和间接数据
直接数据:即原始数据。
间接数据:已加工整理过的数据。
第三章 统计数据的整理
12
第二节 统计整理的含义和步骤
当异距分组时,各组的次数还受 到组距不同的影响。为消除异距 分组的这种影响,须计算频率密 度(或次数密度),计算公式: 频数密度 = 频数/组距 频率密度 = 频率/组距
第三章 统计数据的整理
36
二、分布数列的编制
将原始资料按其数值大小重新排列 2. 确定全距 3. 确定组距和组数 4. 确定组限 5. 编制变量数列 示例3-5
第三章 统计数据的整理
某地人口
21
(三)按分组标志的不同性质分
品质分组(属性分组):是将总体按
品质(或属性)标志进行分组。如企 业按经济成份、企业规模,职工按性 别、文化程度分组等。 数量分组(变量分组):是将总体按 数量标志进行分组,如企业按职工人 数、劳动生产率分组,职工按工龄、 工资分组等。
第三章 统计数据的整理 31
4、开口组的组距与组中值
第三章 统计整理
![第三章 统计整理](https://img.taocdn.com/s3/m/bd0ce60ebed5b9f3f90f1c21.png)
单项式分组:
工人平均日产量资料
工人平均日产量(件) 2 3 4 5 6 合计 工人数 绝对数 比重(%) 10 8.7 15 13.0 30 26.1 40 34.8 20 17.4 115 100.0 上一页 下一页
返回本节首页
组距式分组:
某工厂工人完成生产定额情况表 工人完成生产定额分组(%) 工人数 绝对数 比重(%) 80~90 30 16.7 90~100 40 22.2 100~110 60 33.3 110~120 30 16.7 120~130 20 11.1 合计 180 100.0
某班学生籍贯分布表 地区分 绝对数人数 安徽 30 非安徽 10 合计 40
比重(%) 75 25 100
第3章 统计整理
42
单项式数列:一个变量值代表一组。
工人生产情况表 产量(件) 工人数
第3章 统计整理 11
2、统计分组目的: 总体经过分组,能够突出组与组之间的 差异,抽象掉组内各单位之间的差异, 使数据变得条理化,便于进一步分析研 究。
上一页
下一页
返回本节首页
3、统计分组的原则
⑴穷尽性
就是使总体中的每一个单位都应有组可归, 或者说各分组的空间足以容纳总体所有的单位。 例如:从业人员按文化程度分组,分为小学 毕业、中学毕业(含中专)和大学毕业三组,那 么,文盲及识字不多的以及大学以上的学历者则 无组可归。如果将分组调整为:文盲及识字不多、 小学程度、中学程度、大学及大学以上,那么就 可以包括全部从业人员的各种不同层次的文化程 度,符合了分组的穷尽性原则。
位数。
频率(f/∑f):次数的相对数,各组次数占总
次数的比重。
上一页 下一页 返回本节首页
㈡统计分布(分配数列)的分类
第三章 统计数据的整理
![第三章 统计数据的整理](https://img.taocdn.com/s3/m/66c609741711cc7931b716d8.png)
土 地 面 积
人口密度
日本
美国
欧共体
统计地图
合成纤维人造纤维的地域分布
(四)统计图的构成
图题
某国各地降水量
90 80 70 60 50 40
1 图题 2 图号 3 图目
4 图尺 5 图形 6 图注
图 目
降 水 量 ( 毫 米 )
图形
图注
东部 西部 北部
图尺 30
20 10 0 第一季度 第二季度 第三季度 第四季度
分配数列的种类
1.按分组标志的性质不同
品质变量数列:按品质变量分组形成
数值变量数列:按数值变量分组形成
2.数值变量数列还可分为 单项数列:每组只有一个变量值的变量数列 组距数列:每组变量值是一段区间的变量数列
连续变量数列:按连续变量分组形成的数列
离散变量数列:按离散变量分组形成的数列
品质变量分配数列实例
本章重难点提示
本章重点:统计分组、变量数列的编制、统计数据的显示方 法——统计表和统计图。 本章难点:统计分组、变量数列的编制、次数分布图的绘制。
第一节 数据整理的一般问题
一 数据整理的概念和作用
(一)概念 对统计调查所搜集到的数据进行分类和汇总,使 其系统化、条理化、科学化,以得出反映事物总体综 合特征的资料的工作过程。
100-500 500以上
180
85 35
7.83
3.70 1.52
合计
2300
100.00
单项式变量数列实例
表3-4 家庭人口数(人) 1 某市居民家庭按家庭人口数分组 家庭数(千户) 9.8 比重(%) 5.76
2
3
27.5
94.6
第三章统计整理
![第三章统计整理](https://img.taocdn.com/s3/m/eb352ee84afe04a1b071de7b.png)
3、分 类
品质数列 变量数列
单值数列
组距数列
等距数列 异距数列
二、变量数列的编制
编制变量数 列的步骤
确 定 组 数 确 定 组 距 计 算 频 数 编 制 表 格
(一)品质数列:
将总体按品质标志分组形成的分布数列 例
某班学生的性别构成情况
按性别分组 绝对数人数 比重(%)
男 女 30 10 75 25
1、定义
2、作用
是统计调查的继续,统计分析的 前提和基础 (承上启下)
3、统计整理的步骤
1.数据的预处理
2.统计分组
3.编制分配数列
4.汇总统计资料
5.制作统计表或统计图
2008-1-4 5
第二节 统计分组
33 %
25%
42%
分组前
分组后
2008-1-4
6
一、统计分组的含义与性质
1.含义 根据统计研究任务的要求和现象总体的内在 特点,把统计总体按照某一标志划分为若干性 质不同而又有联系的几个部分的统计方法,称 为统计分组。 2.性质 分与合 、穷尽与互斥、反映本质差异、可能 掩盖差异、关键是分组标志的选择和分组界限 的确定
单位:亿元
例
类 型 1999年 2000年 2001年 2002年 农业 14106.2 13873.6 14462.8 14931.5 林业 886.3 936.5 938.8 2 815.0 1 033.5
牧业
渔业
6 997.6
7 393.1 7 963.1
8 454.6
2 971.1
2 539.0 2 712.6
张桂平 刘汉 马云 李非列 宋卫平 孙广信 杨孙西 李彦宏 张力 李思廉 李金元 陈发树
第三章 统计整理
![第三章 统计整理](https://img.taocdn.com/s3/m/a12a6618ba1aa8114531d911.png)
1.分组标志的选择原则 (1)应根据研究的目的与任务选择分组标志。 例如,同一个工人总体,有多种不同分组方法: ①如果研究学历对收入的影响时,应选择“文 化程度”作为分组标志。 ②如果研究资历对收入的影响时,则应选择 “工龄”作为分组标志。
(2)要选择能够反映事物本质或主要特征的标志。 例如,研究职工生活水平的高低情况时,可 以用“职工的工资水平”作为分组标志,也可以 用“职工家庭成员平均收入水平”作为分组标志。 应该选择后者作为分组标志。 (3)要根据现象的历史条件变化来选择分组标志。 例如,前面讲到研究职工生活水平问题,如 果要列出“职工生活贫困户”一组,则“贫困户” 的标准就随历史条件变化而变化,而且不同地区 标准也不相同。
第三节,变量数列(分配数列)
一、分配数列(次数分布)的概念
在统计分组的基础上,将总体中所有单位按组 归类整理,并按一定的顺序排列,形成总体中各单 位数在各组间的分布称为次数分布,又称分布数列 分布在各组的个体单位数叫次数,又称频数 (fi)。各组次数与总次数(Σfi)之比称为比 率,又称频率。 分配数列(次数分布)有两个构成要素:一 个是分组,另一个是次数。 统计分布的实质:把总体的全部单位按某标 志所分的组进行分配所形成的数列。
第二节 统计分组
一、统计分组的意义: • 统计分组的含义:是根据统计研究任务的 要求和现象总体的内在特点,把统计总体 按照某一标志划分为若干性质不同而又联 系的几个部分(或组)的一种统计方法。 统计分组的关键是分组标志的选择和 划分各组界限。而核心问题是正确地选择 分组标志。 (下)
• 在一个总体中,单位的品质标志或数量标志, 其标志表现可能是互不相同的,总体内部各 个单位间存在许多的变异标志又是人们把总 体进一步分为性质不同的几个部分的客观依 据。 • 统计分组是在总体内部进行的一种分类。兼 有“分”和“合”的双重含义:对总体而言 是“分”(分为范围更小的总体),而对总 体单位而言是“合”(合为性质相同的组); 对分组标志而言是“分”(按分组标志划分 总体成为标志表现不同的许多组),而对其 它标志来说又是“合”(其它标志表现的差 异消失了)。
第三章 统计数据的整理和显示
![第三章 统计数据的整理和显示](https://img.taocdn.com/s3/m/f4dd411414791711cc7917d7.png)
发现数据 的规律性, 作进一步的 统计分析
二、统计整理的步骤
1.统计资料的审核
包括对资料的完整性和准确性审核。
2.统计资料的分组和汇总
分组和汇总是统计整理的中心工作
3.编制统计图表
统计图表是统计整理成果最常用的表现形式,
举例
男
政治面貌
中共党员 团员 中共党员 团员
按别
女
政治面貌
3.
按分组的作用分
类型分组 结构分组 分析分组
四、分组体系
1.概念:统计分组体系是指在统计整理中,为研究现 象总体的情况而运用多个分组标志对总体进行分组,从而 形成一系列相互联系、相互补充的分组体系。 2.分类:平行分组体系和复合分组体系。 平行分组体系就是对同一总体进行若干次简单分组。 复合分组体系就是对某一总体进行某种复合分组。 汉族12人,占60% 1.按民族分组 回族5人,占25% 平 满族3人,占15% 行 20岁5人,占25% 分 21岁5人,占25% 组 2.按年龄分组 22岁2人,占10% 体 23岁8人,占40% 系 中共党员8人,占40% 3.按政治面貌分组 团员12人,占60%
一、统计整理的意义
统计整理:根据统计研究的目的,对统计 调查所搜集到的原始资料进行分组、汇总, 使其条理化、系统化的工作过程。
对于已整理过的初级资料进行再整理,也属于
统计整理。
意义:整个统计工作和研究过程的中间
环节,起着承前启后的作用。统计整 理是统计调查的继续,又是统计分析 的基础。
适用于连续型变量 变动范围比较大的离散型变量
某班考试成绩统计表
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章统计数据的整理通过统计调查,我们得到许多原始数据,但这些数据是反映总体单位特征的、分散的、不系统的,为此必须对数据进行整理,使之由“个别”上升到“一般”,成为既便于储存,又便于传递的反映总体特征的资料。
统计数据的整理是统计分析的前提,关系到整个统计工作的质量,因此,必须十分重视统计数据的整理。
统计数据整理的主要内容有:数据预处理、数据的分组(类)、汇总、整理后的数据显示。
第一节数据预处理一、数据的审核在分类汇总之前,必须对原始数据进行认真的审核。
审核的内容是数据的完整性和准确性。
所谓完整性审核,一是审核各调查单位的调查表或调查问卷是否汇集齐全,比如,已对500个学生分别发放了调查问卷,要审核是否全部回收,如果回收不全要及时催收;若无法催收,要清点已回收的数量;若回收的数量不能满足要求,必须进行补充调查。
其次,要审核各份调查表或调查问卷的项目是否填写齐全。
若填写不全要补充完整;若一些缺失的重要项目无法补充填写,视为无效调查表或调查问卷对其剔除。
所谓准确性审核,就是审核各调查项目的填写内容是否准确。
数据的准确性审核主要采用逻辑检查和计算检查。
逻辑检查就是根据项目之间存在的内在联系,从逻辑上或常识上判断其合理性,以确定其正确与否。
计算检查就是根据有些项目之间数量上的依存关系,通过简单的计算,检查数据有无错误。
对于二手数据,应该弄清楚数据的来源、数据的口径、数据的时效性以及有关的背景材料,以便确定这些数据是否符合自己的需要,是否需要重新加工整理。
二、数据的录入在对数据审核基础上,应该将调查所得的原始数据录入计算机形成数据文件,以便进行分组与汇总。
用计算机Excel录入数据的文件格式为:第一列为各总体单位(或调查单位)的名称或编号,以后各列分别为调查所得的各变量的具体数据。
应该注意的是,必须标示每列变量的名称——标志。
【例3-1】用单一表对重庆市5个企业2006年的销售收入等进行了调查,得到如下资料(单位:万元),将其录入到计算机Excel表格中。
企业名称销售收入利税资产负债红星公司1050 5 152 142嘉林公司3600 19 420 290红光公司3750 40 670 370白云公司400 5 54 35渝乐公司380 3 60 33录入后的文件格式如图3-1。
图3-1 重庆市5个企业2006年销售收入等数据的文件格式二、数据的筛选与排序(一)数据的筛选筛选的目的主要有两个,一是对原始资料做进一步的准确性检查,将有错误的或不合要求的或录入有误的数据筛选出来,并根据具体情况给予修正或剔除。
二是将符合某种条件的数据筛选出来。
【例3-2】根据以上的数据文件,筛选出重庆市①销售收入3000万元以上的企业;②销售收入3000万元、利税20万元且资产500万元以上的企业。
筛选出销售收入3000万元以上企业的计算机操作步骤是:解:第1步:顺次点击【销售收入】单元格、【数据】菜单、【筛选】和【自动筛选】命令,见图3-2。
图3-2 Excel自动筛选命令第2步:顺次点击【销售收入】标志的下拉箭头、【自定义】,见图3-3。
图3-3 选择“自定义”命令第3步:点击对话框中的下拉箭头,选择“大于或等于”,并在其后的空格中输入3000,见图3-4。
单击【确定】,即可得到图3-5所示的结果。
图3-4 填写“自定义自动筛选方式”对话框图3-5 自动筛选结果要筛选出销售收入3000万元、利税20万元且资产500万元以上的企业,由于筛选条件大于两个,需要进行高级筛选。
进行高级筛选时,必须在数据文件之前预留三行,输入筛选条件,见图3-6。
图3-6 输入高级筛选条件顺次点击【数据】、【筛选】、【高级筛选】,填写对话框。
在高级筛选对话框的【数据区域】、【条件区域】对应的空格中分别引用A4:E9、A1:D2,见图3-7。
单击“确定”,即可得到筛选的结果。
图3-7 填写高级筛选对话框(二)数据的排序从某种意义上说,数据的排序就是对资料的初步分析。
因为通过数据的排序,可以对现象的发展趋势和分布状况有一个初步的认识,可以为统计分组提供有用的信息。
有时,研究者就是要认识变量值最大的几个总体单位,比如,要认识某地纳税最多的几个企业。
通过数据的排序,还可以发现极端值偏离一组数据的程度,从而对输入数据的正确性做出大致的判断。
用Excel对数值型数据降序或升序排序,即可以用工具栏的图标进行,也可以用【数据】菜单中的【排序】对话框完成;若要按字母顺序、笔画多少进行排序,则必须用【数据】菜单中的【排序】对话框完成。
第二节数据的统计分组一、统计分组的含义与原则(一)统计分组的含义根据统计研究的目的和研究对象的特点,按照一个或几个标志,将被研究的统计总体划分为几个不同的组成部分,称为统计分组。
任何统计总体都是由具有某种共同性质的许多个别单位所组成,这些个别单位除了它们的共性之外,在其它方面的特征各不相同。
为了深刻认识总体的全貌,就需要把总体的全部单位按一定标志划分为不同的组成部分。
统计分组实际上是对总体进行“分”与“合”的过程。
所谓“分”,就是将总体划分为几个不同的组成部分,“合”就是将性质相近的总体单位合并在一组。
比如,按文化程度标志把被调查者分为不识字或识字很少、初中、高中、大学及以上几个组,就是把各个被调查者按照文化程度的差异分到不同的组,即为“分”;把具有相同文化程度的人归并到同一个组,体现了“合”。
通过统计分组,可以划分社会经济现象的类型,可以研究现象的内部结构,也可以揭示某一现象与另一现象之间的依存关系。
统计分组既是一种整理数据的方法,也是一种常用的统计分析方法。
在分组时,对研究总体可以按一个标志进行分组,从一个方面说明和反映事物的分布状况和内部结构,这种分组叫简单分组。
比如,对某一人口总体按年龄可以分为20岁以下、20-35岁、35-55岁、55-65岁几个组。
在许多场合,要用两个或两个以上的标志对总体进行分组,即先按一个标志分组,在此基础上再按第二个标志分组,又再层叠地按第三个标志分组等,它可以从多方面反映事物的分布和内部结构,这种分组叫做复合分组。
比如,一定时期的新增价值按物质生产部门划分为农业、工业、建筑业、商业和邮电通讯业,在此基础上,对各个组又按一定的标志分组,比如农业,可进一步分为种植业、养殖业、林业、渔业,这种分组可以进一步揭示新增价值的构成。
(二)统计分组的原则统计分组必须遵循两个基本的原则,这就是穷尽原则和互斥原则,或不重不漏的原则。
所谓穷尽原则,就是在分组时,必须使每一个总体单位都可以归属于某一组,而不能让任何总体单位遗漏。
所谓互斥原则,就是在分组时,必须使总体的各个单位只能归属于一个组,而不能同时或可能同时归属于两个及两个以上的组。
比如,把被调查者按从事的工作不同,分为企业工作人员、企业管理人员、科教文卫工作人员、个体从业人员等几个组,若某被调查者是企业的销售经理,那么,他既可以归属于企业工作人员,也可以归属于企业管理人员,这种分组不满足互斥原则。
二、非数值型数据的统计分组可以对非数值型数据即分类数据或顺序数据分组,也可以对数值型数据分组。
分组数据的性质不同,进行统计分组时的处理方法也不完全相同。
对非数值型数据分组也称为分类。
分类数据和顺序数据是对事物性质属性的描述,在分类的时候,二者的区别在于:按分类数据分组可以不考虑类别之间的顺序,而按顺序数据分组则必须按照一定的顺序排列所分的类别。
有些现象的属性界限比较明确,且类别不多,按照这种标志分组就比较容易。
比如,人口按性别、文化程度、婚否状况分组,学生按照所在院系的分组等。
分组时,列出这些标志的各个类别,按类别汇总即可。
有些现象的品质属性界限比较模糊,存在交叉过渡状态,按照这种标志分组就比较困难。
比如,从业人员按行业分组,若某人在高校从事校办工厂的工作,应归属于教育行业还是工业?又如人口按居住地分为城镇与乡村的分组,对于居住在城镇乡村过渡地带的居民如何分类?对于这一类问题,需研究制定统一的分类标准,为统计分组提供统一的依据。
在实际工作中为了方便和统一,各国都制定了适合一般情况的标准分类目录,如我国的《国民经济行业分类》、《三次产业划分的规定》、《公有和非公有控股经济的分类办法》等,联合国为便于各国的国际比较,还制定了国际通行的有关分类标准。
三、数值型数据的分组数值型数据分组就是要通过数值的不同来反映事物性质的差异。
数值型数据分组有单项式分组和组距式分组。
单项式分组就是一一列举有限的变量值,用一个变量值作为一个组的分组形式。
比如,对被调查住户按家庭就业人数分组,可分为:0个、1个、2个、3个等四个组。
单项式分组适合于离散型变量并且变动范围不大情形,因为只有这种情形才可能一一列举有限的变量值。
而对变动范围较大的离散型变量,若一一列举所有的变量值,将导致分组太多,每组的单位数太少,难以反映总体的特征,从而失去分组的意义;对于连续型变量,不可能一一列举所有的变量值,所以不适合进行单项式分组。
组距式分组就是将变量值依次划分为几个区间,每个区间作为一个组,再将总体各单位按变量值的大小分别归并于相应的某一个组的分组形式。
比如,对被调查住户按月人均收入的多少分为0-500元、500-800元、800-1500元、1500-3000元、3000元以上几个组。
组距式分组适合于连续型变量或变动范围较大的离散型变量。
组距式分组中,每一个组的最大值和最小值分别称为上限和下限,统称为组限;待分组数据中的最大值与最小值之差称为全距;各组的上限与下限之差为组距;上限和下限之间的中点数值称为组中值,其计算公式为:2下限上限组中值+=组距式分组要确定并考虑组距、组数、组限、组中值等问题。
组距式分组的步骤是:(一)确定组距与组数组距与组数互为消长,在全距一定的情况下,若组数很多,则必然组距较小,反之,若组数少,则必然组距较大。
在分组时,应避免组距过大或过小,因为当组距过大以至组数过少时,则可能将一些性质不同的单位归并到同一组,不能充分显示总体的特征;当组距过小以至组数过多时,则可能把性质相同或相近的单位分散到不同的组,也不能很好地显示总体的特征。
比如对学生按考试成绩分为0-60分、60-100分,显然分组过少,不能充分揭示学生考试成绩的差异;反之,分为0-10、10-20、20-30、……等若干组,则分组过多,将一些性质相近的分数值分散到不同的组,也不便于反映考试成绩的分布。
组距式分组是先确定组距还是先确定组数?组数应为多少、组距应取多大?由于面临的社会经济现象不同,分析研究的目的不同,因此不能一概而论。
应根据研究者的经验、研究对象的性质特征和研究目的来确定,也可以在以前分组的基础上做适当的调整。
组距式分组有等距分组和异距分组两种。
若每组的组距完全相同,称为等距分组,若各组组距不完全相同,称为异距分组。