统计学第三章 统计整理

合集下载

3第三章统计整理

3第三章统计整理
(3)适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定这些数据是否符合自己分析研究的需要
(4)时效性审核 应尽可能使用最新的统计数据
(5)确认是否必要做进一步的加工整理
统计学
河南科技大学
第三章 统计整理
(二)差错的更正与处理
通过上述审核,如发现有缺报、缺份和缺项等情况, 应及时催报、补报;如有不正确之处,则应分别不同 情况作如下处理:
10. 爱尔兰 拥有大学学位人群所总人口占比例:37% 年增速 (2000-2010年): 7.3% (最高)
9. 澳大利亚 拥有大学学位人群所占总人口比例:38% 8. 芬兰 拥有大学学位人群所占总人口比例:38% 7. 英国 拥有大学学位人群所占总人口比例:38% 6. 韩国 拥有大学学位人群所占总人口比例:40%
统计学
第三章 统计整理
河南科技大学 历次人口普查中,每10万人中各种文化程度的人数
大专及以上 高中
初中
小学
1982 1990 2000 2010
615 1422 3611 8930
Hale Waihona Puke 6779 8039 11146 14032
17892 23344 33961 38788
35237 37057 35701 26779
统计学
河南科技大学
三、统计整理的程序
第三章 统计整理
统计资料的审核
资料的分组和汇总
编制统计表或绘制统计图
统计资料的积累、保管和公布
统计学
河南科技大学 数据审核
第三章 统计整理
统计工作的基本程序
收集 数据
真实 数据
虚假 数据
科学地计 算与分析
假数真算

统计学第三章统计整理

统计学第三章统计整理
7
第三章 统计整理
第一节 统计整理的概念、原则和步骤(4)
四、统计整理的组织形式
1、逐级汇总:自下而上一级一级地汇总本地区、
本系统、本单位的调查资料。
2、集中汇总:把全部调查资料集中在一个机关或
最高统计机关进行汇总。
3、综合汇总:对各地区和各级都需要的基本资料
进行逐级汇总,对全国的总的数字和其他需要在全 国范围内进行加工的资料或本系统的全面资料则实 行集中汇总。
第三节 次数分布(3)
(二)变量数列(单项数列和组距数列)
按数量标志分组形成为变量数列。 1、单项数列是总体按单项式分组而形成的变量 数列,每个变量值是一个组,顺序排列。
拥有发电机组(套) 发电厂数(个)
1
35
比重(%) 28.0
2 3 4 5 合计
48
38.4
26
20.8
12
9.6
4
3.2
125
100.0
9
第三章 统计整理
统计分组图示
分组前
分组后
25% 33% 42%
10
第三章 统计整理
第二节 统计分组(2)
二 作用p.40
(一)划分现象的类型 (二)揭示现象的内部结构 (三)分析现象之间的依存关系
三 分组标志的选择p.43
(一)根据统计研究的目的,选择反映事物本质 的标志;例如:
(二)结合具体时间地点条件来选择反映事物本 质的标志。
[注三]东、中、西部的划分:东部包括北京、天津、河北、 辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南 省;中部包括山西、内蒙古、吉林、黑龙江、安徽、江西、 河南、湖北、湖南省;西部包括重庆、四川、贵州、云南、 西藏、陕西、甘肃、青海、宁夏、新疆。

统计学 第3章 统计数据的整理

统计学 第3章 统计数据的整理

统计分组的标志
第三章 统计数据的整理
统计分组的标志:分组标志就是将总体分为各个性质不同的标准或根据。

据分组标志的特征不同,总体可按属性标志分组,也可按数量标志分组。
1.按属性标志分组
以属性标志作为分组标志,并在属性标志的变异范围内划分各组界限,将总体 分为若干组。属性标志划分,概念明确,容易确定分组组数,如性别。
2.按数量标志分组
以数量标志作为分组标志,并在数量标志的变异范围内划分各组界限,将总体 分为若干组。如工资。
第三章 统计数据的整理
(五)简单分组和复合分组
在统计分组时,根据统计研究目的不同,分组标志的选择可以是一个标志,也可以是 两个或两个以上的标志,这样就有简单分组和复合分组之分:
1.简单分组 对总体只按一个标志分组称为简单分组。
第三章 统计数据的整理
数量次数分布的编制方法
在组距次数分布中,各组组距相同的次数分布称为等距次数分 布(表3-8)。各组组距不同的次数分布称为异距次数分布。
等距次数分布一般在现象性质差异变动比较均衡的条件下使用。
优点:
• 易于掌握次数分布的特性。
• 各组次数可以直接比较。
组数= 全距/组距
组距=全距/组数
100.00
提问:这是单 项次数分布还 是组距次数分 布?
第三章 统计数据的整理
数量次数分布的编制方法
例:对某工厂某月50名工人装配零件(件)情况进行调查, 得到下列初级资料:
106 81 98 111 91 107 86 105 93 106 82 108 114 122 109 104 125 103 113 102 106 84 128 104 91 112 85 96 115 89 97 105 92 111 107 97 105 124 106 86 96 110 112 103 108 110 109 125 101 119

第三章--统计整理-幻灯片(1)

第三章--统计整理-幻灯片(1)

如某班学生按年龄分组:17岁,18岁,19岁, 20岁, 21岁,22岁。
组距式分组
将作为分组依据的数量标志的整个取 值范围依次划分为若干个满足互斥性
和包容性的区间,用这些数值区间作
为组的名称。
某班学生统计 学原理成绩分 组
60分以下 60—70分 70—80分 80—90分 90分以上
组距式分组中的一些概念 《统计学原理》第三章 统计整理
对教师 的分类
按性别分类
男性 女性
高级 按职称分类 中级 共计7组
初级 2+3+2
青年 按年龄分类
中年
复合分组体系
对教师 的分类
按性别 分类
按职称 分类
按年龄 分类
《统计学原理》第三章 统计整理
共计12组 男 2×3×2
女 高级
中级
初级 青年 中年
《统计学原理》第三章 统计整理
统计资料的再分组
• 统计资料的再分组就是把统计分 组资料按某种要求,重新划定各 组界限,再将资料中的单位数或 比重分布重新做出调整。
对总体单位而言,是“合”,即将性质相同的 个体组合起来,在同一组内则保持着相同的性 质。
分组
《统计学原理》第三章 统计整理
25%
33%
分组前
分组后
42%
作用:1·区分事物的性质
例:按所有制性质划分,我国现有8种经济类型:
国有经济;集体经济;私营经济;个体经济 联营经济;股份制经济;外商投资经济;港 澳台投资经济
将统计调查得到的原始资料进行科
统计整理 学的分类和汇总,使之成为系统化、
条理化的综合资料,以反映研究总 体的特征。
地位 是统计调查的继续,统计分析的前提 和基础,起着承前启后的作用。

统计学原理(第七版)第三章统计整理

统计学原理(第七版)第三章统计整理

比重(%) 6
10 17 28 22 17 100
二 变量数列的种类
(二)组距变量数列
当变量值较多,变量值变动的范围也比较大时,编制单项变量数列会使 分组数过多,总体单位过于分散,不便于分析问题,这时应当采用组距 变量数列。
组距变量数列是按照数量标志分组后,用变量值变动的一定范围(即组 距)代表一个组所形成的数列(见表3-4)。
审核
(四) 编制统计表或绘
制统计图
(一) 设计和编制统计
资料整理方案
(三) 对原始资料进行统 计分组和统计汇总
02 PART TWO
第二节
统计分组
一 统计分组的概念
统计分组是根据所研究事物的特点和统计研究的目的,按照某一标志将统计 总体划分为若干个组成部分的一种统计方法。统计总体的这些组成部分称为 “组”。通过统计分组,使同一组内的各单位性质更加相同,不同组的各单 位性质更加相异。能够对统计总体进行分组,是由总体单位所具有的“差异 性”特点决定的。统计总体中的各个单位,一方面在某一个或某一些标志上 具有相同的性质,可以结合在同一性质的总体中;另一方面,又在其他一些 标志上具有彼此相异的性质,从而又可以被区分为性质不同的若干个组成部 分。例如,在工业企业这个总体中,我们可以按照企业的生产规模将工业企 业划分为大型企业、中型企业、小型企业和小微型企业四个组。每一组内各 企业的生产规模相近,组与组之间的企业的生产规模差异较大。
统计学 原理
(第七版)
01 第一章 总论
02 第二章 统计设计和统计调查
03 第三章 统计整理
04
第四章 总量指标和相对指标
05
第五章 平均指标和变异指标
06
第六章 动态数列

统计学第3章统计整理

统计学第3章统计整理

14
7.0 21 10.5 193 96.5
4 90 —100 31 15.5 52 26.0 179 89.5 5 100—110 65 32.5 117 58.5 148 74.0
6 110—120 52 26.0 169 84.5 83 41.5
7 120—130 8 130—140
23 11.5 192 96.0 31 15.5
一、分配数列的概念和种类
1.概念
统计总体按照某一标志分组以后, 用以反映总体各单位分配情况的统计 数列,称分配数列,又可称次数分配, 或次数分布。
它由两部分组成: 总体所分的各个组和各组所拥有的 单位数(次数或频数)。

月工资分组(元) 工人数(人) 占总数比重(%)
1000 以下
210
39.6
1000-1500
组距式 分组
以变量值变动的一个区间作为一组,区间的 距离称为组距。适用于连续型变量和离散型 变量的变量值较多的情况。
第三章 统计整理
在进行组距分组时,会涉及到一 些问题,包括:等距分组和不等距分 组、组限、组中值。
第三章 统计整理
等距 分组
不等距 分组
各组组距均相等。如: 10—20 20—30 30—40
组中值 = (上限值+下限值)÷2
开口组组中值的计算: 缺下限:组中值=本组上限— 相邻组组距/2
缺上限:组中值=本组下限+ 相邻组组距/2

产值(万元)
第一组组中值:
50以下 50 — 60 60 — 70 70以上
50-(10÷2)= 45 最后一组组中值: 70+(10÷2)= 75
第二节 分配数列
较合适是? (c)

《统计学概论》第三章 统计整理

《统计学概论》第三章 统计整理

70 ~ 80
80 ~ 90
90 ~ 100


学生人数
(人)
5 15 18 10
2 50
由表3-1可见,整理后的学生考 STAT 分资料,较整理前的考分资料明 显要条理、系统。由上表可见, 在学生总体中,60分以下和90分 以上的学生人数都较少,绝大多 数学生的考分分布在60—90分之 间。
所以,统计整理是统计调查的继续,是统计分析的前提, 它实现了从个别单位的标志表现(标志值)向总体综合指标 的过渡,在统计研究中起着承前启后重要的作用。
编制步骤:
⒈求变异全距 R X max X min 139 107 32(百万元)
⒉确定组距及组数 R≤组距(d) ×组数(m)
确定组距的原则:
要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍
编少)
要求编制组距数列。
STAT
• 排序结果为
• 107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139
合计
频数(人) 3 5 8 14 10 6 4
50
频率(%) 6 10 16 28 20 12 8
100
统计分组方法
选择反映事物属性差异的标
按品质标志分组 志作为分组标志,如性别、
所有制类型

统计学(第三章)

统计学(第三章)

四、统计分组方法 统计分组的关键在于选择分组标志和 划分各组界限。划分各组界限,就是要在 分组标志的变异范围内,划定各相邻组之 间的性质界限和数量界限。 (一)按品质标志分组的方法 选择反映事物属性差异的标志作为分 组标志,界限比较明确,类型比较稳定。 如,企业按所有制分组、人口按性别分组 等。
(二)按数量标志分组的方法 数量标志有离散型和连续型之分,其分 组的方法和形式也不同。 1、按离散型变量标志分组其形式有2个 (单项式分组和组距式分组); 2、按连续型变量标志分组其形式只有一 个(组距式分组)。
某班级学生按性别分组 学生按性别分组 男 女 合 计 人数(人) 60 40 100
2、按数量标志分组。按数量标志分组 就是选择反映事物数量差异的数量标志作 为分组标志,并在数量标志的变异范围内 划定各组界限,将总体划分为性质不同的 若干组成部分。 3、根据分组选择标志的多少不同,统 计分组又可分为简单分组和复合分组。 简单分组。简单分组是指对统计总体 仅按一个标志进行分组。
二、统计整理的步骤 1.设计统计整理方案 2.对原始资料进行审核 3.对原始资料进行分组和汇总 4.编制统计表或绘制统计图 综上所述,设计整理方案、对原始资 料进行审核是整理的前提,统计分组是统 计整理的基础,统计汇总是统计整理的中 心环节,编制统计表或绘制统计图是统计 整理的结果。
1.2、统计分组 一、统计分组的意义 统计分组既是统计认识问题的一种基 本方法,又是统计整理工作的具体内容之 一,因此它在整个统计工作过程中具有十 分重要的作用。
4、次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
几种常见的频数分布
U型分布
1、钟形分布 钟形分布的特征是“中间多,两边少”,这类 分布是以平均值为中心的,越接近中心,分配的次 数越多,离中心越远,分配的次数越少,其曲线就 像一口古钟。

第三章统计整理

第三章统计整理
66.78% 10.33%
20.27%
68.70% 11.03%
16.60%
70.14% 13.26%
工厂按产量分组
Â Ý Ô · 1 2 3 4 5 6 Ï Æ º ¼
ú ¿ ¨Ô ² Á £ ª þ © ¼ £ x
2 3 4 3 4 5 21
¥ » É ± µ Î ³ ¾ ¨Ô £ y £ ª © 73 72 71 73 69 68 426
•向下累计是将各组频数和频率由变量值大的组 向变量值小的组累计(是各组下限以上的累计频 数或累计频率)
向下累计 生活费 250 275 300 325 350 375 合计 频数 10 8 12 9 5 6 50 累计频数 50 40 32 20 11 6 累计频率 100% 80% 64% 40% 22% 12%
2. 统计表的内容构成:主词部分和宾词部分。
注:统计表的构成和内容构成见表3-2
总标题
表3-2
按考试成绩分组 (分)
某班统计学原理考试成绩分布表
频数 组中值 学生数 (人) 比重 (%) 向上累计 学生数 (人) 比重 (%) 向下累计 学生数 (人) 比重 (%)
纵 栏 标 题
90以上 80-90 横 行 标 题 70-80 60-70 60以下 合计
大型企业 中型企业 小型企业 大型企业 中型企业 小型企业 重工业
轻工业
按分组标志的性质分

学生按性别分组
男 女
学生按民族分组
学生按考试成绩分组
90分以上 80-90 70-80 60-70 60 分以下 19岁及以下 20岁 21岁 22岁 23岁 24岁及以上
汉族 回族 苗族 土家族 羌族 壮族 . . .

统计学统计数据的整理和显示

统计学统计数据的整理和显示

组数
组中值:各组中点位置所对应的变量值。其计算公式为:
01
或= (适用上开口组)
03
组中值= (适用所有闭口组)
02
或= (适用下开口组)
表3—2 三次产业增加值结构变化 资料来源:《中国统计年鉴》《2003年中国发展报告》,国家统计局2003年版,中国统计出版社。
从表中可以看出,我国1998—2002年,GDP年均增长7.7%,其中第一产业增加之年均增加2.9%,第二产业、第三产业增加值分别增长8.9%和8.0%。反映在结构中,第一产业比重下降,二、三产业比重上升。其中第一产业比重从1997年的19.1%下降到2002年的14.5%,下降了4.6个百分点;第二产业从50%提高到51.8%,上升了1.8个百分点;第三产业从30.9%提高到33.7%,上升了2.8个百分点。它反映着我国产业结构的变化发展过程。
举例说明:
1
某工厂生产车间30人工人日产量原始数据如下:
第三章 统计数据的整理和显示
本章主要内容




统计整理及其类型 统计整理:就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。包括(1)对统计调查所搜集到的各种数据进行分类和汇总;(2)对现成的综合统计资料的整理。本章指的是第一种整理。
第一节 统计数据整理概述
3.历史资料的审核:在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。

统计学c第三章统计整理

统计学c第三章统计整理

合计
经济、管理类 基础课程
统计学
第三节 分布数列—变量数列
第五、绘制频数直方图和折线图
我一眼就看出 来了,大多数 人的日加工零 件数在120~ 125之间!
直方图下的面 积之和等于1
频 15

12
(人) 9
6 3 105 110 115 120 125 130 135 140 日加工零件数(个) 某车间工人日加工零件数的直方图
统计学
第三节 分布数列—变量数列
第四步,编制变量数列 某车间50名工人日加工零件数分组表 按零件数分组(件)
105~110 110~115 115~120 120~125 125~130 130~135 135~140
频数(人)
3 5 8 14 10 6 4 50
频率(%)
6 10 16 28 20 12 8 100
目前我国有的地方性别比为120:100,这是不正常的现象
2.划分现象的类型:如我国经济成份划分为国有经济
和非国有经济,工业化分为轻、重工业。
经济、管理类 基础课程
统计学
第二节 统计分组
3 揭示现象的内部结构:如我国人员结构、产业结构。 新交通法中,正确处理机动车司机和过路行人之间的关系 体现以人为本的理念.
经济、管理类 基础课程
统计学
第三节 分布数列—变量数列
(1)组距数列的几个常用概念
A. 组限:各组的界限,有上限和下限之分。
B. 组距:上限与下限之差 。 C. 组中值:上、下限之和的半数,即:
D. 次数密度:单位组距分配的次数。即:
经济、管理类 基础课程
统计学
第三节 分布数列—变量数列
E. 开口组与开口数列:第一组无下限或最后一组无 上 限的组称开口组。含开口组的数列称开口数列。 注意:a. 开口组的组距按相邻组的组距推算; b. 分组时正好等于组限的数应按“归下限原则”处 理。 缺上限的组中值= 下限+相临组组距的一半 缺下限的组中值= 上限—相临组组距的一半

统计学第三章 统计数据的整理

统计学第三章 统计数据的整理

汇总技术:
有传统手工汇总和现代电子计算机汇总两种技术。
(1)手工汇总。常用的汇总方式有四种: • 划记法。划“正”字符号计数,多用于对总体单位数或次数的简单汇总。
• 过录法。将原始资料分类过录到事先设计的汇总简表中,可用于对内容项 目较多的资料的汇总。
• 折叠法。将每张调查表中需要汇总的同类项目及数据折压一个印记,一张 一张的重叠在一起,再进行汇总。这种方法一次只能选择一个项目及其数 据进行汇总,故适用于数据较少的资料。
• 卡片法。将需要汇总的项目数据分类登记在卡片上,再汇总计算。这种方 法适用于总体单位数多、且多采用复合分组形式的事物,特别是设备、器 材类的实物资产的汇总。
(2)电子计算机汇总。其数据处理程序如下: • 第一步,编程。使用计算机语言编写出一套完整的数据处理程序。
• 第二步,数据录入。计算机自动按程序进行数据处理,并将数据处理结果 存储在磁盘、磁带等磁介质中。
树茎
数叶
数据 个数
10 7 8 8
3
11 0 2 2 3 4 5 7 7 7 8 8 8 9
13
向上累 计个数
3
16
12 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
40
13 0 1 3 3 4 4 5 7 9 9
10
50
14 0 0 1 3
16284
22.3
第三产业
20228
27.7
合计
73025
100.0
3、变量数列的编制
成绩 (分)
某班学生《统计学》考试成绩分布表
学生人数 频率 (人) (%)
向上累计

统计学原理与实务第三章统计整理

统计学原理与实务第三章统计整理

平均指标与变异指标
总结词
平均指标是用来反映社会经济现象总体的一 般水平或集中趋势的指标。
详细描述
平均指标通常用平均数表示,如人均收入、平 均工资等,用于描述总体的一般水平。
平均指标的分类
数值平均数和位置平均数,如算术平均数、调和 平均数、几何平均数等。
变异指标
变异指标是用来反映总体各单位之间数量差异程度 的指标。
直接计数法、测量法、推算法等。
相对指标
总结词
相对指标是用来反映社会经济 现象之间数量对比关系的指标 。
相对指标的分类
结构相对数、比例相对数、比 较相对数、强度相对数等。
详细描述
相对指标通常用相对数或比例表示 ,如人口密度、劳动生产率等,用 于揭示事物之间的数量关系。
相对指标的计算方法
直接计算法、对比法、平均法 等。
通过调查、观测、实验等方式直 接获取原始数据。
间接来源
通过文献资料、政府部门或统计机 构等途径获取已整理过的数据。
现代技术
利用互联网、大Biblioteka 据等技术手段进 行数据收集。数据预处理与筛选
01
02
03
04
缺失值处理
根据实际情况对缺失数据进行 填充或删除。
异常值处理
识别并处理异常值,如使用Z 分数法或IQR法。
详细描述
变异指标通常用变异系数或标准差表示,用于揭 示总体各单位之间的数量差异程度。
变异指标的分类
绝对变异指标和相对变异指标,如标准差系数、离差系 数等。
05
统计整理的应用实例
人口普查数据的整理
总结词
系统化、标准化
详细描述
人口普查数据涉及大量个体数据,需要进行系统化、标准化的整理,以便进行 后续的数据分析。具体包括数据清洗、分类、编码等步骤,确保数据质量可靠、 准确。

第三章 统计整理 《统计学原理》PPT课件

第三章  统计整理  《统计学原理》PPT课件

(一)正确选择分组标志
1.根据统计研究的目的选择分组标志 2.选择最能反映事物本质特征的标 志进行分组 3.选择分组标志时,要考虑到现象发展 的历史条件和经济条件
(二)按品质标志或按数量标志分组
1.按品质标志分组 2.按数量标志分组
(三)简单分组和复合分组
1.简单分组。简单分组是指对所研究 的总体按一个标志进行分组。
品质分布数列和变量分布数列
按品质标志分组形成的次数分布 数列叫品质分布数列,简称品质数列 (见表3-3)。
按数量标志分组形成的次数分布 数列叫变量分布数列,简称变量数列 (见表3-4) 。
查看Excel表3-3 查看Excel表3-4
品质分布数列
变量分布数列
(返回组距数列) 返回组限 下一个
二、变量数列的种类
在Excel内排序
(3)编制变量数列
查看Excel
下一个
(4)编制累计次数(频数)分布数列与 累计频率分布
查看Excel
下一个
四、次数分布的主要类型
(一)钟形分布 (二)U形分布
(三)J形分布
(一)钟形分布
图3—2 钟形分布图
(二)U形分布
图3—3 U形分布图
(三)J形分布
图3—4 正、反J形分布图 下一个
组限
在组距变量数列中,表示各组界 限的变量值叫组限,其中较小的变量 值称为下限,较大的变量值称为上限。 (见表3-4) 。
组距=上限-下限 组中值=(上限+下限)÷2
开口组
编制组距变量数列时,常常使用 像“× ×以上”或“× ×以下”这样 不确定组限的组,称为开口组(见表 3-6) 。
查看Excel表3-6
开口组组中值计算公式

第三章统计整理

第三章统计整理
第三章
统计整理
第一节 统计整理的意义和步骤
第二节 统计分组
第三节 分配数列 第四节 统计表和统计图
本章的教学目的、要求及内容
一般了解统计整理的概念和内容、统计分组、分配 数列及统计表等概念和内容。
重点与难点:重点掌握统计分组的方法,在分组的 基础上进行次数分配数列的编制,并学会用统计表 来表示统计资料。
预处理
分组汇总
编制表图
数据的预处理
数据的预处理,主要包括三个方面: 1. 数据的审核 2. 数据的筛选 3. 数据的排序
统计数据资料整理的内容
统计整理的步骤:
(1)拟定统计整理方案 (2)审查原始资料 (3)对各项原始资料分组、汇总,计算总体总量指标 (4)将汇总的结果,以统计表或统计图的形式表现出 来 (5)将统计资料进行系统积累
统计分组的作用 3、揭示现象的内部结构
现象的内部结构是表明现象本质特点的一个重要方面,将同 一总体不同时期的结构联系起来,还可以看到现象的发展趋 势和规律。 “九五”期间我国国内生产总值构成(%)


1996
20.4
1997 1998
19.1 18.6
1999
17.6
2000
15.9
第一产业
第二产业
分配数列表
频数
分布数列的种类
分布数列以分组标志特征不同可以 分为: 品质数列
Байду номын сангаас
变量数列
品质数列
品质数列:按品质标志分配而形成的数列叫属性 分配数列,简称品质数列。用来观察总体单位中 不同属性的单位分布情况。
例 某班学生的性别构成情况
按性别分 组 男 女 合计
绝对数人 比重(%) 数 30 75 10 40 25 100

第三章 统计整理

第三章 统计整理

1.分组标志的选择原则 (1)应根据研究的目的与任务选择分组标志。 例如,同一个工人总体,有多种不同分组方法: ①如果研究学历对收入的影响时,应选择“文 化程度”作为分组标志。 ②如果研究资历对收入的影响时,则应选择 “工龄”作为分组标志。
(2)要选择能够反映事物本质或主要特征的标志。 例如,研究职工生活水平的高低情况时,可 以用“职工的工资水平”作为分组标志,也可以 用“职工家庭成员平均收入水平”作为分组标志。 应该选择后者作为分组标志。 (3)要根据现象的历史条件变化来选择分组标志。 例如,前面讲到研究职工生活水平问题,如 果要列出“职工生活贫困户”一组,则“贫困户” 的标准就随历史条件变化而变化,而且不同地区 标准也不相同。
第三节,变量数列(分配数列)
一、分配数列(次数分布)的概念
在统计分组的基础上,将总体中所有单位按组 归类整理,并按一定的顺序排列,形成总体中各单 位数在各组间的分布称为次数分布,又称分布数列 分布在各组的个体单位数叫次数,又称频数 (fi)。各组次数与总次数(Σfi)之比称为比 率,又称频率。 分配数列(次数分布)有两个构成要素:一 个是分组,另一个是次数。 统计分布的实质:把总体的全部单位按某标 志所分的组进行分配所形成的数列。
第二节 统计分组
一、统计分组的意义: • 统计分组的含义:是根据统计研究任务的 要求和现象总体的内在特点,把统计总体 按照某一标志划分为若干性质不同而又联 系的几个部分(或组)的一种统计方法。 统计分组的关键是分组标志的选择和 划分各组界限。而核心问题是正确地选择 分组标志。 (下)
• 在一个总体中,单位的品质标志或数量标志, 其标志表现可能是互不相同的,总体内部各 个单位间存在许多的变异标志又是人们把总 体进一步分为性质不同的几个部分的客观依 据。 • 统计分组是在总体内部进行的一种分类。兼 有“分”和“合”的双重含义:对总体而言 是“分”(分为范围更小的总体),而对总 体单位而言是“合”(合为性质相同的组); 对分组标志而言是“分”(按分组标志划分 总体成为标志表现不同的许多组),而对其 它标志来说又是“合”(其它标志表现的差 异消失了)。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章 统计整理
一、统计数据的预处理 二、数据分组与频数分布 三、统计表和统计图
统计数据的整理(summarizing data)是指 对所搜集的数据进行加工整理、使之系统化、 条理化,以符合分析的需要。 统计数据的整理通常包括: 数据的预处理 分类或分组 汇总
一、数据的预处理 数据的审核、筛选与排序
(一)品质数据的分组与频数分布
例6: 50个计算机购买者所购买的不同品牌的机型数据
IBM Gateway200 IBM Apple Compaq IBM Apple Compaq Apple Table, Data from a sample of 50 computer purchases(11/15,1994) IBM Packard Bell Compaq IBM Packard Bell Packard Bell Apple Compaq Apple Apple IBM Apple Compaq Compaq Compaq Gateway2000 Packard Bell Apple Apple Compaq Compaq IBM Compaq Packard Bell Gateway2000 IBM Packard Bell Gateway200 Packard Bell Packard Bell Apple Packard Bell Packard Bell Gateway200 Packard Bell Apple Compaq IBM Apple Apple Compaq
1. 数据的审核

发现数据中的错误 找出符合条件的数据
2. 数据的筛选 3. 数据排序

发现数据的基本特征 升序和降序
数据的审核
审核的内容 1. 完整性审核
– – – – – 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全 检查数据是否真实反映客观实际情况,内 容是否符合实际 检查数据是否有错误,计算是否正确等 如:文化程度:小学 职业:大学教师
将某些不符合要求的数据或有明显错误的数
据予以剔除 将符合某种特定条件的数据筛选出来,而不 符合特定条件的数据予以剔出
数据的排序
(要点)
1. 按一定顺序将数据排列,以发现一些明显 的特征或趋势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新 归类或分组等提供依据 3. 在某些场合,排序本身就是分析的目的之 一 4. 排序可借助于计算机完成
分组与求频数 : Table, Frequency Distribution/Relative and Percentage Frequency of Computer Purchases
Company Apple Compaq Gatewy2000 IBM Packard Bell Total Frequency 13 12 5 9 11 50 Relative Frequency 0.26 0.24 0.10 0.18 0.22 1.00 Percentage Frequency 26 24 10 18 22 100
三、频数/次数分配的图示
品质数据往往使用柱状图(Bar graphs)和饼状图(Pie Charts); 数值数据往往使用直方图(Histograms)、折线图(Polygon)、茎 叶图(Stem-and-leaf display) 。 Fig1, Bar Graph of Computer Purchases
(二)数值数据的分组与频数分布
可先将数据进行排序,然后根据需要分组; 对较少的数据也可不排序直接根据需要分组。 ◐分组计频基本步骤:
确定组数 确定组距(按组)整理成分布频数表
例:一会计事务所对其20家客户(clients)年底帐目 辑核(audits)时间(天)统计如下表:
12 22 Table Year-End Audit Times(in days) 14 19 18 15 15 18 17 20 27 23 22 21 33 28 14 18 16 13
14 12
Fre que nc y
10 8 6 4 2 0
A
p
e pl C
om
q pa G at ew
2 ay
0 00
IB
M c a P k
d ar
B
l el
• 柱状图是一种图形方法,用于描述已经 被汇总为频数分布、相对频数分布或百 分比频数分布的数据。 • 在图的横轴上,规定对数据分组(类) 的标记。在纵轴上标有频数、相对频数 分布或百分比频数的刻度。
◎ 频数分布或次数分布(Frequency distribution): 全部数据按其分组标志在各组内的分布状况。 分布在各组内的数据个数称为频数或次数。 A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes. ◎相对频数(Relative frequency)/频率/比重:各组频 数与全部频数之和的比重。 The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n) ◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.
其中N为数据的个数(总体单位数或样本数), 一般对结果取整数。
上例中:K=1+lg20/lg2=1+4.32=5.325
第二步,确定组距(Width of classes):组距是 一个组的上限与下限之差,可根据全部数据的最 大值和最小值及所分的组数来确定:
组距=(最大值 - 最小值)/组数
上例中,组距=(33-12)/5=4.2,可取整数5为最 后选定的组距。 第三步,确定各组组限(Class limits)并据此整 理频数分布表。
22%
26% Apple Compaq Gatewy 2000 IBM packard Bell 24%
18% 10%
Fig 1 Pie Chart of Computer Purchases
• 饼状图是另一种表示相对频数和百分比 频数分布的图形方法。饼状图中的每一 部分所显示的数值可以是频数、相对频 数、或者百分比频数。
上例是离散型数据(天),采用组限间断方法,因此可得 频数分布表如下: Table, Frequency distribution, relative frequency and percent frequency distribution for the audit-time data Audit Frequency Relative Percent Time(days) Frequency Frequency 10~14 4 0.20 20 15~19 8 0.40 40 20~24 5 0.25 25 25~29 2 0.10 10 30~34 1 0.05 5 Total 20 1.00 100
(二)茎叶图
茎叶图是一种既给出数据的分布状况,又能 显示每一个原始数值的图形。 A stem-and-leaf display can be used to rank order data and provide an idea of the shape of the distribution of a set of quantitative data. 茎叶图由两部分组成:茎(stem)与叶(leaf) 茎:通常由每组数的高位数值(leading digits) 形成,按组竖立在左边; 叶:通常由每组数的低位数值(last digits)形成, 按组横排在“茎”的右边。
The objective in developing a frequency distribution is to provide insights about the data that cannot be quickly obtained by looking only at the original data.
▼注意: 1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因 此, 最低组限(The lower class limit) 数据的最小值, 最大组限(The upper class limit) 数据的最大值; 另外,数据在每组中的归属习惯上采用“上组限 不在内”。 2、对离散型数据,可采用相邻两组组限间断的办 法解决“不重”的问题(如6~10,11~15,16~20 等); 对连续型数据,往往采用相邻两组组限重叠, 根据“上限不在内原则”解决“不重”问题(如 [5,10),[10,15),[15,20)等)。
数据的排序
(方法)
1. 定类数据的排序 字母型数据,排序有升序降序之分,但习惯上
用升序 汉字型数据,可按汉字的首位拼音字母排列, 也可按笔画排序,其中也有笔画多少的升序降 序之分

2. 定距和定比数据的排序


递增排序:设一组数据为 X1 , X2 , … , XN ,递 增排序后可表示为:X(1)<X(2)<…<X(N) 递减排序可表示为:X(1)>X(2)>…>X(N)
2. 准确性审核
数据的审核
(原始数据)
审核数据准确性的方法
1. 逻辑检查
– – – – 从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核 检查调查表中的各项数据在计算结果和计算方法 上有无错误 主要用于对定距和定比数据的审核
相关文档
最新文档