《统计学》第3章统计数据的整理和显示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 穷尽原则:就是使总体中的每一个单位 都应有组可归。 • 互斥原则:就是使总体中的任何一个单 位只能归属于某一个组,而 不能同时或可能归属于几个 组。
(二) 统计分组的作用
• 1. 划分社会经济现象的类型
• 2. 揭示社会经济现象的内部构成 • 3. 分析社会经济现象之间的依存关系
例
“九五”期间我国国内生产总值构成(%)
或变异范围较大的离散变量。
例:学生按学习成绩分组:
按成绩分组 60分以下 人 2 数
60—70
70—80 80—90 90分以上 合 计
9
15 11 3 40
(1)、等距分组:各组的组距都相等。适用于标志值的
变动比较均匀的情况下。
(2)、异距分组:各组的组距不完全相同。适用:
a、标志值分布很不均匀
b、标志值相等的量具有不同意义
• 组中值是假定值,是上限与下限的中间数值。
§3 分配数列
一、分配数列的概念:
• 在统计分组的基础上,将总体所有的单位按某一 标志进行归类排列。可分为:品质数列和变量数 列。
• 分配数列的两个要素:
一是总体按某标志所分的组;
二是各组所出现的单位数,即频数,
亦称次数(一般用 f 来表示)。
品质数列
开口组如何计算组中值: • 缺少上限: 组中值=下限+相邻组的组距÷2 ;
如:90分以上,组中值=90+10/2=95
• 缺少下限:
组中值=上限-相邻组的组距÷2 ;
如:60分以下,组中值=60-10/2=55
说明: • 组中值代表该组变量的平均水平,是建立在如下 的假设条件下:分配到该组的各总体单位在该组 的分布时均匀分布。
指标
(甲) 每人每年生活消 费 (现价) 食用植物油 城镇住房面积 农村住房面积 每万人拥有电话 平均每人储蓄存 款余额 城镇居民平均每 户就业人数 计量单位 (乙)
1999年
(1)
2000年 (2)
发展速度(%) (3)=(2)÷(1 )
元 公斤 平方米 平方米 部 元 人
2336 6.5 9.51 26.67 911 2959 1.77
重庆市1990年—2000年国内生产总值统计表
单位:亿元
总量指标 (Aggregate Indicators)
指标
国内生 产总值 第一产业 第二产业
199 1995 1996 1997 1998 1999 2000 0
298.41 1009.47 1179.09 1350.10 1429.26 1479.71 1589.34
2 10 12 16 10 50
• 钟型分布的 特征:
两头小,中 间大。即靠 近中间的变 量值分布的 次数多,靠 近两边的变 量值分布的 次数少。
80
0 2 4 6 10 8 12
90 10 00 ~1 10 0 0 ~1 13 14 00 00 15 ~1 ~1 00 30 40 50 以 0 0 0 上 20 ~1 00 00 00 11 12
频数
0~ 90 0 10
0~
• U 型分布的特 征:
25 20 15 10 5 0
0 0 14 0 ~6 51 60 ~3 0~ ~5 4~ 15 36 以 上 3
两头大,
中间小。即靠
近中间的变量
值分布的次数 少,靠近两边 的变量值分布 的次数多。
死亡率
• 正J型分布的 特征:
次数随 着变量的增大 而增多。例: 投资额按利润 率的大小分布 。
(1)、简单表 2、按主词的结构 分类:
(2)、分组表
(3)、复合表 (1)、简单排列表
3、按宾词设计 分类:
(2)、分组排列表
(3)、分组层叠排列表
简练、明确、 实用、美观、
便于比较。
• 统计表应设计成长方形表格,注意长与宽的比例。 • 线条的绘制。特别注意统计表的左右两端一般不划线,采 用“开口式”。 • 合计栏的设置。一般应放在最后一列或最后一栏。 • 栏数的编号。 主词的序号为:甲、乙、丙、丁、…… 宾词的序号为:(1)、(2)、(3)(4)……
第一步:将考试成绩按大小顺序排列。
第二步:根据数列的数量特征确定分组的形式。 (连续变量 组距式分组)
第三步:找出数列中的最大值和最小值,计算全距。
(最大值:99;最小值:57;全距:42) 第四步:确定组数。 (根据 N =50, n=1+3.3222log50=6.64 ) 第五步:确定组距。
例
某班学生的性别构成情况
按性别分 组 男 女
合计
人数(人 ) 30 10
40
比重 (%) 75 25
100
• 例:某班50名学生“统计学”考试成绩如下: 58 88 64 85 97 74 69 63 67 88 85 91 82 90 80 65 66 81 71 97 82 98 86 82 87 72 95 72 73 76 76 77 78 74 77 83 83 67 63 85 62 63 57 97 87 99 75 84 99 93
c、标志值按一定比例发展变化
1982年第三次人口普查年龄的异距分组
按年龄分组 不满周岁 组距 —
1—3岁
4—6岁
2
2
7—12岁
…… 60—64岁
5
…… 4
65—79岁
80—99岁
14
9
100岁以上
—
• 间断组距分组 如:儿童按年龄分组:未满周岁,1~2岁,3~4 岁,5~9岁,10~14岁。 • 连续组距分组 如:工厂按完成任务的程度分组:100%以下, 100%~110%,110%~120%,120%以上。 在连续组距的分组时,相邻两组的上、下
年 份 1996 1997 1998 1999 2000
第一产业 第二产业 第三产业 合 计
20.4 19.1 18.6 17.6 15.9 49.5 50.0 49.3 49.4 50.9 30.1 30.9 32.1 33.0 33.2 100.0 100.0 100.0 100.0 100.0
事物质的差别。 • 根据被研究的现象总体的数量特征,采
用适当的分组形式,确定相应的组距、
组限。
1、单项式分组:
一个变量值代表一组。一般适用于离散变量
且变异范围较小。 日产量(件) 例:工人按日产量分组: 20 21 22 23 24 25 人数 8 10 25 30 7 2
2、组距式分组:用一段距离代表一组。一般适用于连续变量
• 按分组的作用和任务不同,分为类型分组、结构分组
和分析分组。
二、统计分组的方法:
统计分组的关键问题:
1、根据研究的目的确定
一、选择适当的分组标志。
2、选择最具有代表性的 标志
3、根据具体的历史条件 确定
二、合理划分各组之间的界限。 (上限不在内原则)
• 按品质标志分组,有的比较简单,分组的标志一经
• 向上累计:由标志值小的方向向标志值大的方 向累计。 表示的意义是:该组上限以下所包含的总体单位 是多少。 • 向下累计:由标志值大的方向向标志值小的方 向累计。 表示的意义是:该组下限以上所包含的总体单位是 多少。
某班50名学生“统计学”考试成绩累计次数分布统计表
按考试 成绩分 组 60以下 60-70 70-80 80-90 90以上 合计 人数 频率( %) 4 20 24 32 20 100 向上累计 人数 2 12 24 40 50 频率 4 24 48 80 100 人数 50 48 38 26 10 向下累计 频率 100 96 76 52 20 -
二、数据整理的程序
• 设计编制统计数据整理汇总方案
• 统计资料的审核(主要内容:完整性和准确性)
• 资料的分组和汇总 • 编制统计图表
• 统计资料的积累和保管
§2 统计分组
一、统计分组的概念与原则: 1、概念: “分”:就是把同一总体中性质不同的总体 单位分配到不同的组里,突出组与组之间 的差异性。 “组”:就是把同一总体中性质相同的总体 单位归并到同一组里,突出组内的同质性 。
限是重叠的,如110%。统计中按“上限不在内”
原则处理。即,110%统计到作为下限的第三组而
不是统计到作为上限的第二组。
品质标志分组
统 计 分 组 数量标志分组 组距式分组 异距式分组
单项式分组
等距式分组
• 全距(R)= 数列中的最大值-最小值 • 组距(d)= 上限-下限 • 组数:
全距 组数 组距
例
某乡某种农作物的耕作深度与收获率的关系 耕作深度分组(cm) 10-12 12-14 地块数 7 10 平均收获率(公斤/亩) 400 460
14-16 16-18 18-20
16 12 5
540 620 680
(三) 统计分组的种类
• 按分组标志的多少,可分为简单分组和复合分组。 • 按分组标志性质的不同,分为品质分组和数量分组。
指标名称和数值)。
例
2006年某月某公司各企业劳动生产率统计表 (单位)
分组 P 总产值( 万元) 1 职工人数( 人) 2 劳动生产率 (元/人) 3
总标题
纵栏标题
横 行 标 题
大型 中型 小型 合计
数据资料 (指标数值)
主词
宾词
(1)、调查表 1、按用途分类: (2)、整理表或汇总表
(3)、分析表
(42÷6.64=6.33;
组距=10 [组距一般取5或10的整倍数])
第六步:确定首组的下限和末组的上限。 (首组下限=50;末组设为:100)
第七步:统计总体单位在各组的分配次数。
某班50名学生“统计学”考试成绩次数分布统计表
按考试成绩分组 60以下 60-70 70-80 80-90 90以上 合计 人数 f 2 10 12 16 10 50 频率(%) 4 20 24 32 20 100
99.58
261.52
284.89
304.51
298.67
284.28
283.00
118.53
427.19
493.21
563.40
585.38
604.39
657.51
第三产业
80.30
320.76
400.99
482.19
545.21
591.04
648.83
重庆市人民物质文化生活提高情况表(1999—2000)
上限:一组中的较大值。 下限:一组中的较小值
• 组限
• 1、组数的多少与组距的大小有关。在全距一定时,组距 大,组数就少;组距小,组数就多。 • 2、组距的确定要根据事物的数量特征来确定。组距如果
过大,就会使性质不同的单位归并到了同一组里(破坏了
组内的同质性);组距过小,就会使同一性质的单位分到 了不同的组里(破坏了组与组之间的差异性)。
确定,组的名称和组数也随之确定了。如:人口按
性别分组,就分为“男”与“女”两组。
• 按品质标志分组,有的就比较复杂。如:国民经济
的部门划分,就有三次产业分类、行业分类、机构
部门分类 。这种比较复杂的分类,一般会有国家统
计局和国家标准局统一制定分类标志,代码等。
• 分组时各组数量界限的确定必须能反映
• 3、决定组数的多少,并无规则可循,必须凭借经验和对
研究对象的认识作出判断。有一个经验公式可供大家参考 :【美国学者斯特杰斯创用】 n = 1 + 3 . 322 log N n:组数 N:总体单位数
• 组中值:上、下限之间的中点数值就是组中值。
上限 下限 组中值 2
• 开口组与闭口组: 开口组:缺少上限或下限的组。 如:60分以下;60—70 ;…80—90; 90分以上。 闭口组:上、下限都齐备的组。 如:70—80分; 500—600公斤; 90—100 岁
0
0
0
0
0 35 35 0-
15
20
25
30
0-
0-
0-
0-
10
15
20
25
单位成本
30
0-
40
0
§4 统计表与统计图
一、统计表 (一)、统计表的定义和结构 定义:把统计数据按一定的顺序排列在表格 上。 结构:1、从表式上看:总标题、横行标题、
纵行标题、指标数值。
2、从内容上看:主词:总体及其分组。 宾词:各个指标(包括
300 250 200 150 100 50 0
0 5 5 .2 0. 25 -0 .1 .1 .2 -0 -0 -0 -0 .3 0
05
10
15
0.
0.
0.
0.
20
投资额
• 反J型分布 的特征: 次数随 着变量的增 大而减少。 例:产品产 量的增加, 产品单位成 本下降。
Leabharlann Baidu
4.5 4 3.5 3 2.5 2 1.5 1 0.5 0
第三章统计数据的整理和显示
§1 统计数据整理的概念和步骤
§2 统计分组 §3 分配数列 §4 统计表与统计图
§1 统计数据整理的概念与步骤
一、统计数据整理的概念:
根据统计研究的目的,将统计调查所得的 原始数据进行科学的分组和汇总,使之系 统化,条理化的工作过程。统计数据整理 在统计工作中处于中间阶段,起着承前启 后的作用。