统计学第三章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、统计整理的内容与程序
1、统计数据整理的内容 2、数据整理的程序
– 1)统计资料的审核。 – 2)资料的分组和汇总。分组,即对资料按 其性质和特点,划分为若干类;汇总,加总 计算形成各项统计指标。统计分组和统计指 标是整理的中心工作。 – 3)编制统计表或绘制统计图。 – 4)统计资料的积累、保管和公布。
女
60分以下 60~70分 70~80分
40
2 10 13
例: 某地区1997年底各类工业企业及规模构成情况
按所有制性质及规模分组
全民所有制企业 大 型
企业数(个)
3204 512
比重(%)
64.08 10.24
中
小 大 中 小
型
型 型 型 型
708
1984 1286 286 434 566 152
1、划分现象类型
例:按所有制性质划分,我国工业企业可分为: 国有企业;集体企业;个体企业;合资企业; 外资企业。
2、研究总体结构
例:某市按GDP计算的三次产业结构(%) 1990年 2000年 2008年 2009年
GDP
第一产 业 第二产 业 第三产 业
100
3.2 75.7 21.1
100
4.3 63.8 31.9
单项式分组
组距式分组
等距分组
不等距分组
1、单项式分组与组距式分组
单项式分组
• 将一个变量值作为一组
• 适合于对变量值较少的离 散变量的分组
• 举例:居民家庭按儿童数 或人口数分组
组距式分组
•
• • •
将变量值的一个区间作为一 组
~ ~ 适合于变量值变动大、项数 ~ 又较多的离散变量。如分数。 ~ 适合于连续变量。如身高。 ~
(5)归类汇总计算各组次数
• 所谓归类汇总,是指按照各个总体单位的 具体标志值,将其划归某一具体组之中, 在归类汇总时,要遵循“不重复不遗漏” 的基本原则。 • 对于恰好是组限的标志值的总体单位之归 类问题,一般应按“上限不在内”原则, 即本组下限的次数属于本组,本组上限的 次数归于邻近的较大组。
等距分组
(上下组限重叠)
等距分组
(上下组限间断)
等距分组
(使用开口组)
第三节 频数分布
一、频数分布的概念
1、频数分布
• 在统计分组的基础上,将总体所有的单位按某一标志进 行归类排列,并计算各组的单位数,称为频数分布,或 次数分布。 • 根据分组标志特征的不同,分布数列可分为品质(分布) 数列和变量(分布)数列。
三、统计分组的种类
品质分组
变量分组 简单分组
按分组标志性质分
种类
按分组标志个数分
复合分组 类型分组
按任务和作用不同
结构分组 分析分组
1、按分组标志的多少,可分为简单分组和 复合分组。
– 简单分组:就是对研究现象按一个标志进行 分组。 – 复合分组:用两个或两个以上标志分组,即 先按一个标志分组,在此基础上再按第二个 标志分小组,又再层叠地按第三个标志分成 更小的组,这称为复合分组。
人 数(人) 5 12 20 15 8 60
变量数列示例——单项式数列
年龄(岁)
12 13 14 15 合计
人 数(人)
5 27 20 8 60
二、变量数列的编制
例: 某企业100名工人每周工资资料
单位:元
480 250 440 220 350 350 420 380 360 350 350 280 340 320 520 430 500 440 480 460 580 470 330 410 420 350 380 470 610 390
第二节 统计分组
25%
33% 42% 分组前 分组后
一、统计分组的概念和原则
1、概念 2、原则
穷尽原则:使总体中的每一个单位都应有组可归,
或者说各分组的空间足以容纳总体所有的单位。
互斥原则:在特定的分组标志下,总体中的任何
一个单位的只能归属于某一组,而不能同时或可能 归属于几个组。
二、统计分组的意义
3、按分组的作用和任务不同,分为类 型分组、结构分组和分析分组。
– 类型分组:把复杂的现象总体,划分为若干 个不同性质的部分,就是类型分组。 – 结构分组:在对总体分组的基础上计算出各 组对总体的比重,借此研究总体各部分的结 构,即结构分组。 – 分析分组:为研究现象之间依存关系而进行 的统计分组即分析分组。
14.16
39.68 25.72 5.72 8.68 11.32 3.04
集体所有制企业
私营企业
大
中
型
型
24
48
0.48
0.96
(接上)
中外合资企业
大 中 型 型
212
70 74
4.24
1.40 1.48
小
大 中 小 大
型
型 型 型 型
68
102 28 36 38 44 6
1.36
2.04 0.56 0.72 0.76 0.88 0.12
可采用等距分组,也可采用 不等距分组
2、间断组距式分组和连续组距 式分组
• 间断组距式分组:组限不相连的组距式分组。 如儿童按年龄分组。 • 连续组距式分组:组限相连(或称相重叠的), 即以同一数值作为相邻两组的共同界限的组距 式分组。 如学生按成绩分组。
下限,上限:组距式分组的每一组变量值中,其最小值为下限, 最大值为上限。 组距:上下限之间的距离。 组限:相邻两组的界限。 离散型变量,可间断组距式分组,也可连续组距式分组。连续 型变量,只能采用连续组距式分组。 “上限在不内”原则:在连续组距式分组中,以同一个数值作 为相邻两组共同的界限,统计上规定,凡是总体某一个单位的 变量值是相邻两组的界限值,这一个单位归入作为下限值的那
(1)组限、组距 • 组距两端的数值称组限。其中,每组的起点数值称为下 限,每组的终点数值称为上限。 • 上限和下限的差称组距,表示各组标志值变动的范围。1. 组距 • 连续式分组的组距计算公式: 组距=本组上限–本组下限 • 间断式分组的组距计算公式: 组距=本组上限–本组下限+1 开口组的组距:以相邻组的组距为本组的组距。
3204
1286 152 212 102 44 5000
女
按考试成绩分 组(分) 60分以下
60~70分 70~80分 80~90分
人数 5
30 35 20
90分以上
10
例: 某班学生分组表
按性别、考分分组
人数wk.baidu.com
男
60分以下 60~70分 70~80分 80~90分 90分以上
60
3 20 22 11 4
310 320 320 320 330 350 350 350 360 360 370 380 380 390 390 390 400 410 410 420 420 420 420 440 440 440 440 450 450
340 340 350 350
370 370 380 380 400 400 400 410 420 430 430 430 450 460 460 460
变量数列又有单项式数列和组距式数列, 分别由单项式分组和组距式分组形成。
品质数列示例
例: 某企业职工按性别分组表
性别 男
人数(人) 比重(%) 240 40
女
合计
360
600
60
100
变量数列示例——组距式数列
例: 某小学四(1)班学生分组表
身 高(cm) 120以下 120~130 130~140 140~150 150以上 合计
400 450 390 460 290 510 320 380 410 530 440 380 470 570 260 400 470 560 430 600
(1)排序列。 将原始资料按数值大小排列。
例: 依前表的数据整理而成的变量序列资料
200 220 230 250 260 280 290 290 300 300
例:某工业企业100名工人按每周工资额分组
按工资 额分组 (元) 职工人 数(人) (频数) 占总数 (%) (频率)
200~257 257~314 314~371 371~428 428~485 485~542 542~599 599~656
4 7 16 19 24 16 10 4
4.0 7.0 16.0 19.0 24.0 16.0 10.0 4.0
100
2.5 54.5 43.0
100
2.3 52.2 45.5
3、研究现象之间的依存关系
例 40户居民家庭按月收入分组 家庭月收入 (元) 1600以下 1600-1700 1700-1800 1800-1900 1900-2000 2000以上 家庭户数 (户) 4 7 2 9 7 11 家庭月平均支出 (元) 1000 1090 1200 1570 1660 1690
3.等距分组和不等距分组
等距分组是各组保持相等的组距,也就是说 各组标志值的变动都限于相同的范围。一般用于 标志值变动比较均匀的场合。如工人工资、年龄。 不等距分组即各组组距不相等的分组。适用 于标志值分布很不均匀,标志值相等的量具有不 同意义的场合和标志值按一定比例发展变化的场 合。
分别举例。
4.组限和组中值
(2)确定全距(计为R), 即:
R xmax xmin
式 中, xmax :原数列的最大值
xmin:原数列的最小值
此例中,R=650-200=450(元)
(3)确定组数和组距
编制变量数列的关键在于确定组数。 组数一经确定,组距也就随之确定。 确定组数的基本原则是: 1)根据现象的性质和特点确定组数。 2)根据原数据的分布特征及集中趋势确定 组数。 3)具体操作上来说,组数既不能太多,也 不能太少。一般来说,组数不应少于6或 大于15。
第三章 统计整理
• 第一节 统计整理的意义和方法
• 第二节 统计分组 • 第三节 频数分布 • 第四节 数据显示
第一节 统计整理的意义和方法
• 一、统计整理的意义 • 二、统计整理的内容与程序
一、统计整理的意义
统计整理是统计工作的中间环节,是 统计调查的继续和发展,是统计分析的前 提和条件,在整个统计工作过程中起承上 启下的作用。
其中,d:组距
R d k
k:组数
斯特杰斯经验公式: 组数=1+3.3 Lg N
450 = 56.25≈57(元) d= 8
(4)确定组限。
• 1)确定最小组的下限。有两种方法: ①将原始资料中的最小变量值确定为最小 组的下限。 ②将原始资料中的最小变量 值确定为最小组的组中值。 • 2)确定组限的表示方法。与组数和组距一 样,组限和组中值也最好取整数。对于相 邻两组的组限有两种表示方法:①变量是 连续型的,相邻两组的上下限可以重叠, 即同一变量值可以作为相邻两组的上限和 下限。②变量是离散型的,相邻两组的上
四、统计分组方法
(一)品质分组的方法 (二)变量分组的方法
(一)品质分组的方法
品质分组一般较简单,分组标志一旦确 定,组数、组名、组与组之间的界限也就 确定。但也有较难的情况,需经专门的研 究才能确定。有些复杂的品质标志分组可 根据统一规定的划分标准和分类目录进行。
(二)变量分组的方法
变量分组方 法
(2)组中值:上下限之间的中点数 值,以代表各组标志值的一般水平。
• 组中值=(上限+下限)÷2 或者 组中值=下限+(组距÷2) • 对于第一组是 “多少以下”,最后一组 是“多少以上”的开口组,组中值的计 算可参照邻组的组距来决定。即: 缺下限开口组组中值=上限-1/2邻组组 距, 缺上限开口组组中值=下限+1/2邻组组
2、分布数列的两个要素
– 1)总体按某标志所分的组。 – 2)各组所出现的单位数,即频数,亦称次数。对于 变量数列,标志值形成的数列,称为变量,一般用x 表示;频数(次数)用f表示。
2.分布数列的类型
分布数列包括品质分布数列(简称品质 数列)和变量分布数列(简称变量数列), 分别由品质标志分组和数量标志分组形成。
外商独资企业
其他类型企业
中
小
型
型
10
28
0.20
0.56
2、按分组的标志的性质不同,分为品质分 组(或称属性分组)和数量分组(或称 变量分组)。
– 品质分组:按品质(或属性)标志进行分组。 品质分组所形成的数列称为品质数列。 – 数量分组:按数量标志分组,数量标志的变 异性体现在它不断变动自身的数量上,故也 称为变量分组。变量分组所形成的数列称为 变量数列。
简单分组和复合分组
例: 某地区1997年底各类工业企业数 按所有制性质分 组 企业数 (个) 例: 某班学生分组表 按性别分 男 人数 60 40
比重(%) 64.08
25.72 3.04 4.24 2.04 0.88 100.00
全民所有制企业
集体所有制企业 私营企业 中外合资企业 外商独资企业 其他企业 合 计