第三章 统计整理(图片版)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编制步骤之一——数据排序并确定全距
将数据从低到高排列,形成如下变量序列: 51 54 57 59 62 64 65 65 66 66 67 68 70 71 72 72 74 75 75 76 76 77 78 78 79 81 83 84 84 84 85 86 86 88 89 90 93 94 96 98 计算全距=98-51=47
(一)钟形分布/丘形分布 1.含义: 特点是“两头小,中间大”,即越靠近中间的变量值分 布次数愈多;愈远离变量值中点分布的次数愈少,形态如钟或山 丘。 正态分布:左右两侧对称分布 2.种类 左偏分布:存在极小变量值时曲线向左偏的 偏态分布 非对称分布 右偏分布:存在极大变量值时曲线向右偏的 非对称分布
品质分配数列
中国体育代表团在巴西奥运会上获金牌的项目
获金牌项目 跳水 举重 乒乓球 羽毛球 田径 跆拳道 游泳 排球 射击 自行车 合计 金牌数 7 5 4 2 2 2 1 1 1 1 26 比重(%) 27 19 15 8 8 8 4 4 4 4 100
数值分配数列实例
某地区生活富裕程度 恩格尔系数 家庭数(户) 30%以下 2 30%-40% 3 40%-50% 15 50%-60% 20 60%以上 10 合计 50 比重(%) 4 6 30 40 20 100
向上累计 : 是将各组的次数和频率,由变量值低 的组向高的组累计。说明各组上限以下包含的总体 单位数和比率。 向下累计 : 是将各组的次数和频率,由变量值高 的组向低的组累计。说明各组下限以上包含的总体 单位数和比率。
根据上例编制的累计次数分布表如下:
二、次数分布的类型
社会经济现象的分布主要有以下三种类型:
Hale Waihona Puke Baidu
第 三 节 分配数列和次数分布类型
一、分配数列
(一)概念
将总体按分组标志分组后形成的总体单位 在各组的分布,又称次数分布数列或频数分 布数列。
(二)分配数列的要素
组别:总体分成若干个组 次数(频数):分布在各组的总体单位数。各组的
次数(频数)之和等于总体单位总数。
频率(比重):各组次数占总次数的比重。各组比
正态分布
左偏分布
右偏分布
(二)U形分布:是指较大和较小的变量值出现的次数多, 而中间变量值出现的次数少,特点是“两头大,中间 小” 。
例子:发展中国家人口死亡率 的年龄分布。 英国与美国一项联合研究 显示,人一生的幸福感呈现U形 曲线,年轻与年老时最快乐,中年 时会坠入幸福感的“谷底”,发 生在44岁左右,而且要持续几年 甚至更长的时间。
第三节、分配数列和次数分布的类型 第四节、统计图表
第一节 数据整理的一般问题
一、统计整理的概念和作用
(一)概念 对统计调查所搜集到的数据进行分类和汇总, 使其系统化、条理化、科学化,以得出反映事物 总体综合特征的资料的工作过程。 (二)作用 统计数据整理,是统计调查的继续,也是统 计分析的前提,承前启后,在整个统计工作中具 有重要的作用。
重之和等于100%(或1)。
(三)分配数列的种类
分配数列是在分组的基础上形成的,根据分组时采用的分 组标志不同,分配数列可分为: (这种数列一般比较稳定,只要分组 品质分配数列 标准定的比较恰当,通常能准确地反 映总体的分布特征。) 分配数列 变量分配数列 组距分配数列 不等距数列 单项式分配数列 等距数列
年 份
2010 2011 2012 2013 2014 2015 2016
三、统计分组的关键
选择分组标志和分组划分各组界限(针对数值型变量)。
四、选择分组标志的原则
1.根据研究任务和目的选择分组标志。 2.选择能反映事物本质特征或重要特征的标志。 3.结合现象所处的历史条件和社会经济条件选择分组 标志。
编制步骤之二——确定变量数列的形式
因变量值较多、变动幅度较大,适宜采用组 距式数列。
编制步骤之三——确定组数和组距
[分析] 全距为47,分为5组,组距为10。
编制步骤之四——确定组限
[分析] 离散型变量分组,相邻组的组限可以重叠, 也可间断,本例选择重叠。
编制步骤之五——计算各组的频数和频率
[分析] 根据排序后的变量序列清点各数据区间的 频数并计算比重,也可利用Excel统计软件进行。
简单分组 简单分组是对研究对象按照一个标志进行的分组。
复合分组
复合分组是对研究对象按两个或两个以上的标志层叠起来进行的分 组。即先按一个标志进行分组,然后再按另一个标志在已分好的各个组 内划分成若干个小组。
平行分组 平行分组是选择两个或两个以上的标志对总体进行一次次简 单分组后所形成的体系;
(4)组数:数列中的分组个数。
组数和组距的关系
定性关系:全距一定的情况下,组数和组距呈 反方向变动。 定量关系: 组数=全距/组距=R/d 组距=R/(1+3.322lgN) 式二为确定组距的经验公式,其中N代表组数。
(5)频数(次数)与频率(比重) (6)品质数列与变量数列 (7)等距数列与异距数列 (8)次数密度:单位组距内分布的总体单位数。
编制步骤之六——绘制表格
表 某车间工人日产零件分组表
日产零件数(件) 50-60 60-70 70-80 80-90 90-100 合计
工人数(人) 比重(%) 4 10 8 20 13 32.5 10 25 5 12.5 40 100
4.累计次数分布表的编制
(1)累计次数和累计频率 反映总体单位分布特征的指标,用以说明总体 中在某一变量值水平上下总共包含的总体单位次数 和频率。 (2)累计次数和频率的计算方法
公式:
次数密度=各组次数 / 各组组距
(9)
开口组:缺上限或缺下限的组 闭口组:上下限齐全的组
(10)组中值及计算* ①闭口组
组中值=(上限+下限)/ 2
②开口组
缺上限时: 组中值=下限+邻组组距/ 2 缺下限时: 组中值=上限 -邻组组距/ 2
2.注意事项 (1)组距最好为5或10的倍数。 (2)最小组的下限略低于最小变量值,最大组 的上限略高于最大变量值。 (3)离散型变量分组,相邻组的组限可以间 断,也可以重叠;连续型变量分组,相邻组的组 限必须重叠。
(三)J形分布:J形分布的特征是“一边大,一边小”。即次数 随着变量值的变化大多数集中在某一端的分布。其曲线形 如英文字母的“J”字,具体有正J形分布和反J形分布两种类 型。
(育龄妇女文化程度与平均生育子女数)
正J形分布
反J形分布
**思考题:以下现象的次数分布符合哪种分布的特征? A 人群中身高、体重的分布 B 学生考试成绩的分布 C 按人口年龄分布的死亡率 D 餐饮企业销售额的分布
(4)组限重叠时,临界点的总体单位按“上限 不在内”的原则归组。
3.简单次数分布数列的编制步骤
数据排序并计算全距 确定变量数列的形式(单项式或组距式) 确定组数和组距 确定组限 计算各组次数和频率 绘制表格
简单次数分布数列的编制实例
例:数据资料 某车间40名工人日产零件如下: 65 72 66 57 90 86 83 68 75 84 66 59 67 70 79 51 81 54 78 86 94 64 77 74 76 96 62 98 85 71 79 84 65 72 89 75
二、统计分组的作用
(1)区分现象的类型。
例:按所有制性质划分,我国现有8种经济类型: 国有经济;集体经济;私营经济;个体经济;联营经 济;股份制经济;外商投资经济;港澳台投资经济
国民经济按行业分组,可以划分为20个行业门类: (1)农、林、牧、渔业;(2)采矿业;(3)制造业; (4)电力、燃气及水的生产和供应业;(5)建筑业;(6) 交通、运输、仓储及邮政业;(7)信息传输、计算机服务 和软件业;(8)批发和零售业;(9)住宿和餐饮业; (10)金融业;(11)房地产业;(12)租赁和商务服务 业;(13)科学研究、技术服务和地质勘探业;(14)水 利、环境和公共设施管理;(15)居民服务和其他服务业; (16)教育;(17)卫生、社会保障和社会福利业;(18) 文化、体育和娱乐业;(19)公共管理和社会组织;(20) 国际组织。通过分类,可以反映我国各行业的发展,为进 一步研究其水平与结构提供了便利条件。 产业可以划分为第一产业、第二产业、第三产业;
(2)反映总体的内部结构。
我国三次产业结构状况
年份 第一产业 第二产业 第三产业 1980 30.2 48.2 21.6 1990 2000 27.1 15.1 41.3 45.9 31.6 39 2010 2017 10.2 7.9 46.8 40.5 43 51.6
(3)揭示现象之间的依存关系。
收 入
A B
人口(%) 绝对不平等线
根据实际收入分配线 与绝对平等线或绝对 不平等线进行对比, 可衡量其不平等程度。 离绝对平等线越远分 配越不平等;反之, 越靠近绝对平等线分 配越平等。 基尼系数——基尼根 据洛伦茨曲线提出的 判断分配平等程度的 指标。 基尼系数=A/A+B 基尼系数的实际数值 只能介于0~1之间。
洛伦茨曲线:专门用以检定社会收入分配的平等程度。
洛伦兹曲线(Lorenz curve),也译为“劳伦兹曲线”。就 是,在一个总体(国家、地区)内,以“最贫穷的人口计算 起一直到最富有人口”的人口百分比对应各个人口百分比的 收入百分比的点组成的曲线。
二八定律
收 入
人口(%) 洛伦茨曲线示意图
绝对不 平等线
工人数(人)
16 28 34 56 38 18 10 200
比重(%)
8 14 17 28 19 9 5 100
(四)分配数列的编制
1.概念术语
(1)全距(R)=数列中最大变量值-最小变量值
(2)组限:每一组的最大变量值与最小变量值 上限:每一组的最大变量值 下限:每一组的最小变量值 (3) 组距( d ) : 每一组的最大变量值与最小变量值 之差 组距=上限—下限
二、数据整理的程序
第二节、统计分组
□◎□※※ ※□※□□ □□◎□◎ ◎※※□※
□□□□□□□ □□ ※※※※※※※ ◎◎◎◎
通过统计整理: (合并、分类) 直观、有规律
第一手资料: 简单、凌乱
一、统计分组的概念
根据统计研究目的和客观现象的内在特点,按照选定 的某个或几个标志,将被研究的总体数据分成若干部分的 科学分类。
洛伦茨曲线示意图
最低 较低 中等 较高 最高
人口(%)累计(%)收入(%)累计(%) 20 20 5 5 20 40 10 15 20 60 16 31 20 80 24 55 20 100 45 100
城乡居民家庭人均收入及恩格尔系数
城镇居民家庭 农村居民家 人均可支配收 庭人均纯收 城镇居民家庭 农村居民家庭 入 入 恩格尔系数 恩格尔系数 绝对数 (元) 绝对数 (元) (%) (%) 19109.4 5919 35.7 41.1 21809.8 6977.3 36.3 40.4 24564.7 7916.6 36.2 39.3 26955.1 8995.9 35 37.7 29381 9892 34.2 37.8 31790 10772 29.7 33 33616.2 12363.4 29.3 32.2
单项式变量数列实例
某村居民家庭按家庭人口数分组
家庭人口数(人) 家庭数(户)比重(%) 1 5 5 2 10 10 3 35 35 4 25 25 5 15 15 6 10 10 合计 100 100
组距式变量数列实例
某车间工人按月工资分组
月工资(元)
1500以下 1500-1700 1700-2000 2000-2300 2300-2600 2600-4000 4000以上 合计
五、统计分组的原则
1.穷尽性原则 2.互斥性原则 3.组内同质,组间差异性原则
六、统计分组的种类
(一)根据 分 组 变 量 ( 标志 ) 的性 质不同
按品质标志 分组 按数量(变 量)标志分 组
(二)根据采用的分组标志的个数多少 只按一个标志分组:简单分组 复合分组
按两个或以上的标志分组
平行分组
第三章、统计数据的整理
学习目的及要求
理解统计分组的概念,了解统计分组的作用,掌 握统计分组的方法,理解频数分布的概念,掌握变 量数列的种类,了解变量数据的编制,了解频数分 布的主要类型,学会编制和运用统计表,并能灵活 利用Excel编制统计表和绘制统计图。
第一节、统计整理一般问题
第二节、统计分组