统计学 数据的整理和展示共68页
合集下载
第三章+统计数据的整理-68页文档资料
注明资料来源。必要时,在统 计表下加注说明
二、统计图
1. 直方图
频率 50 40 30 20 10 0 40 50 60 70 80 90 100 考分
2. 条形图
90 80 70 60 50 40 30 20 10
0 第一季度
第二季度
第三季度
第四季度
东部 西部 北部
3. 折线图
4. 曲线图
次数 比率(%)
A、各组的上限分别为80%,100%,120% B、第一组的上限为100%,第二组的上限为120% C、某企业计划完成100%应归第一组 D、某企业计划完成100%应归第二组
谢谢!
的频数分布,其组别表现为一系列的概念或范畴。
变量
频数
频率
北京崇文区工读学校学生始犯年龄统计表
变量频数分布:
是经过变量分组
后形成的分布数
列,其组别表现
变 量
为不同的数值或 值
数域。
单项数列:
是以一个变量值为 一组编制的变量频 数分布。
北京市崇文区工读学校学生 始犯年龄统计表
组距数列
是以表示一定变动范围的两个变量值构成的组 所编制的变量频数分布。
(一)品质频数分布的编制
作属性分组,划分各组界限
例见教材P.47-48
例:品质数列
某班学生的性别构成情况
(二)变量频数分布的编制
1、单项数列的编制
例见教材P.48-49
适用范围 离散型变量,变量值的种数较少时。
步骤
将变量值排序
计算频数和频率
编制统计表
例:单项数列
某厂第二季度工人平均日产量
2、组距数列的编制
四、 选 择 题
1、统计分组的组数和组距是互相制约的,表现有( A、组数越多,组距也越大 B、组数越多,组距就越小 C、组距越小,组数也越少 D、组数与组距不存在关系
二、统计图
1. 直方图
频率 50 40 30 20 10 0 40 50 60 70 80 90 100 考分
2. 条形图
90 80 70 60 50 40 30 20 10
0 第一季度
第二季度
第三季度
第四季度
东部 西部 北部
3. 折线图
4. 曲线图
次数 比率(%)
A、各组的上限分别为80%,100%,120% B、第一组的上限为100%,第二组的上限为120% C、某企业计划完成100%应归第一组 D、某企业计划完成100%应归第二组
谢谢!
的频数分布,其组别表现为一系列的概念或范畴。
变量
频数
频率
北京崇文区工读学校学生始犯年龄统计表
变量频数分布:
是经过变量分组
后形成的分布数
列,其组别表现
变 量
为不同的数值或 值
数域。
单项数列:
是以一个变量值为 一组编制的变量频 数分布。
北京市崇文区工读学校学生 始犯年龄统计表
组距数列
是以表示一定变动范围的两个变量值构成的组 所编制的变量频数分布。
(一)品质频数分布的编制
作属性分组,划分各组界限
例见教材P.47-48
例:品质数列
某班学生的性别构成情况
(二)变量频数分布的编制
1、单项数列的编制
例见教材P.48-49
适用范围 离散型变量,变量值的种数较少时。
步骤
将变量值排序
计算频数和频率
编制统计表
例:单项数列
某厂第二季度工人平均日产量
2、组距数列的编制
四、 选 择 题
1、统计分组的组数和组距是互相制约的,表现有( A、组数越多,组距也越大 B、组数越多,组距就越小 C、组距越小,组数也越少 D、组数与组距不存在关系
统计数据的整理和显示
数 据
在编制组距数列中,要按照以下程序进行:
第一,使原始数据序列化( 编制由小到大的 单项式数列) 第二,计算出组距、组数等 第三,分组归类形成变量数列
整第 理3 和章 显统 示计
数 据
a、使原始数据序列化
现有某车间50名工人日加工零件的资料如下: 117,108,110,112,137,122,131,118, 134,114,124,125,123,127,120,129, 117,126,123,128,139,122,133,119, 124,107,133,134,113,115,117,126, 127,120,139,130,122,123,123,128, 122,118,118,127,124,125,108,112, 118,121
整第 理3 和章 显统 示计
数 据
区分标示组限与真实组限:组间是连续还是间断
连续:真实组限,如60-70,70-80,80-90;间断 :标示组限,如1-2,3-5,6-8;转换为0.5-2.5, 2.5-5.5,5.5-8.5)
组限
上限(大) 下限(小)
标示上限 真实上限= 标示上限+0.5 标示下限
组距 组 全数 距 最大 组 值 最 数小值
整第 理3 和章 显统 示计
数 据
组数与组距成反比关系,组数越多,组距越小, 反之,组数越少,组距越大。
确定组数可参照美国统计学家sturges(斯特古斯) 经验公式:
组数=1+3.322lgN, N为总体单位数。 组数=1+3.322lg50=6.64≈7,当然,这只是一个 经验结果,到底分多少组还取决于现象本身。
整第 理3 和章 显统 示计
数 据
采用单项式变量分组形成如下分布数列
在编制组距数列中,要按照以下程序进行:
第一,使原始数据序列化( 编制由小到大的 单项式数列) 第二,计算出组距、组数等 第三,分组归类形成变量数列
整第 理3 和章 显统 示计
数 据
a、使原始数据序列化
现有某车间50名工人日加工零件的资料如下: 117,108,110,112,137,122,131,118, 134,114,124,125,123,127,120,129, 117,126,123,128,139,122,133,119, 124,107,133,134,113,115,117,126, 127,120,139,130,122,123,123,128, 122,118,118,127,124,125,108,112, 118,121
整第 理3 和章 显统 示计
数 据
区分标示组限与真实组限:组间是连续还是间断
连续:真实组限,如60-70,70-80,80-90;间断 :标示组限,如1-2,3-5,6-8;转换为0.5-2.5, 2.5-5.5,5.5-8.5)
组限
上限(大) 下限(小)
标示上限 真实上限= 标示上限+0.5 标示下限
组距 组 全数 距 最大 组 值 最 数小值
整第 理3 和章 显统 示计
数 据
组数与组距成反比关系,组数越多,组距越小, 反之,组数越少,组距越大。
确定组数可参照美国统计学家sturges(斯特古斯) 经验公式:
组数=1+3.322lgN, N为总体单位数。 组数=1+3.322lg50=6.64≈7,当然,这只是一个 经验结果,到底分多少组还取决于现象本身。
整第 理3 和章 显统 示计
数 据
采用单项式变量分组形成如下分布数列
《统计数据的整理》PPT课件
3
900-1000
7
1000-1100 13
1100-1200
5
1200-1300
2
合计
30
比重 (%)
10.0 23.3 43.3 16.7 6.7
100.0
累计频数
向上
向下
3
30
10
27
23
20
28
7
30
2
- 精选ppt
-
累计频率(%)
向上
向下
10.0 33.3 76.6 93.3 100.0
100.0 90.0 66.7 23.4 6.7
身高(米) 1.50-1.60 1.60-1.70 1.70-1.80 合计
精选ppt
学生人数 10 11 9 30
9
统计分组的方法(总结)
定性数据的分组方法 —— 单项式分组 定量数据的分组方法
1、按离散变量分组
(1)变量值取值不多 —— 单项式分组 (2)变量值取值较多 —— 组距式分组
2、按连续变量分组 —— 组距式分组
– 一般在现象性质差异的变动比较均衡条件下使用。 –优点:易于掌握次数分布的特征;各组次数可以直接比较。
按身高分组(米)
1.50-1.60 1.60-1.70 1.70-1.80 合计
学生人数
10 11 9
30
精选ppt
13
异距分组:在组距式分组中,各组组距不尽相等。
– 一般在现象性质差异的变动非均衡的条件下使用。 – 优点:能够准确地描述偏态分布;能将性质相同的总体单位
精选ppt
3
一、统计分组的一般问题
概念:
– 统计分组是根据统计研究的目的和客观现象的内在特点,按某个标 志(或几个标志)把被研究的总体划分为若干个不同性质的组的统 计方法 。
第二章统计数据的整理和展示
定量变量
分为单项数列和组距数列两种形式.
单项数列:即变量的一个取值为一组,适用于离散 型变量,并且变量的取值较少. 组距数列:即每一组有一个上限值和一个下限值所 形成的区间,适用于连续性变量,或离散型变量且变 量的取值较多的情况.
注意以下三个方面的问题 1.确定组数 2.确定组距:组距为上限与下限之差.
等距数列-数据分布均匀.
异距数列-数据分布不均匀. 3.确定组限 应能把现象的不同类型划分出来 .
要考虑到数据是连续性变量还是离散型 变量.
无法确定实际数据的取值范围,或者数 据中存在极端数值,可采用开口组的形 式. 4.确定组中值 :<上限+下限〕/2 ,开口组
二、统计数据的展示
当统计数据比较多时,就应该制作表格或者图形进行来 展示,使数据的重要特性能从表格或者图形中直观地反 映出来,这样可提高分析数据和解释数据的效率.
某组的频数 该组的组距
频数
折线图可以在直方图基础上,将每个长方形的顶端中点 用折线连接而成,或用组中值与频数〔或频率〕求坐标 点连接而成 .
20 15 10
5 0
25-30 30-35 35-40 40-45 45-50 50-55 销售额
频数 (门店家数)
根据图2-6的直方图绘制的折线图
曲线图当变量的取值非常多,变量数列的组数无限增 多时,折线便趋于一条平滑的曲线,这是一种概括描述 变量数列分布特征的理论曲线.
统计表
是把统计数据用表格的形式展示出来.
类型: 按作用分
调查表 汇总整理表
计算分析表
按数据所属 截面数据表 的时间分 时间序列表
按分组变量 的多少分
统计图
单变量分组表 多变量分组表
有平行形式 交叉形式
第三章统计数据的整理与显示
单从原始数据中无法 得到总体特征和数量规律
3 -2
经济、管理类
基础课程
统计学
统计数据为什么要进行整理?
2、经过整理的结果能反映总体总体分布分 布的数量特征
3、整理结果可用于研究变量之间的关系
3 -3
经济、管理类 基础课程
统计学
某电信公司通信电路等级分布
管理等级 国际及港澳台电路 一级电路 二级电路 市、县内长途电路 本地电话电路
1.商品广告;2.服务广 告;3.金融广告;4.房地 产广告;5.招生招聘广告 ;6.其他广告。
表3-1 某城市居民关注广告类型的频数分布
广告类型 人数(人) 比例 频率(%)
商品广告
112 0.560 56.0
服务广告
51
0.255 25.5
金融广告
9
0.045 4.5
房地产广告
16
0.080
8.0
3 - 15
经济、管理类 基础课程
统计学
数据的审核、筛选与排序
1. 数据的审核
▪ 发现数据中的错误
2. 数据的筛选
▪ 处理数据中的错误
3. 数据排序
▪ 发现数据的基本特征 ▪ 升序和降序
3 - 16
经济、管理类 基础课程
统计学
数据的审核
(原始数据)
审核的内容 1. 完整性审核
检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全
36-40岁 8.2%
41-50岁 7.6%
51-60岁 60岁以上
3.2%
1.1%
18岁以下 15.3%
31-35岁 12.1%
3 -7
25-30岁 16.3%
3 -2
经济、管理类
基础课程
统计学
统计数据为什么要进行整理?
2、经过整理的结果能反映总体总体分布分 布的数量特征
3、整理结果可用于研究变量之间的关系
3 -3
经济、管理类 基础课程
统计学
某电信公司通信电路等级分布
管理等级 国际及港澳台电路 一级电路 二级电路 市、县内长途电路 本地电话电路
1.商品广告;2.服务广 告;3.金融广告;4.房地 产广告;5.招生招聘广告 ;6.其他广告。
表3-1 某城市居民关注广告类型的频数分布
广告类型 人数(人) 比例 频率(%)
商品广告
112 0.560 56.0
服务广告
51
0.255 25.5
金融广告
9
0.045 4.5
房地产广告
16
0.080
8.0
3 - 15
经济、管理类 基础课程
统计学
数据的审核、筛选与排序
1. 数据的审核
▪ 发现数据中的错误
2. 数据的筛选
▪ 处理数据中的错误
3. 数据排序
▪ 发现数据的基本特征 ▪ 升序和降序
3 - 16
经济、管理类 基础课程
统计学
数据的审核
(原始数据)
审核的内容 1. 完整性审核
检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全
36-40岁 8.2%
41-50岁 7.6%
51-60岁 60岁以上
3.2%
1.1%
18岁以下 15.3%
31-35岁 12.1%
3 -7
25-30岁 16.3%
统计学统计数据的整理和显示演示文稿
二、统计分组的原则
1 穷尽性原则 2 互斥性原则。
现在是14页\一共有86页\编辑于星期日
➢ 三、统计分组的作用
统计分组的主要作用具体表现在以下几个方面。 (一)区分现象的不同类型
各种现象千差万别,多种多样,并在其发展中表现出不 同的性质和特征。通过统计分组,就可以将不同类型现 象的性质和特征区分开来,并且经过比较和研究,揭示 其发展变化的规律,达到深刻认识总体的目的。
中国 2001 26.4 25.2 26.4
美国 1999 36.5 43.0 37.1
19.6 56.1
23.5 32.8
35.4 49.5 29.6 36.7
日本 1997 36.6 36.1 39.8
49.0
24.5
36.6 44.4
英国 1998 37.7 36.4 33.4
42.0
26.0
统计分组就是根据统计研究的需要,将统计总 体按照一定的标志分为若干个组成部分的一种 统计方法。 统计分组具有两个方面的含义:对总体而言, 是“分”,即将同质总体区分为性质有别的不 同组成部分;对总体单位而言,它是“组”, 即将性质相同或相近的不同总体单位组合在一 起,构成一个组。
现在是13页\一共有86页\编辑于星期日
审核资料的及时性,是看填报单位是否按时报送 了有关资料。对不报、漏报或迟报的现象都要及时 查清。
现在是7页\一共有86页\编辑于星期日
2.审核资料的正确性: 审核资料的正确性,是检查所填报的资料是否 准确可靠。常用的审核方法有两种:
(1)逻辑检查 首先,从理论上或常识上检查资料是否有悖常 理、有无不切实际或不符合逻辑的地方。 其次,是检查各项目之间有无相互矛盾的地方。
➢ 介绍上限、下限、组距、组限。 ➢ 组距式变量数列中,每组区间两端的极值称组限。
统计学课件第三章统计数据的整理与显示精品文档
统计学概论
用Excel进行数据筛选
8名学生的考试成绩数据
课件
15
中南大学
数据排序
统计学概论
1. 按一定顺序将数据排列,以发现一些明显的特征 或趋势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新归类或 分组等提供依据
3. 在某些场合,排序本身就是分析的目的之一
4. 排序可借助于计算机完成
1.非常 不满意;2.不满 意;3.一般;4 .满意;5.非常 满意。
中南大学
甲城市家庭对住房状况评价的频数分布
甲城市
回答类别
户数 百分比 (户) (%)
向上累积
户数 百分比 (户) (%)
向下累积
户数 百分比 (户) (%)
非常不满意 24
8
24
8.0 300 100.0
不满意
108 36 132 44.0 276 92
课件
3
中南大学
数据整理的目的
统计学概论
数据整理的目的在于将个别单位的标志值转化 为说明总体数量特征的指标值,使统计资料系统化, 从而得出反映现象总体性和规律性的综合资料,为统 计分析提供基础和前提条件。数据根据其标志的类型, 将数据分为分类数据、定序数据和数值型数据.
课件
4
中南大学
数据整理与显示的基本问题 统 计 学 概 论
统计学概论
绿色
健康饮品
用Excel制作频数分布表
课件
22
中南大学
分类数据的图示—条形图
统计学概论
1. 用宽度相同的条形的高度或长短来表示各类别 数据的图形
2. 有单式条形图、复式条形图等形式
3. 主要用于反映分类数据的频数分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
单项式分组—— 单项式分组即将某一变量的
每一个变量值作为一组。组数及组限是明确的。 *
某厂职工家庭人口分组统计
按家庭人口分组 职工户数 (频数)
比率(%) (频率)
1
7
2.9
2
38
15.2
3
105
41.3
4
51
6
20
8.0
合计
255
100
*
• 组距式分组——在连续变量或变量值较
次数分布(分布数列)
是一种重要的分组资料,反映总体单位在各组的 分布状态。 基本形式:
分组 单位数(频数) 频率
…
…
…
合计
100
次数分布 频率分布
一、次数分布数列的概念和种类 2、次数分布数列的种类
按分组标志特征的不同,分布数列可以分为两种: 品质分布数列与变量分布数列。 (1)品质分布数列
某厂职工人数统计表
• 结构分组——表明总体结构的分组。 • 分析分组——分析现象间依存关系的分组。
• 2)、按采用分组标志多少不同的分组方法 • 简单分组——对总体各单位只采用一个标志进
行分组。 • 平行分组体系——对总体各单位同时采用两个
或两个以上的标志进行并列分组。 (表3-4) • 复合分组——对总体各单位同时采用两个或两
•
对总体而言,是“分”,即将总体中的各个个体按照它
们的差异性区分为若干部分;
对个体(总体单位)而言,是“合”,即将性质相同的 个体组合起来。
• 即对总体实行异质分解,对总体单位实行同质组 合。即组内同质性,组间差异性
分组
25% 33%
分组前
分组后
42%
二、作用: (1)划分社会经济现象的类型
例:按所有制性质划分,我国现有8种经济类型:
• 二、统计整理的步骤
(一)设计和编制统计资料的整理方案。 (二)对原始资料进行审核。 (三)用一定的组织形式和方法,对原始资料进 行排序、分组、汇总和计算。 (四 )对整理好的资料再一次进行审核,改正在 汇总过程中发生的各种差错。 (五)编制统计图表。 (六)统计数据的积累和保管。
• 三、统计整理的组织方式
• 第一节 统计数据的整理
一、数据整理的概念和作用
• 统计整理是指根据统计研究的目的,将 统计调查所得的原始资料(也称初级资料) 进行科学的分类和汇总;或对已经加工的综 合资料(也称次级资料)进行再加工,为统 计分析准备系统化的、条理化的综合资料的 工作过程。
• 统计整理是统计调查的继续、统计分析 的前提。
第二产业 75.7 63.8 54.5 52.2
第三产业 21.1 31.9 43.0 45.5
(3)研究现象之间的依存关系
例:某地农民家庭按收入分组的恩格尔系数
按收入分组(元) <200 <300 <400 <500 <600 <800 <1000 恩格尔系数(%) 64.9 60.2 56.7 54.4 50.5 49.9 43.6
选择分组标志。
• (2)分组方法(统计分组的种类)
• 1)、按分组标志的性质不同,分为品质分组(或称 属性分组)和数量分组(或称变量分组)。
• 品质分组——按品质标志进行的分组。 • 数量分组——按数量标志进行的分组。
• 、按分组的作用和任务不同,分为类型分组、结构分 组和分析分组。
• 类型分组——将复杂现象分为若干性质不同部分 的分组。
国有经济;集体经济;私营经济;个体经济联营 经济;股份制经济;外商投资经济;港澳台投资 经济
(2)揭示社会经济现象的内部结构和比例关系
例:上海市按GDP计算的三次产业结构(%)
1980年 1990年 2019年 2019年
GDP 100 100 100 100
第一产业 3.2
4.3 2.5 2.3
个以上的标志进行层叠分组。(表3-5)
四、统计分类标准化和国民经济中常用的统计分组
第三节 次数分布
一、次数分布数列的概念和种类 1
在统计分组的基础上,将总体中的所有单 位按组归类整理,形成总体中各个单位数在各 组间的分布,叫做频(次)数分布,将各组组 别与次数依次编排而形成的数列叫做次数分布 数列,简称为分布数列。
• 离散型变量,可间断组距式分组,也可连续组距 式分组。连续型变量,只能采用连续组距式分组。
按性别分组
人数(人) (频数)
比率(%) (频率)
男职工 女职工
253 115
68.75 31.25
合计
368
100.00
(2)按数量标志分组
变量分布数列的分类见P56图示
• 则应按照研究目的及研究对象的特点确定相应的组 数,划分相应的组限。
•
按数量标志分组即变量分组,有两种:
单项式分组 组距式分组
多的情况下,可采用组距分组。它将全部变量 值依次分为若干个区间,并将这个区间的变量 值作为一组。
• ①连续型变量——相邻两组的上、下限采用 同限,且遵循“下闭上开”(即上限不在内) 的原则。“上限在不内”原则:在连续组距式分组中,以同
一个数值作为相邻两组共同的界限,统计上规定,凡是总体某 一个单位的变量值是相邻两组的界限值,这一个单位归入作为 下限值的那一组内。
• ②离散型变量——相邻两组的上、下限间断, 且采用差数为“1”的形式。
——相邻两组的上、下限重叠。
• 下限,上限:组距式分组的每一组变量值中,其 最小值为下限,最大值为上限。
• 组限:相邻两组的界限。 • 间断组距式分组:组限不相连的组距式分组。
• 连续组距式分组:组限相连(或称相重叠的), 即以同一数值作为相邻两组的共同界限的组距式 分组。
三、统计分组的原则和方法
1、统计分组的原则
• (1) 科学性原则 • (2) 完整性原则(穷尽原则)——即应使总
体中的每一单位都应有组可归,或者说各分组 的空间足以容纳总体所有的单位。 • (3) 互斥原则(不相容性)——即总体中任 一单位只能归入某一组。
2、统计分组的方法
• 统计分组的关键在于正确选择分组标志。 (1)分组标志的选择——原则是: 1)从研究目的出发选择分组标志; 2)选择最能反映现象本质特征的分组标志; 3)根据事物所处的具体历史条件和经济条件
1、逐级整理 2、集中整理 3、逐级整理与集中整理相结合
四、统计整理的方法
主要方法
分组
汇总
• 汇总 1. 手工汇总 2. 计算机汇总
统计表
统计图
第二节、统计分组
• 一、统计分组的概念
•
统计分组是根据统计研究的目的和研究对象的特点,将
统计总体各个单位按照一定的标志划分为若干性质不同的部
分或组。
•
统计分组的两方面涵义: