经济应用统计学-第四章统计整理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用计算机进行统计汇总主要包括: 审核、编码、录入、数据净化、 逻辑检查运算以及编制和打印汇总 表、统计图等。
一、编 码
编码 将调查表或调查问卷中的各个项目转化为数字符号的过程。
事前编码 事后编码
适用封闭性问题 适用开放性问题
(一)编码的常用方法
1、顺序编码法
又称系列编码法。只用一个标准对数据进行分类,并按 照一定的顺序用连续数字或字母进行编码的方式。
例如:根据某项对家 庭月度消费支出的调 查,对家庭月度消费 支出分为四个档次:
小于500元 500元—1000元 1000元—1500元 1500元以上
操作简便,但不便于进行分组处理
(一)编码的常用方法
2、分组编码法 又称区间编码法,是根据调查数据的属性特点和处理要 求,将具有一定位数的代码单元分成若干个组,每个组的 数字均代表一定的意义。
51.37 48.63
30048224
100.00
f
f/∑f
学生的成绩分布
f 按成绩
次数
分组
学生数 比重(%)
(人)
60以下
2
4
60-70
8
16
70-80
20
40
80-90
15
30
90以上
5
10
合计
50
100
二、分布数列的种类
按由品于质分标组志是分次组数形分成布的的分基布础数,列因称此为有品怎质样分的布分数组列就,形 简称品质数列。 成怎样的次数分布。
分布数列的构成要素
总体所分各组的 分组标志的具体 体现
各组名称(常用x 表示)
两个构成要素 各组次数
绝对数,称频数,用 f 表示。
相对数,称频率,用f/∑f表示。
各组对应的 总体单位数 或频率。
f/∑f
某地人口的性别分布
按性别 分组
男 女 合计
次数 人数(人) 比重(%)
15434927 14613297
分布数列的种类
销售额 (百万元)
5以下 5~10 10~15 15~20 20~25 25以上
合计
累计次数
向上 商店数 频率(﹪) 累计
4
8
4
10
20
14
16
32
30
13
26
43
4
8
47
3
6
50
50
100

累计频率(﹪)
向上 累计
8 28 60 86 94 100

分布数列的种类
销售额 (百万元)
51.37 48.63
30048224
100.00
品质 数列
学生的成绩分布
变量 数列
按成绩 分组
次数
学生数 (人)
比重(%)
60以下
2
4
60-70
8
16
70-80
20
40
80-90
15
30
90以上
5
10
合计
50
100
分布数列的种类
单项式分布数列 每个组值只用一个具体的变量值表现的数列
编制条件:
同时 变量是离散变量 具备 变量的不同取值个数较少
一、统计整理的概念
统计整理
将统计调查得到的原始资料进行科学的分 组和汇总,使其系统化、条理化,成为能 够反映总体特征及其发展变化情况的综合 统计资料的工作过程
统计整理是统计调查的继续,统计分析的前提和基础
二、统计整理的内容
缺点:
费时费力;
易出错

统计分组

逐级汇总


统计汇总
集中汇总
就是在统计分组设计的基础上,根据各单 位的标志归属,把总体各单位归纳到各组 中,计算出各组和总体的单位数和标志值。
变量类型的转化 数学意义上的变量代换
第四节 分布数列的编制
第四节 分布数列的编制
一、次数分布与分布数列的概念 二、分布数列的种类 三、累计分布数列 四、次数分布图 五、次数分布的类型
一、次数分布与分布数列的概念
1、次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,
并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数
等距分组与不等距分组的差异
等距分组 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和规律
不等距分组 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况, 以解决各组频率由于组距不同而不可比的问题。
分布数列的种类
单项式分布数列—案例
【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23, 20,24,23,21,22,25,26,20,21,21,22,22,23,22,22, 24,25,21,22,21,24,23.要求根据以上资料编制变量数列。
日产量(件)X
20 21 22 23 24 25 26 合计
组别 百货组 食品组 家电组 服装组 其他组
名称码 01-30 31-50 51-65 66-80 81-99
(一)编码的常用方法
4、表义式文字编码法
又称助忆编码法,它用数字符号等表明编码 对象的属性,并依此方式对调查数据进行编 码的方法.
例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的 容量, BX表示冰箱. J表示进口.
综按数合量上标述志各种分分组组形类成型的,分次布数数分列布称的为类变型量,分可布归数纳列为,: 简称变量数列。
品质分布数列
次数
分布
单项式分布数列
变量分布数列
组距式分布数列
等距分布数列 异距分布数列
某地人口的性别分布
按性别 分组
男 女 合计
次数 人数(人) 比重(%)
15434927 14613297
23300112132 则表示 为??????
二、录入
数据录入就是将问卷或编码表中的每一个项目对应的 代码读到磁盘中,或通过键盘直接敲入计算机中的工作 过程。
方式:
程序录入 光电扫描录入
三、数据净化
数据净化指通过计算机处理错误的或不合理的数据以 及进行一致性检验。
方式:
统计软件:SPSS、SAS
统计预处理
1、缺省数据的处理
以样本统计量代替缺省值
一般为平均值
以统计模型计算的估计值代替缺省值 回归模型等
缺省值样本删除
缺省值样本保留,仅在相应的分析中作必要删除
统计预处理
2、加权处理
通过对调查数据进行加权,使样本更具 代表性,或为了强调某些被访群体的重要 性。( 例如:P91)
统计预处理
3、原始数据或变量的转换
对某随机现象的重复观察,频率分布可以渐近反映其 统计规律。
2、分布数列
分布数列:将各组组别的名称与相应的频数和频率,依 次排列起来形成的数列称为次数分布数列,简称分布 数列。也称分配数列或次数分配数列。
作用:反映总体中所有单位在各组的分布状态和分布特征。
分布数列的意义:分布数列是统计整理结果的一种表现 形式,也是统计分析的一种方法。不仅可以表明总体单 位的分布特征和结构状况,而且可用以进一步研究总体 单位某一标志的构成、平均水平及其变异程度。
优点:满足各 层次的需要; 便于审核更正
优点:速度快 层次少
缺点: 有错不易查 找; 不能及 时满足中间 层次需要
三、统计整理的程序
1、设计和编制统计资料的汇总方案 2、对原始资料进行审核 3、对调查数据进行编码及录入 4、分组汇总原始资料 5、编制统计表和绘制统计图
第二节 统计汇总技术
第二节 统计汇总技术
(二)编码手册的编制
也称编码表,是用来进行数据编码的工作手册,包括 四个项目:问题顺序号,每个调查项目的预置代码位置, 项目名称,内容说明.
案例:对某高等学校教师的工作,生活状况的调查,一共有32个 问题,我们摘录6个问题,来说明编码手册的编制.
1.您的职务? (1)正高级 (2)副高级 (3)中级 (4)其他 2.您的年龄_____________________ 3.您从事的专业__________________________ 4.您对自己工作情况的评价?
分布。 性别
人数
比例
频数(次男数):各组单40位数。
40%
频率:各组单位数占总体单位数的比率。
表示各组标志值对

60
(10)
fi
m
1
60%
m
(2)(
fi
m
总体标志值所起 作用的强度
)1
合计 fi
100
i1 100%fi
i1
i1
次数分布的作用
反映统计总体内所有总体单位在各组间的分布。同类 总体不同的分布状况差异反映了它们的性质差异。如 各班成绩分布。
50~100
20
100~200
30
下组限L
200~300
25
300以上
15
14.2
11.4
10.1
组中值x=(U+L)/2
9.2
=(100+200)/2
8.5
=150(万元)
分布数列的种类
变量式分布数列
等距分布数列 变量值变动区间的长度相等 异距分布数列 变量值变动区间的长度不完全相等
分布数列的种类
每组变量值变动区间的长度,为上下限之差
组中值 每组变量取值范围的中点数值
组中值 上限 下限 2
分布数列的种类
组距式分布数列
上组限U
某地区100个百货商店
月销售额与流通费用情况
组距d=U-L
=100-50=50(万元)
销售额(万元)
商店数 (个)
每百元商品销售额中 支付的流通费(元)
50以下
10
03
……

1000-1100
10
若某个被调查者为女性,居住于中等城市,家中有三口人,月收入为1000-1100则其 回答信息为22310
(一)编码的常用方法
3、信息组码编码法 把调查数据分成不同的组,给以一定的组码(数 字区间)来进行编码的方法.
例如:对某地市场上99种商品的价格变动进行调查,在运用信息组码编码法 对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:
累计次数
向上 商店数 频率(﹪) 累计
向下 累计
累计频率(﹪)
向上 累计
向下 累计
5以下
4
8
4
50
8
100
5~10
10
(1)已充分发挥积极性 (2)基本发挥了积极性 (3)积极性有所发挥 (4)完全没有发挥积极性 5.目前,您是否有离开学校的想法?(1)是 (2)否 6.请您按投入精力的多少,将下列三项活动排序? (1)校内工作 (2)校外兼职 (3)生活琐事 第一位____ 第二位____第三位_____
问题序号 项目名称 编码位置
向下累计
从变量值高的组开始,将各组次数(频率) 逐次向变量值低的组累计,说明某一组下限 以上各组的累计次数(频率)。
什么以上 的有多少
分布数列的种类
销售额 (百万元)
商店数 频率(﹪)
累计次数
5以下
4
8
5~10
10
20
10~15
16
32
15~20
13
26
20~25
4
8
25以上
3
6
合计
50
100
累计频率(﹪)
工人数(人) f
3 5 6 4 3 2 1
24
分布数列的种类
组距式分布数列 每个组的变量值用一个区间来表现的变量数列
编制条件:
或者
变量是连续变量
总体单位数较多,变量不同取值个数也较多的 离散变量
分布数列的种类
组距式分布数列—相关概念
组限 组距
指每组两端表示各组界限的变量值,各组的最小 值为下限,最大值为上限
第三节 统计汇总的质量控制
一、资料审核
汇总前对统计资料进行审核是统计汇总质量控制的关键。
全面性审核 审核调查单位的全面性、审核调查项目的全面性 准确性审核 逻辑审核、计算技术审核
二、编码和录入的质量控制
编码工作的质量控制 录入工作的质量控制
三、统计预处理
缺省数据的处理 加权处理 原始数据或变量的转换
例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进 行了调查,运用分组编码法对有关信息编码如下:
性别
居住地
家庭人口数
月收入水平
回答 编码
回答 编码
回答
编码
回答
编码

1
大城市
1
单身
1

2
中小城市 2
两人
2
县乡镇
3
三口之家 3
农村
4
四人以上 4
200以下
01
200-300
02
300-400
编码意义
1
职务
1
1.正高
2.副高
3.中级
4.其他
2
年龄
2-3
Leabharlann Baidu
答卷人回答年龄
3
从事专业
4-6
专业编码见附表
4
工作评价
7
1.已充分发挥积极性
2.基本发挥了积极性
3.积极性有所发挥
4.完全没有发挥积极性
5
是否打算离
8
1.是
开学校
2.否
6
按投入精力
9-11
1.校内工作
排列
2.校外兼职
3.生活琐事
若某份问卷的 回答信息在答 录卡上的前11 为数字为:
第四章 统计整理
学习目标
明确统计资料整理的涵义和作用 了解统计整理的内容和程序 掌握分布数列的编制方法
本章主要内容
第一节 第二节 第三节 第四节
统计整理的一般问题 统计汇总技术 统计汇总的质量控制 分布数列的编制
第一节 统计整理的一般问题
第一节 统计整理的一般问题
一、统计整理的概念 二、统计整理的内容 三、统计整理的程序
分布数列的种类
考分
组距
次数
次数密度= 次数/组距
50-60
4
2
0.5
60-66
6
5
0.833
66-82
16
14
0.875
82-92
10
11
1.1
92-100 8
8
1.0
三、累计分布数列
将变量数列各组的频数(或频率)逐组累计相加而
形成的数列 什么以下 的有多少
向上累计
从变量值低的组开始,将各组次数(频率) 逐次向变量值高的组累计,说明某一组上限 以下各组的累计次数(频率)。
相关文档
最新文档