经济应用统计学-第四章统计整理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
缺省值样本删除
缺省值样本保留,仅在相应的分析中作必要删除
河北大学统计学系
统计预处理
2、加权处理 通过对调查数据进行加权,使样本更具
代表性,或为了强调某些被访群体的重要 性。( 例如:P91)
河北大学统计学系
统计预处理
3、原始数据或变量的转换
变量类型的转化 数学意义上的变量代换
河北大学统计学系
对某随机现象的重复观察,频率分布可以渐近反映其 统计规律。
河北大学统计学系
2、分布数列
分布数列:将各组组别的名称与相应的频数和频率,依 次排列起来形成的数列称为次数分布数列,简称分布 数列。也称分配数列或次数分配数列。
作用:反映总体中所有单位在各组的分布状态和分布特征。
分布数列的意义:分布数列是统计整理结果的一种表现 形式,也是统计分析的一种方法。不仅可以表明总体单 位的分布特征和结构状况,而且可用以进一步研究总体 单位某一标志的构成、平均水平及其变异程度。
分布。 性别
人数
比例
频数(次男数):各组单40位数。
40%
频率:各组单位数占总体单位数的比率。
表示各组标志值对
女
60
(1) 0
fi
m
1
60%
m
(2) (
fi
m
总体标志值所起 作用的强度
)1
合计 fi
100
i1 100%fi
i 1
i 1
河北大学统计学系
次数分布的作用
反映统计总体内所有总体单位在各组间的分布。同类 总体不同的分布状况差异反映了它们的性质差异。如 各班成绩分布。
第四章 统计整理
河北大学统计学系
学习目标
明确统计资料整理的涵义和作用 了解统计整理的内容和程序 掌握分布数列的编制方法
河北大学统计学系
本章主要内容
第一节 第二节 第三节 第四节
统计整理的一般问题 统计汇总技术 统计汇总的质量控制 分布数列的编制
河北大学统计学系
第一节 统计整理的一般问题
组距d=U-L
=100-50=50(万元)
销售额(万元)
商店数 (个)
每百元商品销售额中 支付的流通费(元)
50以下
10
50~100
20
100~200
30
下组限L
200~300
25
300以上
15
14.2
11.4
10.1
组中值x=(U+L)/2
9.2
=(100+200)/2
8.5
=150(万元)
河北大学统计学系
排列
2.校外兼职
3.生活琐事
若某份问卷的 回答信息在答 录卡上的前11 为数字为: 23300112132 则表示 为??????
河北大学统计学系
二、录入
数据录入就是将问卷或编码表中的每一个项目对 应的代码读到磁盘中,或通过键盘直接敲入计算机中的 工作过程。
方式:
程序录入 光电扫描录入
河北大学统计学系
河北大学统计学系
第一节 统计整理的一般问题 一、统计整理的概念 二、统计整理的内容 三、统计整理的程序
河北大学统计学系
一、统计整理的概念
统计整理
将统计调查得到的原始资料进行科学的分 组和汇总,使其系统化、条理化,成为能 够反映总体特征及其发展变化情况的综合 统计资料的工作过程
统计整理是统计调查的继续,统计分析的前提和基础
性别
居住地
家庭人口数
月收入水平
回答 编码 回答 编码 回答
编码
回答
编码
男
1
大城市
1
单身
1
女
2
中小城市 2
两人
2
县乡镇
3
三口之家 3
农村
4
四人以上 4
200以下
01
200-300
02
300-400
03
……
…
1000-1100
10
若某个被调查者为女性,居住于中等城市,家中有三口人,月收入为1000-1100则其
河北大学统计学系
分布数列的构成要素
总体所分各组的 分组标志的具体 体现
两个构成要素
各组名称(常用x 表示)
各组次数
绝对数,称频数,用 f 表示。 相对数,称频率,用f/∑f表示。
各组对应的 总体单位数 或频率。
河北大学统计学系
f/∑f
某地人口的性别分布
按性别 分组
男 女 合计
次数 人数(人) 比重(%)
河北大学统计学系
问题序号 项目名称 编码位置
编码意义
1
职务
1
1.正高
2.副高
3.中级
4.其他
2
年龄
2-3
答卷人回答年龄
3
从事专业
4-6
专业编码见附表
4
工作评价
7
1.已充分发挥积极性
2.基本发挥了积极性
3.积极性有所发挥
4.完全没有发挥积极性
5
是否打算离
8
1.是
开学校
2.否
6
按投入精力
9-11
1.校内工作
河北大学统计学系
三、统计整理的程序
1、设计和编制统计资料的汇总方案 2、对原始资料进行审核 3、对调查数据进行编码及录入 4、分组汇总原始资料 5、编制统计表和绘制统计图
河北大学统计学系
第二节 统计汇总技术
河北大学统计学系
第二节 统计汇总技术
利用计算机进行统计汇总主要包括: 审核、编码、录入、数据净化、 逻辑检查运算以及编制和打印汇总 表、统计图等。
日产量(件)X
20 21 22 23 24 25 26 合计
工人数(人) f
3 5 6 4 3 2 1
24
河北大学统计学系
分布数列的种类
组距式分布数列 每个组的变量值用一个区间来表现的变量数列
编制条件:
或者
变量是连续变量
总体单位数较多,变量不同取值个数也较多的 离散变量
河北大学统计学系
分布数列的种类
回答信息为22310
河北大学统计学系
(一)编码的常用方法
3、信息组码编码法 把调查数据分成不同的组,给以一定的组码(数 字区间)来进行编码的方法.
例如:对某地市场上99种商品的价格变动进行调查,在运用信息组码编码法 对调查的信息进行编码时,首先对99种商品分组,再给每个组分配一个组码:
组别 百货组 食品组 家电组 服装组 其他组
河北大学统计学系
二、编码和录入的质量控制
编码工作的质量控制 录入工作的质量控制
河北大学统计学系
三、统计预处理
缺省数据的处理 加权处理 原始数据或变量的转换
河北大学统计学系
统计预处理
1、缺省数据的处理
以样本统计量代替缺省值
一般为平均值
以统计模型计算的估计值代替缺省值 回归模型等
(1)已充分发挥积极性 (2)基本发挥了积极性 (3)积极性有所发挥 (4)完全没有发挥积极性 5.目前,您是否有离开学校的想法?(1)是 (2)否 6.请您按投入精力的多少,将下列三项活动排序? (1)校内工作 (2)校外兼职 (3)生活琐事 第一位____ 第二位____第三位_____
(4)其他
第四节 分布数列的编制
河北大学统计学系
第四节 分布数列的编制
一、次数分布与分布数列的概念 二、分布数列的种类 三、累计分布数列 四、次数分布图 五、次数分布的类型
河北大学统计学系
一、次数分布与分布数列的概念
1、次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,
并按一定顺序排列,形成总体中各单位在各组间的分布,就叫做次数
河北大学统计学系
二、统计整理的内容
缺点:
费时费力;
易出错
统
统计分组
计
逐级汇总
整
理
统计汇总
集中汇总
就是在统计分组设计的基础上,根据各单 位的标志归属,把总体各单位归纳到各组 中,计算出各组和总体的单位数和标志值。
优点:满足各 层次的需要; 便于审核更正
优点:速度快 层次少
缺点: 有错不易查 找; 不能及 时满足中间 层次需要
从变量值低的组开始,将各组次数(频率) 逐次向变量值高的组累计,说明某一组上限 以下各组的累计次数(频率)。
小于500元 500元—1000元 1000元—1500元 1500元以上
操作简便,但不便于进行分组处理
河北大学统计学系
(一)编码的常用方法
2、分组编码法 又称区间编码法,是根据调查数据的属性特点和处理要 求,将具有一定位数的代码单元分成若干个组,每个组的 数字均代表一定的意义。
例如:在某项关于社会公众保险意识调查中,对被调查者个人的基本情况进 行了调查,运用分组编码法对有关信息编码如下:
分布数列的种类
变量式分布数列 等距分布数列 变量值变动区间的长度相等 异距分布数列 变量值变动区间的长度不完全相等
河北大学统计学系
分布数列的种类
等距分组与不等距分组的差异
等距分组 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和规律
不等距分组 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况, 以解决各组频率由于组距不同而不可比的问题。
综按数合量上标述志各种分分组组形类成型的,分次布数数分列布称的为类变型量,分可布归数纳列为,: 简称变量数列。
次数 分布
品质分布数列
单项式分布数列
变量分布数列
组距式分布数列
等距分布数列
异距分布数列
河北大学统计学系
某地人口的性别分布
按性别 分组
男 女 合计
次数 人数(人) 比重(%)
15434927 14613297
分布数列的种类组距式分布数列总体单位数较多变量不同取值个数也较多的离散变量指每组两端表示各组界限的变量值各组的最小值为下限最大值为上限组限每组变量值变动区间的长度为上下限之差每组变量取值范围的中点数值组中值分布数列的种类组距式分布数列相关概念某地区100个百货商店月销售额与流通费用情况销售额万元商店数个每百元商品销售额中支付的流通费元50以下50100100200200300300以上10203025151421141019285上组限u下组限l1002002150万元分布数列的种类组距式分布数列变量值变动区间的长度相等变量值变动区间的长度不完全相等等距分布数列异距分布数列分布数列的种类变量式分布数列等距分组各组频数的分布不受组距大小的影响可直接根据绝对频数来观察频数分布的特征和规律不等距分组各组频数的分布受组距大小不同的影响各组绝对频数的多少不能反映频数分布的实际状况需要用频数密度频数密度频数组距反映频数分布的实际状况以解决各组频率由于组距不同而不可比的问题
河北大学统计学系
一、编 码
编码 将调查表或调查问卷中的各个项目转化为数字符号的过程。
事前编码 事后编码
适用封闭性问题 适用开放性问题
河北大学统计学系
(一)编码的常用方法
1、顺序编码法
又称系列编码法。只用一个标准对数据进行分类,并按 照一定的顺序用连续数字或字母进行编码的方式。
例如:根据某项对家 庭月度消费支出的调 查,对家庭月度消费 支出分为四个档次:
同时 变量是离散变量 具备 变量的不同取值个数较少
河北大学统计学系
分布数列的种类
单项式分布数列—案例
【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23, 20,24,23,21,22,25,26,20,21,21,22,22,23,22,22, 24,25,21,22,21,24,23.要求根据以上资料编制变量数列。
组距式分布数列—相关概念
组限 组距
指每组两端表示各组界限的变量值,各组的最小 值为下限,最大值为上限
每组变量值变动区间的长度,为上下限之差
组中值 每组变量取值范围的中点数值
组中值 上限 下限 2
河北大学统计学系
分布数列的种类
组距式分布数列
上组限U
某地区100个百货商店
月销售额与流通费用情况
51.37 48.63
30048224
100.00
品质 数列
学生的成绩分布
变量 数列
按成绩 分组
次数
学生数 比重(%) (人)
60以下
2
4wenku.baidu.com
60-70
8
16
70-80
20
40
80-90
15
30
90以上
5
10
合计
50
100
河北大学统计学系
分布数列的种类
单项式分布数列 每个组值只用一个具体的变量值表现的数列 编制条件:
河北大学统计学系
(二)编码手册的编制
也称编码表,是用来进行数据编码的工作手册,包 括四个项目:问题顺序号,每个调查项目的预置代码位 置,项目名称,内容说明.
河北大学统计学系
案例:对某高等学校教师的工作,生活状况的调查,一共有32个 问题,我们摘录6个问题,来说明编码手册的编制.
1.您的职务? (1)正高级 (2)副高级 (3)中级 2.您的年龄_____________________ 3.您从事的专业__________________________ 4.您对自己工作情况的评价?
15434927 14613297
51.37 48.63
30048224
100.00
f
f/∑f
学生的成绩分布
f 按成绩
次数
分组
学生数 比重(%)
(人)
60以下
2
4
60-70
8
16
70-80
20
40
80-90
15
30
90以上
5
10
合计
50
100
河北大学统计学系
二、分布数列的种类
按由品于质分标组志是分次组数形分成布的的分基布础数,列因称此为有品怎质样分的布分数组列就,形 简称品质数列。 成怎样的次数分布。
三、数据净化
数据净化指通过计算机处理错误的或不合理的数 据以及进行一致性检验。
方式:
统计软件:SPSS、SAS
河北大学统计学系
第三节 统计汇总的质量控制
河北大学统计学系
一、资料审核
汇总前对统计资料进行审核是统计汇总质量控制的关键。
全面性审核 审核调查单位的全面性、审核调查项目的全面性 准确性审核 逻辑审核、计算技术审核
名称码 01-30 31-50 51-65 66-80 81-99
河北大学统计学系
(一)编码的常用方法
4、表义式文字编码法
又称助忆编码法,它用数字符号等表明编码 对象的属性,并依此方式对调查数据进行编 码的方法.
例如:用180BXJ表示容量为180升的进口电冰箱.其中180为冰箱的 容量, BX表示冰箱. J表示进口.
河北大学统计学系
分布数列的种类
考分
组距
次数
次数密度= 次数/组距
50-60
4
2
0.5
60-66
6
5
0.833
66-82
16
14
0.875
82-92
10
11
1.1
92-100 8
8
1.0
河北大学统计学系
三、累计分布数列
将变量数列各组的频数(或频率)逐组累计相加而
形成的数列 什么以下 的有多少
向上累计