第三章统计数据的整理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三章统计数据的整理

通过统计调查,我们得到许多原始数据,但这些数据是反映总体单位特征的、分散的、不系统的,为此必须对数据进行整理,使之由“个别”上升到“一般”,成为既便于储存,又便于传递的反映总体特征的资料。统计数据的整理是统计分析的前提,关系到整个统计工作的质量,因此,必须十分重视统计数据的整理。统计数据整理的主要内容有:数据预处理、数据的分组(类)、汇总、整理后的数据显示。

第一节数据预处理

一、数据的审核

在分类汇总之前,必须对原始数据进行认真的审核。审核的内容是数据的完整性和准确性。所谓完整性审核,一是审核各调查单位的调查表或调查问卷是否汇集齐全,比如,已对500个学生分别发放了调查问卷,要审核是否全部回收,如果回收不全要及时催收;若无法催收,要清点已回收的数量;若回收的数量不能满足要求,必须进行补充调查。其次,要审核各份调查表或调查问卷的项目是否填写齐全。若填写不全要补充完整;若一些缺失的重要项目无法补充填写,视为无效调查表或调查问卷对其剔除。

所谓准确性审核,就是审核各调查项目的填写内容是否准确。数据的准确性审核主要采用逻辑检查和计算检查。逻辑检查就是根据项目之间存在的内在联系,从逻辑上或常识上判断其合理性,以确定其正确与否。计算检查就是根据有些项目之间数量上的依存关系,通过简单的计算,检查数据有无错误。

对于二手数据,应该弄清楚数据的来源、数据的口径、数据的时效性以及有关的背景材料,以便确定这些数据是否符合自己的需要,是否需要重新加工整理。

二、数据的录入

在对数据审核基础上,应该将调查所得的原始数据录入计算机形成数据文件,以便进行分组与汇总。用计算机Excel录入数据的文件格式为:第一列为各总体单位(或调查单位)的名称或编号,以后各列分别为调查所得的各变量的具体数据。应该注意的是,必须标示每列变量的名称——标志。

【例3-1】用单一表对重庆市5个企业2006年的销售收入等进行了调查,得到如下资料(单位:万元),将其录入到计算机Excel表格中。

企业名称销售收入利税资产负债

红星公司1050 5 152 142

嘉林公司3600 19 420 290

红光公司3750 40 670 370

白云公司400 5 54 35

渝乐公司380 3 60 33

录入后的文件格式如图3-1。

图3-1 重庆市5个企业2006年销售收入等数据的文件格式

二、数据的筛选与排序

(一)数据的筛选

筛选的目的主要有两个,一是对原始资料做进一步的准确性检查,将有错误的或不合要求的或录入有误的数据筛选出来,并根据具体情况给予修正或剔除。二是将符合某种条件的数据筛选出来。

【例3-2】根据以上的数据文件,筛选出重庆市①销售收入3000万元以上的企业;②销售收入3000万元、利税20万元且资产500万元以上的企业。

筛选出销售收入3000万元以上企业的计算机操作步骤是:

解:第1步:顺次点击【销售收入】单元格、【数据】菜单、【筛选】和【自动筛选】命令,见图3-2。

图3-2 Excel自动筛选命令

第2步:顺次点击【销售收入】标志的下拉箭头、【自定义】,见图3-3。

图3-3 选择“自定义”命令

第3步:点击对话框中的下拉箭头,选择“大于或等于”,并在其后的空格中输入3000,见图3-4。单击【确定】,即可得到图3-5所示的结果。

图3-4 填写“自定义自动筛选方式”对话框

图3-5 自动筛选结果

要筛选出销售收入3000万元、利税20万元且资产500万元以上的企业,由于筛选条件大于两个,需要进行高级筛选。进行高级筛选时,必须在数据文件之前预留三行,输入筛选条件,见图3-6。

图3-6 输入高级筛选条件

顺次点击【数据】、【筛选】、【高级筛选】,填写对话框。在高级筛选对话框的【数据区域】、【条件区域】对应的空格中分别引用A4:E9、A1:D2,见图3-7。单击“确定”,即可得到筛选的结果。

图3-7 填写高级筛选对话框

(二)数据的排序

从某种意义上说,数据的排序就是对资料的初步分析。因为通过数据的排序,可以对现象的发展趋势和分布状况有一个初步的认识,可以为统计分组提供有用的信息。有时,研究者就是要认识变量值最大的几个总体单位,比如,要认识某地纳税最多的几个企业。通过数据的排序,还可以发现极端值偏离一组数据的程度,从而对输入数据的正确性做出大致的判断。

用Excel对数值型数据降序或升序排序,即可以用工具栏的图标进行,也可以用【数据】菜单中的【排序】对话框完成;若要按字母顺序、笔画多少进行排序,则必须用【数据】菜单中的【排序】对话框完成。

第二节数据的统计分组

一、统计分组的含义与原则

(一)统计分组的含义

根据统计研究的目的和研究对象的特点,按照一个或几个标志,将被研究的统计总体划分为几个不同的组成部分,称为统计分组。任何统计总体都是由具有某种共同性质的许多个别单位所组成,这些个别单位除了它们的共性之外,在其它方面的特征各不相同。为了深刻认识总体的全貌,就需要把总体的全部单位按一定标志划分为不同的组成部分。

统计分组实际上是对总体进行“分”与“合”的过程。所谓“分”,就是将总体划分为几个不同的组成部分,“合”就是将性质相近的总体单位合并在一组。比如,按文化程度标志把被调查者分为不识字或识字很少、初中、高中、大学及以上几个组,就是把各个被调查者按照文化程度的差异分到不同的组,即为“分”;把具有相同文化程度的人归并到同一个组,体现了“合”。

通过统计分组,可以划分社会经济现象的类型,可以研究现象的内部结构,也可以揭示某一现象与另一现象之间的依存关系。统计分组既是一种整理数据的方法,也是一种常用的统计分析方法。

在分组时,对研究总体可以按一个标志进行分组,从一个方面说明和反映事物的分布状况和内部结构,这种分组叫简单分组。比如,对某一人口总体按年龄可以分为20岁以下、20-35岁、35-55岁、55-65岁几个组。在许多场合,要用两个或两个以上的标志对总体进行分组,即先按一个标志分组,在此基础上再按第二个标志分组,又再层叠地按第三个标志分组等,它可以从多方面反映事物的分布和内部结构,这种分组叫做复合分组。比如,一定时期的新增价值按物质生产部门划分为农业、工业、建筑业、商业和邮电通讯业,在此基础上,对各个组又按一定的标志分组,比如农业,可进一步分为种植业、养殖业、林业、渔业,这种分组可以进一步揭示新增价值的构成。

(二)统计分组的原则

统计分组必须遵循两个基本的原则,这就是穷尽原则和互斥原则,或不重不漏的原则。

所谓穷尽原则,就是在分组时,必须使每一个总体单位都可以归属于某一组,而不能让任何总体单位遗漏。所谓互斥原则,就是在分组时,必须使总体的各个单位只能归属于一个组,而不能同时或可能同时归属于两个及两个以上的组。比如,把被调查者按从事的工作不同,分为企业工作人员、企业管理人员、科教文卫工作人员、个体从业人员等几个组,若某被调查者是企业的销售经理,那么,他既可以归属于企业工作人员,也可以归属于企业管理人员,这种分组不满足互斥原则。

二、非数值型数据的统计分组

可以对非数值型数据即分类数据或顺序数据分组,也可以对数值型数据分组。分组数据的性质不同,进行统计分组时的处理方法也不完全相同。

对非数值型数据分组也称为分类。分类数据和顺序数据是对事物性质属性的描述,在分类的时候,二者的区别在于:按分类数据分组可以不考虑类别之间的顺序,而按顺序数据分组则必须按照一定的顺序排列所分的类别。

有些现象的属性界限比较明确,且类别不多,按照这种标志分组就比较容易。比如,人口按性别、文化程度、婚否状况分组,学生按照所在院系的分组等。分组时,列出这些标志的各个类别,按类别汇总即可。

有些现象的品质属性界限比较模糊,存在交叉过渡状态,按照这种标志分组就比较困难。比如,从业人员按行业分组,若某人在高校从事校办工厂的工作,应归属于教育行业还是工业?又如人口按居住地分为城镇与乡村的分组,对于居住在城镇乡村过渡地带的居民如何分类?对于这一类问题,需研究制定统一的分类标准,为统计分组提供统一的依据。在实际工作中为了方便和统一,各国都制定了适合一般情况的标准分类目录,如我国的《国民经济行

相关文档
最新文档