第二章数据收集、整理与显示
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章数据搜集、整理与显示
Ⅰ.学习目的
本章阐述统计数据搜集、整理与显示的理论与方法,通过学习,要求:
1.了解统计数据的类型及其搜集方法;
2.了解普查、统计报表、抽样调查、重点调查等各种统计调查组织形式的特点及其适用场合;
3.掌握统计分组方法;4能够编制分布数列;5.能够运用各种统计图表。
Ⅱ.课程内容要点
第一节数据的搜集
一、数据搜集
数据是人们对现象进行调查研究所搜集、整理、分析和解释的事实和数字,是对客观现象进行计量的结果。
数据搜集就是根据统计研究预定的目的和任务,运用相应的科学的调查方法与手段,有计划、有组织地搜集资料的过程。
数据的计量尺度有四种
定类尺度是按照某种属性对客观事物进行平行分类或分组的一种测度,定类尺度的值是以文字表述的,可以用数值标识,但仅起标签作用。
定序尺度是把各类事物按一定特征的大小、高低、强弱等顺序排列起来,构成定序数据。它是对事物之间等级或顺序差别的一种测度。定序尺度不仅可以测度类别差,还可以测度次序差,并可比较大小,但其序号仍不能进行加减乘除计算。
定距尺度是对事物类别或次序之间间距进行的一种测度。定距尺度不仅
能区分事物的类别、进行排序、比较大小,而且可以精确地计量大小的差异,可以进行加减运算,没有绝对零点。
定比尺度是对事物之间比值的一种测度,定比尺度能区分类别、排序、比较大小、求出大小差异、可采用加减乘除运算,具有绝对零点。
从不同方面数据划分为不同类型。
根据数据反映的现象的特征不同,可以归结为两类:品质数据(亦称定性数据)和数量数据(亦称定量数据)。品质数据是由定距尺度和定比尺度计量所形成的数据,数量数据是由定距尺度和定比尺度计量所形成的数据。
根据数据反映的现象的时间不同,可以将数据分为横截面数据和时间序列数据。横截面数据是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据是指在不同时间对同一总体的数量表现进行观察而获得的数据。
根据数据的搜集方法,可以将数据分为观察数据和实验数据。
根据数据的来源渠道,可以将数据分为直接数据和间接数据。
二、数据搜集的方法
数据搜集的方法有直接观察法、报告法(通讯法)、采访法、登记法和实验设计调查法。
三、统计调查的形式
普查是一种非经常性的全面调查,通过普查可以掌握大量、详细、全面的资料。
统计报表制度是依照国家有关法规自上而下地统一布置,按照统一的表式、统一的项目、统一的报送时间和程序,自下而上地逐级地定期地提供统计资料的一种调查方式。
抽样调查是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调查对象总体特征作出科学推断。
重点调查是在调查对象中,只选择一部分重点单位进行的非全面调查。重点调查的前提是必须存在重点单位。
典型调查是从众多的调查研究对象中,有意识地选择若干个具有代表性的典型单位进行深入、周密、系统地调查研究。典型调查有解剖麻雀型和划类选典型两种类型。
四、统计调查体系
统计调查体系是指若干相互联系的统计调查方法所构成的整体。我国统计调查体系的目标模式是:建立以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分全面报表综合运用的统计调查方法体系。
五、数据搜集方案的设计
数据搜集方案的设计包括6个内容:明确调查目的、确定调查对象和调查单位、确定调查项目、调查表格和问卷的设计、确定调查时间和确定调查的组织实施计划。
六、统计数据的主要来源
统计数据来源于登记、调查和实验,对于应用统计数据进行分析的人员而言,统计数据的主要来源是直接来源和间接来源两个渠道。
第二节 数据的整理
一、统计数据的整理
统计数据的整理是将搜集到的各种原始数据条理化、系统化,使之符合统计分析与推断要求。通过整理可以大大简化数据,更有效地显示和提供所包含的统计信息。
二、统计分组
统计分组是根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组。从分组的性质来看,分组兼有分和合双重含义。
统计分组应遵循穷尽与互斥两个原则。
统计分组可以按照不同的标志进行分类。统计分组按某一分组的标志的多少和组合情况分为简单分组和复合分组;按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组);按分组的作用和任务不同,分为类型分组、结构分组和分析分组。
三、频数分布
1、频数分布由两个要素构成,一个是总体按某标志所分的组,另一个是各组所出现的单位数或各组单位数占总体全部单位数的比值,即频数或频率。
2、频数分布的类型。频数分布主要有如下分类,即:
⎪
⎩
⎪
⎨
⎧⎩⎨⎧不等距变量数列等距变量数列组距式变量数列单项式变量数列
变量数列中,各组数量界限的确定必须能反映事物质的差别,采用适当
的分组形式,确定相宜的组距、组限。 对于组距式分组,须计算组距、组数、组中值。开口组的组距视同相邻组的组距。
3、频率的两个性质
(1)任何频率都是界于0和1之间的一个分数,即:
1 ≤
i i
f f ∑≤ 1
(2)各组频率之和等于1,即: 1i i
f
f ∑∑= 4、频数密度与频率密度
为消除异距分组所造成的影响须计算频数密度。频数密度=频数/组距,频率密度=频率/组距
5、向上累计频数(或频率)分布,其方法是先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。向下累计频数(或频率)分布,其方法是先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。
累计频率的特点:(1)第一组的累计频率等于第一组本身的频率;(2)最后一组的累计频率等于1。
6、频数分布的类型有三种:钟型分布、U 型分布和J 型分布。
第三节 数据的显示
一、统计表
统计表是由总标题,横行标题、纵栏标题、(线条)和指标数值四部分组成;从内容上看,统计表是由主词和宾词两部分构成。主词是统计表要说明的总体或总体分成的多个组,宾词是说明主词的统计指标。
1、统计表按照主词是否分组及分组的情况可以分为三种:简单表、简单分组表、复合分组表。简单表是指主词未经任何分组的统计表。简单分组表是指主词按一个标志分组的统计表。复合分组表是指主词按两个或两个以上标志重叠分组的统计表。
2、根据宾词分类,统计表也分为三种:简单排列、平行排列和重叠排列。