统计学--第三章统计数据处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

经检查发现有误差的数据,如重复、遗 漏或出现异常数据等,就要采取删除, 增补和剔除的方式对重复、遗漏或出现 异常数据进行处理。 分配法 替代法
增补方法
转嫁错误
对漏报、少报的数据的增补处理,虽然保证了总 体信息的完善性,但不可避免的降低数据资料的精确 性,所以这些处理方法只有在没有任何途径可取得资 料的情况下使用。
四类层次测定数据中,定类数据和定序数据 说明的是事物的品质特征,也称为定性数据; 定距数据和定比数据说明的是现象的数量特 征,因此统称为定量数据。
只在特殊需要时才对四类层次测定数据加以 区分。
(三)、统计数据的质量 相关性 内容质量 准确性 及时性 表述质量 可比性 可衔接性 可理解性 约束标准 可取得性
统计分组有多种类型,归纳起来有以下几种: 1. 按分组变量的性质不同,可以分为定性变量 分组和定量变量分组 (1)按定性变量分组就是用反映事物的性质 和属性的定性数据(定类数据或定序数据)进 行分组,把总体划分为若干个部分。 (2)按定量变量分组是利用定量数据(定距 数据或定比数据),把定量变量的差异程度划 分为几个部分。例如企业按职工人数、产量、 产值、固定资产价值等分组。
(3)选用适当再加工方法,对有再加工价值的资料,要 选用切实可行的再加工方法。

统计数据分组
统计数据处理的方法有统计数据的汇总、分组 、编制频数分布和制作统计图表等,但统计数据分 组是其中的核心。
(一)、统计数据分组的概念和作用 统计数据分组(data classification或grouping) 是一种在定性基础上的定量分析方法,它是根据研究 的目的和要求,将调查到的统计数据按其不同的变量 、依据四种数据层次的划分尺度把总体划分为若干个 部分的方法。 目录
统计数据的尺度——数据的四个等级 定类数据 也称定名数据,这种数据只对事物的某 种属性和类别进行具体的定性描述。
例如,对人口按性别划分为男性和女性 两类。 能够进行的唯一运算是计数,即计算每一 个类型的频数或频率(即比重)。 定序数据 也称序列数据,是对事物所具有的属性顺 序进行描述。但它不能具体测定各等级之 间的间距。
第三章
统计数据处理
一、统计数据的涵义及其层次尺度
二、统计数据处理的概念和内容 三、频数分布 四、统计调查方案 五、统计表与统计图
目录

统计数据的涵义及其层次
(一)、统计数据的涵义与分类 统计数据(statistical data)简称数据(data ),是变量(包括定性和定量变量)的取值,也 就是说统计数据是对所研究对象的属性和特征的 具体描述,包括定性量变量的文字描述和定量变 量的数字描述。
3.定距尺度 (Interval Scale) 定距尺度也称间隔尺度,是对事物类别或次序之间 间距的计量,它通常使用自然或度量衡单位作为计 量尺度。定距尺度是比定序尺度高一层次的计量尺 度。它不仅能将事物区分为不同类型并进行排序, 而且可以准确地指出类别之间的差距是多少。 4.定比尺度(Ratio Scale) 定比尺度是在定距尺度的基础上,确定可以作为比较 的基数,将两种相关的数加以对比,而形成新的相对 数,用以反映现象的构成、比重、速度、密度等数量 关系。由于它是在比较基数上形成的尺度,所以能够 显示更加深刻的意义。定比尺度的主要数学特征是 “÷”或“×”。
定量变量具体表现为定距数据和定比数据,一 般可用X、Y、Z来表示,任意一个变量可以有一系 列的取值(表现为定距数据和定比数据),把这 些数据按分组后、各组数值大小排序(ordered) ,然后计算各组数据出现的次数,就形成了变量 数列。由于数列显示了各组数值出现的次数(次 数),从而表现了各组数据在总体中的分布状况 ,所以称作变量分布。 变量数列的频数和频率可以分别累计,它分为向 上累计和向下累计两种。向下累计是频数或频率按数 值由大到小累计;向上累计是频数或频率按数值由小 到大累计。
统计数据分组的作用 (1)划分社会经济现象的类型 (2)揭示社会经济现象总体的内部结构 (3)揭示社会经济现象之间的依存关系。任何现象 都不是孤立的,现象之间总是处于相互联系、相互 依存、相互制约之中。在分组基础上,还能揭示这 些数据之间是否存在一定的关系。
(二)、分组变量的选择与分组形式 正确选择分组变量的原则 (1)必须根据统计研究的目的与任务来选择分 组变量 (2)选择能反映现象本质和主要特征的变量 (3)结合历史条件、地点条件和具体的情况 来选择分组变量
3. 常见的国民经济标准分类
不同国家大多根据自己国家的实际情况在参照国际 标准的基础上制定颁布了本国的分类标准。 (1)三次产业划分 (2)机构部门分类 (3)行业分类 (4)职业分类 (5)经济类型分类
四 频数分布
(一)、频数分布的概念 把总体按某一变量分组,列出该变量所表现的数 据在各组出现的次数、所形成的数列叫做分配数 列或分布数列。通过分配数列可以说明总体各单 位在各组的分配情况,所以分配数列又叫做次数 分布。被分配在各组的单位“次数”在统计上被 称做“频数(frequency)”,因此次数分布也可 以叫做频数分布(frequency distribution)。 目录
由于定量变量有离散型变量和连续型变量之分,因 而,按分组变量的不同又分为单项数列和组距数列。
1.单项数列 由离散型变量编制的分配数列称作单项数列。 一般离散型变量具体表现为定距数据,只能取整数 绝对值,例如人数、企业数、学校数等。 2. 组距数列 组距(width of a class interval )数列是 由连续型变量的一个取值范围(区间)为一组所编 制的变量数列,连续型变量具体表现为定比数据。
目录
时空 形态 统计 数据 的分 类 内在 性质
时间序列数据:按时间顺序排列 的数据 截面数据:一个或多个变量在某 一时点上的数据的集合 面板数据:截面数据与时间数列 综合起来的一种数据 定性数据:一些用文字表示的无 量纲,如产品有合格、不合格之 分、性别有男、女之分等 定量数据:表现为数字,如GDP 、总产出、人口数等
(1)综合汇总原始资料,经过检查和审核的总体各单 位的标志值可通过手工或计算机进行分组、汇总,形 成总体指标。 (2)编制统计图表,把经过汇总的数据根据下一步统 计分析的要求制成各种类型的统计图或统计表。 (3)系统积累原始资料,将汇总资料,包括统计图表 和原始资料存入数据库。
2.编制统 计数据处 理方案
注:1.本表按当年价格计算。(The figures in this table are calculated at current price. ) 2.从2004年起第一产业包括农林牧渔服务业。(The Output of Primary Industry includes Services for Agriculture since 2004. )
(二)、频数分布的类型 按分组变量的性质不同,频数分布可分 (1)定性变量分布,简称定性分布,又叫品质 数列,是按定性变量分组、编制的分布数列。 按定性变量分组、总体各组显示了定类数据或 定序数据的不同表现,而频数则是各组定类数 据出现的次数,反映了定类数据或定序数据在 总体中的分配状况。
(2)定量变量分布,简称定量分布,又叫变量数 列,是按定量变量分组所编制的分配数列。
举例 产业分类
计数;排序 企业等级 计数;排序;温度
有基本测量单位 加减 4. 定比测定 分类;排序; 计数;排序;商品销售 额
有基本测量单位; 加减 有绝对零点 乘除
适用于低层次测量数据的统计方法,也适用 于较高层次的测量数据,因为后者具有前者的 数学特性。比如:在描述数据的集中趋势时, 对定类数据通常是计算众数,对定序数据通常 是计算中位数,但对定距和定比数据同样也可 以计算众数和中位数。 反之,适用于高层次测量数据的统计方法, 则不能用于较低层次的测量数据,因为低层次 数据不具有高层次测量数据的数学特性。比如 ,对于定距和定比数据可以计算平均数,但对 于定类数据和定序数据则不能计算平均数。
频数分布有两个基本要素:分组和频数。各组 频数占总体单位总数的比重称做频率,如以频率 来代替频数,所构成的分布数列称频率分布( frequency distribution)。
频数分布可以用表格或图形来表现,反映频 数分布的图形有频数直方图、频数分布折线图( diagram of distribution polygon)和频数分 布曲线图(diagram of distribution curve ) 之分。
有效性
二 统计数据处理的概念和内容
(一)、统计数据处理的概念和作用 统计数据处理(data processing)是根据统计 研究的目的和要求,对统计调查所得到的资料进 行审核、分组、汇总,使之系统化、条理化,形 成能反映总体综合特征的数据资料的工作过程。 统计整理的资料包括原始资料和次级资料两个方 面。
(二)、统计数据的尺度及其层次
统计数据分类的原则: 互斥原则:每一个数据只能划归到某一类型中, 而不能既是这一类,又是那一类; 穷尽原则:所有被观察的数据都可被归属到适 当的类型中,没有一个数据无从归属。
统计数据的四个层次或四种尺度 1.定类尺度(Nominal Scale) 把数字作为现象总体中不同类别或不同组别的代码, 这是最低层次的尺度。在这种情况下,不同的数字仅 表示不同类(组)别的品质差别,而不表示它们之间 量的顺序或量的大小。这种尺度的主要数学特征是 “等于(=)”或 “不等于(≠)”。 2.定序尺度 (Ordinal Scale) 定序尺度不但可以用数表示量的不同类(组)别, 而且也反映量的大小顺序关系,从而可以列出各单 位、各类(组)的次序。这种尺度的主要数学特征 是“>”或“<”。
例如,对企业按经营管理的水平和取得 的效益划分为一级企业、二级企业等。
定距数据
也称间距数据,是比定序数据的描述功能 更好一些的定量数据。
如10℃、20℃等。它不仅有明确的高低 之分,而且可以计算差距,如20℃比 10℃高10℃,比5℃高15℃等。 定距测定的量可以进行加或减的运算,但 却不能进行乘或除的运算。
目录
Fra Baidu bibliotek
(二)、统计数据处理的内容 统计数据处理一般包括以下几方面的内容: 1.审核和检查 原始资料 对统计调查到的原始资料进行审核 、检查,内容包括被调查单位报送 的原始资料是否齐全,有无漏报、 迟报、不报的情况;如果资料齐全 的话,看看是否有错报。 逻辑检查 比较审核 设置疑问框
审查方法
2.修正统 计数据的 调查误差
定比数据
也称比率数据,是比定距数据更高一级的 定量数据。它不仅可以进行加减运算,而 且还可以作乘除运算。 如产量、产值、固定资产投资额、居民 货币收入和支出、银行存款余额等。
统计数据四个层次的概括
测定层次
1. 定类测定 2. 定序测定 3. 定距测定
特征 分类
分类;排序 分类;排序;
运算功能 计数
2. 按选择分组变量的个数不同分简单分组、复合 分组和分组体系 (1)简单分组是按一个变量对总体的分组,它说 明了总体数据在某一方面的数量分配和特征。 (2)复合分组是按两个或两个以上的变量对总体 的分组,即先按一个变量对总体分组,然后在此 基础上按另一个从属变量对总体进行再次分组。 (3)分组体系是按一系列相互联系、相互补充的 变量对现象总体进行多种形式(包括简单分组或复 合分组)的分组,然后结合起来所形成的整体。
也叫整理纲要,它对统计数据处理的各 个环节作出具体的安排和规定,拟订统 计数据处理的工作计划,以保证统计数 据处理工作的顺利进行。
拟订汇总的指标和汇总表
包括的内容 决定分组方法 选择汇总的方式 确定资料审核的方法和内容
以前调查取得的、并已经加工处理过的 4.处理次 现有资料。 级资料 处理加工时需注意的问题: (1)对所需用的资料进行评价,取得次级资料后,必须 对它们作出评价,看看它们是否达到和满足研究的要 求,如果达不到要求就不应进行再加工; (2)对所需用的资料进行甄别,如果资料经过评价, 能够满足需要,就要甄别这些资料,看看那些可用、 那些不可用;那些可以直接引用、那些需要经过再加 工后才能引用;那些需要剔除、那些需要补充、那些 需要调整;
相关文档
最新文档