第三章 社会统计资料的整理2015
统计学原理 第三章 统计整理PPT课件
• 7、统计分组的关键在于确定( D )。
• A.组中值
B.组距
• C.组数
D.分组标志和分组界限
• 7.对某校学生分别按年级和年龄分组,由此形成的分组
体系是( A )。
• A.平行分组体系
B.复合分组体系
• C. 二者兼而有之
D.二者都不是
• 二、多选题
• 1、统计分组有按品质标志分组和按数量标志分组两种,
下述人口总体分组属数量标志分组的是( BD )。
• A.按性别分组
B.按年龄分组
• C.按文化程度分组
D.按收入水平分组
• E.按居住地区分组
• 2、统计分组是将统计总体按一定标志区分为若干部分的
统计方法。它( ABDE)。
• A.是统计研究中的基本方法 B.是在统计总体内部进行
• C.是在统计总体之间进行 D.对总体而言是分
轻
重
工
工
企
企
业
业
简单分组
按经济类型分
国集 其 有体 他 工工 工 业业 业 企企 企 业业 业
平行分组体系
工业企业
按轻重 工业分
按企业 规模分
轻工企业
大型轻 小型轻 工企业 工企业
重工企业
大型重 小型重 工企业 工企业
按经 济类 型分
国有 大型 轻工 企业
集体 大型 轻工 企业
其他 大型 轻工 企业
2.对原始资料进行审核与检查
3.对原始资料进行 统计分组和统计汇总
基础
中心
4.编制统计表或绘制统计图
(1)完整性 (2)准确性 (3)适用性 (4)时效性
结果
第二节 统计分组
一、统计分组的定义 是指根据客观现象的特点和统计研究的目的要求,按照一 定的标志把总体划分为若干不同性质的组或类型。
第三章社会统计资料的整理
本例视研究对象本身的特点和研究的目的,按组距为10,定组数为5。按经验的看法,组数过多过少都不妥,一般情况下可分为5~7组,组数尽可能取奇数,避免偶数。
(二)等距分组和异距分组 组距数列根据组距是否相等,分为等距数列和异距数列两种。等距数列中各组组距都是相等的(如表1所示);异距数列中每组的组距是不全相等的(如表2所示)。
分配数列是统计分组的一种重要形式,它可以反映总体的结构分布状况和分布特征,这对于统计分析是很重要的。根据分组标志的不同,分配数列可分为两种:品质分配数列(简称品质数列);变量分配数列(简称变量数列)。 按品质标志分组形成为品质数列。品质数列由各组名称和次数组成。各组次数可以用绝对数表示,即频数;也可以用相对数表示,即频率。见表3-3。
由此可见,变量数列也是由各组名称(由变量值表示)和次数(或频率)组成。频率大小表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率大小。变量的具体数值即变量值通常用符号x表示;各组单位数即次数或频数(其相对形式即频率)通常用符号f表示。变量数列的编制,特别是其中组距数列的编制是比较复杂的,下面就组距数列的编制方法专门加以研究。
等距数列适用于标志变异比较均匀的现象,或者说,各组性质差异是由变量值均匀增加或减少而引起的。例如,学生成绩60分以上者,每增加10分就进入高一级档次。人口按身长、体重的分组等,一般均采用等距数列。
2、异距数列。异距数列各组次数的数值受组距不同的影响。在研究各组次数实际分布时,要消除组距不同的影响,这就要将不等组距的次数换算成标准组距次数。可以数列中最小组组距为标准组距,将不等组距次数换算为统一的标准组距次数,并以此绘制图形,或者是在原数列基础上先计算次数密度或频率密度,其公式为: 次数密度=各组次数/各组组距 频率密度=各组频率/各组组距 以上两种方法实质上是一样的。
第三章 统计整理
再审察
统计图表
第二节 统计分组
• 一、统计分组的意义和作用 • (一)统计分组:根据统计研究的需要和 调查对象的特点,将研究对象按一定标志 划分为若干个在质或量上具有较大差别的 组成部分。 • 统计分组是贯穿于统计研究全过程的重要 方法,也是进行统计分析的前提。
例:某车间有8个生产小组,共80人,生产定额每人每天生 产零件500件,2月1日每个工人的实际生产完成情况如下: 1组:420 420 420 420 450 450 480 480 480 480 2组:540 540 540 540 540 540 540 540 540 540 3组:540 540 540 540 540 540 540 540 580 580 4组:520 520 520 520 530 500 500 500 500 500 5组:510 510 520 520 520 500 510 510 500 500 6组:530 530 530 540 620 620 620 620 720 720 7组:720 720 630 630 630 630 620 620 620 620 8组:650 650 650 650 650 650 650 650 650 650
按由小到大排序
20 40 50 58 60 64 70 85 100 105 119 124 126 132 139 145 148 150 156 160 163 171 175 182 187 193 210 220 250 290
• 全距:R=Xmax-Xmin=290-20=270(万元) • 经排序和计算全距后,我们可以得到对资 料一些基本认识,即30个商店的销售额是 波动的,但波动并非杂乱无章,而是呈现 出一定规律性,即波动幅度是在20~290万 元之间,全距为270万元,而且大多数都在 50~200万元之间,偏低和偏高的都较少。
社会统计资料的整理
第三章社会统计资料的整理原始资料杂乱无章,需加整理,才能为人所用。
统计资料的整理,其基础是统计分组。
所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。
第一节统计分组的原则与标准统计分组的标志分为数量标志和品质标志两大类。
按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。
在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。
频数分布数列是统计分组工作的产物。
显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。
统计分组的关键在于选择分组标志和划分各组界限。
一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。
按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。
如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。
在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。
因此,如何编制变量数列是我们重点需要掌握的。
第二节统计表统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。
变量数列是统计表的一种常用形式。
1.统计表的格式、内容与种类统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。
统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。
统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。
第03章 统计整理(2015年下学期)(《应用统计学》:施金龙主编)
如某班学生某学科成绩分组:50-60分,60-70分,70-80分,8090分,90-100分。
异距分组
各组组距不全相等的分组称 为异距分组。
如人口按年龄分组:0~7岁,7-18岁,18-60岁,60岁以上。
第三章 统计整理
简单分组
只按一个分组标志对所研究的 总体进行分组。 按两个或两个以上的标志分别 对同一总体进行简单分组。 同时按两个或两个以上标志对 同一总体进行层叠式分组
(一)根据统计研究的目的与任务选择分组标志
在对社会经济现象进行研究时,可以根据不同
的研究目的而从不同的角度进行研究,也正是研究
目的的不同,才选择不同的分组标志进行分组。
例如: 研究人口的年龄构成时,就应该按“年龄”分组; 研究各类型的工业企业在工业生产中的地位和作用时,就应 该按“经济类型”分组。
第三章 统计整理
100-200以下 3000-30000以下
100-500以下 1000-15000以下 500-3000以下 3000-30000以下 400-1000以下 3000-30000以下 400-800以下 3000-15000以下
100以下 3000以下
100以下 1000以下 500以下 3000以下 400以下 3000以下 400以下 3000以下
第三章 统计整理
(二)反映总体内部结构
例:上海市按GDP计算的三次产业结构(%) 1980 1990 1996 1997 第一产业 3.2 4.3 2.5 2.3 第二产业 75.7 63.8 54.5 52.2 第三产业 21.1 31.9 43.0 45.5 合计 100 100 100 100
定序数据、定距数据、定比数据的排序 递减排序:可表示为:x(1) ≥x(2) ≥…≥x(n) 递增排序:设一组数据为x1,x2,…,xn,递增排 序后 ,可表示为:x(1) ≤x(2) ≤…≤x(n)
第三章统计资料的整理与分析
七、统计资料汇总技术 (一)手工汇总 1. 划线法:又称点线法,即用点线符号进行汇总。如“正”代表5 个单位等。 操作简单,易出错,只适用与总体单位不多,只要求汇总总体单 位数的情况。 2.过录法:又称整理法。将分散的原始资料过录到预先设置好的整 理表上,过录完毕后,加总出总体单位和总体标志的合计数来, 再填写到综合表上去。优点便于核对,但需要较多的人力和较长 的时间,比较费事也容易出错。适用总体单位不多,分组较简单 的情况。 3.折叠法:将所有调查表中需要汇总的某一栏(行)的数字全部在 同一位置折叠,然后再一张一张地叠放在一起,进行汇总时直接 一张一张地翻动,最后再将汇总结果填入综合表中。简单易行, 省时省力,易出错且无从核对。只适用于有统一表式的调查表。 4.卡片法:利用特别的摘录卡片,将总体单位的有关资料摘录在卡 片上,然后根据卡片进行分组和汇总。准确可靠,是手工汇总中 较好的方法。但卡片运用起来比较费时费力,适合于总体单位多, 分组复杂的情况。
表3-8 2003年入境游客人均天消费基本情况
按年龄分组 (甲) 14岁以下 15岁~24岁 25岁~44岁 45岁~64岁 65岁及以上 合计
人均天消费(美元/人天) (乙) 92.33 115.44 141.56 147.54 132.43 140.09
变量数列由两部分组成:一是变量值或由变量值形成的 组;二是次数或频数(频率)。次数或频数表式各组单 位数的多少,是各组单位数的绝对数表式形式,频率表 式各组单位数占总体单位数的比重,是各组单位数相对 数的表式形式。 变量数列中的分组一定是由变量值所形成的各个组。 习惯上,将变量值用x表式,次数或频数用f表式,频率 表示为 go-46
第三章 统计资料的整理与分析
第一节 第二节 *第三节 *第四节 第五节 统计资料整理概述 统计分组 分配数列及其编制 统计表 统计资料的分析
第三章统计资料整理
1、条形图(柱形图)
(1)什么是条形图?
——以长方形的高低或长短来反映 统计资料的一种统计图形。
第三章统计资料整理
(2)绘制柱形图的规则
1)横轴(基线)和纵轴,尺度均需从0开始; 2)尺度的最大数值要略大于资料中的最大值 3)尺度上数值应整齐且间隔相等; 4)所绘图形的宽度要均匀,条与条之间的距 离要相等; 5)复合条形图,复合条形应用不同线条或不 同颜色的条形来绘制; 6)写标题、标目、图号、文字说明等。
第三章统计资料整理
七、变量分布数列的编制
1、简单次数分布数列的编制
(1)单项式分布数列(变动范围不大的离散型变量)
合特定件的数据予以剔出 3、数据排序
第三章统计资料整理
第二节 质量数据的整理与展示
一、定类数据的整理与显示 (一)频数和频数分布
频数(次数):落在某一特定类别中的数据个数 频数分布(次数分布): 把各个类别及其相应的
频数全部列出来 频率(比重):某一类别数据占全部数据的比值
(二)定类数据的图示
第三章统计资料整理
二、定序数据的整理与显示
——除了可用定类数据的整理和显示方法外,还可 以计算累计频数和累计频率。 1、累计频数和累计频率
——将各类别的次数和频率逐组连续相加而得到的 累计数。 种类: ①以下累计(向上累计):由低→高逐组累计 ②以上累计(向下累计):由高→低逐组累计
第三章统计资料整理
例题
在一项城市住 房问题的研究中 ,研究人员在甲 乙两个城市各抽 样调查300户,其 中的一个问题是 :“您对您家庭目 前的住房状况是 否满意?
盈利 亏损
盈利 亏损 盈利 亏损 盈利 亏损
第三章统计资料整理
2、按分组标志性质不同
《社会统计学》全书目录
《社会统计学》全书目录第一章导论第一节什么是社会统计学社会统计的产生与发展·社会统计学的对象与特点·社会统计的方法·社会统计工作的程序第二节社会统计学的几个基本概念总体与单位·标志与变量·指标与指标体系第二章社会统计资料的搜集第一节统计调查的方法及种类原始资料与次级资料·静态资料与静态资料·全面调查与非全面调查·一般调查与专项调查·经常性调查与一次性调查第二节统计调查的组织形式普查·重点调查·典型调查·抽样调查第三节概念的操作化与测量概念的操作化·定类尺度·定序尺度·定距尺度·定比尺度第四节统计误差登记性误差·代表性误差·抽样误差第三章社会统计资料的整理第一节统计分组的原则与标准“穷举”与“互斥”·频数(或次数)分布数列·品质数列与变量数列第二节统计表统计表的格式、内容与种类·统计表的制作规则第三节变量数列的编制对于离散变量·对于连续变量·组距和组数的确定·累计频数第四节统计图直方图·折线图·曲线图·累计顿数分布曲线·洛仑兹曲线与基尼系数第四章集中趋势测量法第一节算术平均数对于未分组资料的算术平均数计算·对于分组资料的算术平均数计算·算术平均数的性质第二节中位数对于未分组资料的中位数计算·对于分组资料的中位数计算·中位数的性质·其他分割法第三节众数对于未分组资料的众数计算·对于分组资料的众数计算·众数的性质第四节几何平均数、调和平均数及其他几何平均数·调和平均数·各种平均数的关系第五章离中趋势测量法第一节全距与四分位差全距·四分位差第二节平均差对于未分组资料A·D的计算·对于分组资料A·D的计算·平均差的性质第三节标准差对于未分组资科S的计算·对于分组资料S的计算·标准差的性质·标准分第四节相对离势变异系数·异众比率·偏态系数第六章概率与概率分布第一节概率论随机现象和随机事件·事件之间的关系·先验概率·经验概率第二节概率的数学性质概率的数学性质·排列与样本点的计数·运用概率方法进行统计推断的前提第三节概率分布、期望值与变异数离数型随机变量及其概率分布·连续型随机变量的概率分布·分布函数·数学期望·变异数第七章假设检验第一节二项分布二项分布的数学形式·二项分布的讨论第二节统计检验的基本步骤建立假设·求抽样分布·选择显著性水平和否定域·计算检验统计量·判定第三节正态分布正态分布的数学形式·标准正态分布·正态曲线下的面积·二项分布的正态近似法第四节中心极限定理抽样分布·中心极限定理第五节总体均值和成数的单样本检验σ已知,对总体均值的检验·学生t分布(小样本总体均值的检验)·关于总体成数的检验第八章常用统计分布第一节超几何分布超几何分布的数学形式·超几何分布的数学期望与方差·关于超几何分布的近似第二节泊松分布泊松分布的数学形式·泊松分布的性质·关于泊松分布的近似第三节卡方分布(2 分布)卡方分布的数学形式·卡方分布的性质·样本方差的抽样分布第四节F分布F分布数学形式·F分布的性质·关于F分布的近似第九章参数估计第一节点估计无偏性·一致性·有效性第二节区间估计精确性和可靠性·抽样平均误差与概率度·区间估计的步骤第三节其他类型的置信区间σ未知,小样本总体均值的区间估计·总体成数的估计·总体方差的区间估计第四节抽样平均误差简单随机抽祥的抽样误差·分层抽样的抽样误差·整群抽样的抽样误差·等距抽祥的抽样误差第五节样本容量的确定影响样本容量的因素·确定样本容量第十章双样本假设检验及区间估计第一节两总体大样本假设检验大样本均值差检验·大样本成数差检验第二节两总体小样本假设检验小样本均值差检验·小样本方差比检验第三节配对样本的假设检验单一实验组的假设检验·一实验组与一控制组的假设检验·对实验设计与相关检验的评论第四节双样本区间估计σ12和σ22已知,对均值差的区间估计·σ12和σ22未知,对均值差的区间估计·大样本成数区间估计·配对样本均值差的区间估计第十一章非参数检验第一节符号检验配对样本的“符号检验”·符号检验与二项检验·简便检验·“符号检验”的作用第二节配对符号秩检验配对样本的符号秩检验·配对符号秩检验的步骤·符号秩检验的效力第三节秩和检验独立样本的秩和检验·秩和·秩和检验的具体步骤·U检验第四节游程检验独立样本的游程检验·游程·游程检验的具体步骤·差符号游程检验第五节累计频数检验独立样本的累计频数检验·累计频数检验的步骤·没有预测方向和已经预测方向·经验分布与理论分布之比较第十二章相关与回归分析第一节变量之间的相互关系相关程度与方向·因果关系第二节定类变量的相关分析列联表·削减误差比例·λ系数·τ系数第三节定序变量的相关分析同序对、异序对、同分对·G amma系数·肯德尔等级相关系数·萨默斯(d系数)·斯皮尔曼等级相关系数·肯德尔和谐系数第四节定距变量的相关分析相关表和相关图·积差系数的导出和计算·积差系数的性质第五节回归分析线性回归·积差系数的PRE性质·相关指数R第六节曲线相关与回归第十三章2 检验与方差分析第一节拟合优度检验问题的导出·拟合优度检验(比率拟合检验)·正态拟合检验第二节无关联性检验独立性、理论频数及自由度·关于频数比较和连续性修正·列联表的卡方分解·关系强度的量度第三节方差分析总变差及其分解·关于自由度·关于检验统计量F o的计算·相关比率·关于方差分析的几点讨论第四节回归方程与相关系数的检验回归系数的检验·积差系数的检验·回归方程的区间估计第十四章动态分析与指数分析第一节时间数列及其指标分析时间数列的构成与分类·动态比较指标·动态平均指标第二节时间数列的趋势分析随手绘法·移动平均法·半数平均法·最小平方法第三节指数分析法动态指数及其分类·质量指标综合指数·数量指标综合指数·用与个体指数的联系来求综合指数·其他权数形式的质量和数量综合指数·指数体系和因素分析·静态指数。
3_第三章 统计整理
(三)组限和组中值 1、组限:组距两端的数值。上下限都齐全的叫 做闭口组,否则称为开口组。 确定组限必须保证标志值在各组的变动能反映 事物的质的变化。 2、组中值:组中标志的平均水平。上下限的中 点值。对于开口组一般使用相邻组的组距的 一半来调整。
三、累计次数分布 总体中各个总体单位在各组间的分布情况称为 分布次数,通过次数分布规律可以研究大量 现象的统计规律性。 (1)向上累计(较常见) 例如离散和连续型随机变量的概率分布列等。 (2)向下累计(不多见)
二、统计表的结构 由总标题、分标题(横行标题、纵栏标题)和 数字资料。 三、统计表的种类 1、简单表:主词没有经过任何分组; 2、分组表:主词按照某个标志进行分组列示的 统计表; 3、复合表:主词按照两个或者两个以上标志进 行复合分组的统计表。 详见P55页。
举例
return_1 4 3 2
FREQUENCY 8
7
6
5
1
0
4
-1
-2
3
-3
2
-4 2 1 N O V 2 0 0 3 2 2 N O V 2 0 0 3 2 3 N O V 2 0 0 3 2 4 N O V 2 0 0 3 2 5 N O V 2 0 0 3 2 6 N O V 2 0 0 3 2 7 N O V 2 0 0 3 2 8 N O V 2 0 0 3 2 9 N O V 2 0 0 3 3 0 N O V 2 0 0 3 0 1 D E C 2 0 0 3 0 2 D E C 2 0 0 3 0 3 D E C 2 0 0 3 0 4 D E C 2 0 0 3 0 5 D E C 2 0 0 3 0 6 D E C 2 0 0 3 0 7 D E C 2 0 0 3 0 8 D E C 2 0 0 3 0 9 D E C 2 0 0 3 1 0 D E C 2 0 0 3 1 1 D E C 2 0 0 3 date 1 2 D E C 2 0 0 3 1 3 D E C 2 0 0 3 1 4 D E C 2 0 0 3 1 5 D E C 2 0 0 3 1 6 D E C 2 0 0 3 1 7 D E C 2 0 0 3 1 8 D E C 2 0 0 3 1 9 D E C 2 0 0 3 2 0 D E C 2 0 0 3 2 1 D E C 2 0 0 3 2 2 D E C 2 0 0 3 2 3 D E C 2 0 0 3 2 4 D E C 2 0 0 3 2 5 D E C 2 0 0 3 2 6 D E C 2 0 0 3 2 7 D E C 2 0 0 3 2 8 D E C 2 0 0 3 2 9 D E C 2 0 0 3 3 0 D E C 2 0 0 3 3 1 D E C 2 0 0 3
第三章 社会统计资料的整理
第三章社会统计资料的整理第一节统计分组的原则与标准“穷举”与“互斥”·频数(或次数)分布数列·品质数列(定类和定序)与变量(定距)数列第二节统计表统计表的格式、内容与种类·统计表的制作规则第三节变量数列的编制离散变量数列与连续变量数列·单项数列与组距数列·组距和组数的确定·等距分组与异距分组·开口组与闭口组·频数密度与标准组距频数·累计频数第四节统计图频数分布曲线(直方图、折线图、曲线图)·累计频数分布曲线·洛仑兹曲线与基尼系数一、填空1.统计表从内容上看,是由()和宾词两部分构成的。
2.主词是统计表要说明的();宾词是用来说明主词的()。
3.变量数列有两个构成要素()和()。
4.基尼系数为(),表示收入绝对不平均;基尼系数为(),表示收入绝对平均。
5.统计表通常有一定格式,统计表各部位的名称分别是()、横行标题、纵栏标题、()。
6.实际收入分配情况则由洛仑兹曲线表示,一般表现为一条下凹的弧线,下凹程度愈大,收入分配(),反之,则收入分配()。
7.对于连续变量,恰是某一组限的数据应按照()的原则归入相应的组别。
8.统计表按主词的分组情况,可分为简单表、简单分组表和()。
9.统计分组的关键在于()和划分各组界限。
二、单项选择题1.统计表的数字部分中符号“……”代表的含义是()。
A.某项数字不存在B.缺少某项数字C.某项数字较大D.提醒注意核计2.某城市男性青年27岁结婚的人最多,该城市男性青年结婚年龄为26.2岁,则该城市男性青年结婚的年龄分布为()。
A.正偏B.负偏C.对称D.不能作出结论3.上限与下限之差是()。
A.组限B.组距C.组中值D.极差4.累计频数分布曲线一般都呈()。
A.钟型曲线B.U 型曲线C.J 型曲线D.逻辑斯蒂曲线三、多项选择题1.累计频数分布曲线()。
A.只有持续增长或持续减少两种形状B.呈对称的钟型C.一般呈S状D.斜率为零处对应于空组E.曲线最高处对应于含有最多单位的间距2.如果某连续变量的数值分布很不均匀,且有极端值出现,则数列应编制()。
第三章统计资料整理
第三章统计资料整理第三章统计资料整理通过统计调查所取得的资料只能反映总体各单位的具体情况,是分散的、零碎的、个别的,要说明事物的总体情况,揭⽰总体的⼀般情况,还需对这些资料进⾏加⼯整理,才能对总体做出概括性的说明。
⼀、统计资料整理的⼀般问题(⼀)统计整理的概念、作⽤、重要性统计整理是根据统计研究的⽬的和要求,对统计调查所得的原始资料进⾏科学的分类、汇总,或对已经初步加⼯的资料进⾏再加⼯,使之成为系统化、条理化的综合分析,以反映现象总体特征的⼯作过程。
统计整理是整个统计⼯作的中间环节,统计整理是统计调查的继续,⼜是统计分析的基础,具有承前启后的作⽤。
统计调查所搜集到的资料只有经过科学的审核、分类、汇总等整理⼯作,才能实现由个体到总体、由现象到本质、由感性到理性的转变。
(⼆)统计整理的程序1、制定整理⽅案2、数据审核就是对搜集到的资料进⾏全⾯审核,主要检查数据的完整性(是否遗漏)和准确性(是否可靠),如果发现问题,及时纠正,以保证搜集的资料准确⽆误,这是统计⼯作⼗分重要的环节,必须认真对待。
3、划类分组根据研究⽬的和统计分析的需要,对原始资料进⾏分组分类。
例如:研究性别构成可以按性别分组;研究不同职业的⼯资⽔平可以按照职业分组,⼜可以按照某⼀组距进⼀步细分。
4、综合汇总即在分组的基础上,将各项资料进⾏汇总,得出反映各组和总体的总量指标。
例如:⼥性总⼈⼝数、男性总⼈⼝数、总⼈⼝数;⾦融业⼈均⼯资、会计类⼈均⼯资、教师类⼈均⼯资、公务员⼈均⼯资、农民⼯⼈均⼯资等。
(注意:前者总量指标,后者为平均指标)5、制表制图将整理出来的统计结果⽤统计表或统计图的形式反映出来,表述统计资料的内容6、积累保管即统计资料的积累的保管。
因为统计研究中要经常进⾏动态分析,这就需要长期积累统计资料。
(三)统计整理的技术1、⼿⼯汇总⼿⼯汇总是指以算盘和计算器为主要⼯具,通过⼿⼯操作对统计资料进⾏汇总。
由于⼿⼯汇总速度慢、易出错,取⽽代之的是现代化汇总技术——计算机汇总2、计算机汇总计算机汇总是指通过计算机来进⾏统计汇总的⼀种技术⼿段。
第三章 统计学 统计整理
数据审核
审核种类 审核内容 审核方法 全员劳动生产率<工人劳动生产率
销售收入-销售成本费用=利润 完整性 单位缺失 与调查方 审核 某指标是否符合正常水平 项目缺失 案比较 数
据
准确性 审核
口径、方 逻辑审核 法、计量 平衡校验 单位等等 经验判断
第二节
统计分组
《统计学》第三章 统计整理
指根据事物的内在特点和统计研究的 统计分组 需要,按一定的标志将统计总体区分 为若干性质不同的组成部分的统计研 究方法
品质数列的编制
获金牌项目 变量值 x
《统计学》第三章 统计整理
金牌数
占总数比例 频率 f /∑f 0.1786 0.1786 0.1429 0.1429 0.1071 0.1071 0.0714 0.0357 0.0357
跳水 5枚 次数(频数) 举重 5枚 乒乓球 f 4枚 羽毛球 4枚 体操 3枚 射击 3枚 柔道 2枚 田径 1枚 跆拳道 1枚
=150(万元)
组距式分组中的一些概念
例如
60分以下 60—70分 70—80分 80—90分 90分以上
《统计学》第三章 统计整理
组中值为 (60+50)÷2=55 组中值为 (90+100)÷2=95
上限不在内原则
等距分组 异距分组
各组组距相等的分组称为等 距分组。 各组组距不全相等的分组称 为异距分组。
《统计学》第三章 统计整理
拟定分组数目
互斥性
原则
即决定分成哪些组,各组的内容、 名称和界限。
指各组之间界限明确,总体中的 每一个单位,都只应属于其中的 一个组。
包容性
指在一个分组方案中拟定的所有 组,能够包容总体的全部单位, 不能排斥和遗漏任何一个单位。
03第三章 统计整理
2019/2/22
连续型变量,因其数值连续无法一一列举,所以 对它不能编制单项式分配数列,而只能编制组距式分 配数列.
二、编制组距式分配数列注意的问题
2019/2/22
39
(一)组限
1.离散型变量可一一列举,相临两数值之间没有中间 数值,各组上、下限可用明确的数值表示且不等。又叫
异限分组。
例如:某校按学生人数分组,其组限为:
品质数列
2019/2/22
60以下 60-70 70-80 80-90 90以上 合计
4 16 40 30 10 100
36
变量分离散型变量和连续型变量,对变量数列有:
单项式分配数列:对离散型变量,如果变动幅度小,
在分组时可以将每一变量值列为一组来编制分配数列。
例
某单位职工家庭按儿童数分组数列 户数 35 48 26 12 4 125 比率(%) 28.0 38.4 20.8 9.6 3.2 100.0
销售额(万元) 0-50 50-100 100-150 150-200 200-250 250-300 合计
企业个数(个) 11 18 32 25 13 1 100
3
一、统计整理的意义
统计调查所搜集的反映个体量的原始资料是分散的, 不是集中的;是零碎的,不是系统的。根据这些资料。人 们难以从总体上分析和认识社会经济现象的数量表现。
2019/2/22 33
由于分组是分配数列的基础,因此有怎样的分组就 形成怎样的分配数列。综合上述各种的分组,分配数 列的类型,可归纳为:
品质数列 分配数列 变量数列 组距数列
2019/2/22 34
单项数列
概念
1.品质数列:按品质标志分组形成
第三章 统计资料整理
编制过程
首先,对上面的数据进行排序 107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 127 127 127 128 128 129 130 131 133 133 134 134 135 137 139 139 第二步,全距=139-107=32,定组距=10 确定组数 组数=32÷10=3.2 组数=4 第三步,确定组限,计算各组次数、频率及累计次数
审核内容包括:
(1)资料的完整性和及时性
——调查单位或填报单位是否齐全,规定项目是 否有不报、漏报、缺报现象,应报资料的份数是 否符合规定等。 (2)资料的正确性 ——检查所填报资料是否准确可靠。
方法有:①逻辑检查;②计算检查
(3)历史资料的审核
(4)审核后的订正
2、统计分组 3、统计汇总 ——汇总是在统计分组的基础上,把总体单位各种标 志的标志值汇总起来,反映出各组和总体的各种指 标。 汇总主要有:手工汇总和电子计算机汇总 (1)手工汇总常用的方法主要有: ——划记法、过录法、折叠法、卡片法等。
女
合 计
549
1281
42.86
100.00
2、某厂工人日产量分布表
按日产量分组(件) 9 工人数(人) 12 比 率(%) 4.00
10
11
38
65
12.67
21.67
12
13
85
60
28.33
20.00
14
社会统计学 第三章 数据的整理与显示
分组注意事项: 1.组数:分成多少组合适?
调查总数N
50-100 100-250 250以上
分组数K
6-10 7-12 10-20
2.等距还是非等距问题:100元对于月工资 1000元与10000元的感觉? 3.如何决定分点的精度:一般分组点比原 统计资料的精度要高一位。 原则:不重不漏、上限不在内 PP.33-34
五.常见曲线图
1.峰状曲线:根据曲线的峰顶数目,可以分为单 峰、双峰和多峰曲线。 2.对称与不对称曲线:把曲线从中央分割,两边 资料分布完全相同则为对称,否则为不对称。
谢谢!
21
三、统计分布
(一)定类层次之次数分布 分布指变量的各种情况出现的频次,又称频次分布。其作 用在于表明各种情况的相对重要程度。 最基本的用于简化资料的方法。 例如:
家庭类别(变量) 直系家庭 核心家庭 联合家庭 频次(个) 5 20 0
1.频数:每类出现的次数(f) 2.比例:将每类的次数(f)除以总数 (n),用以比较不同的样本。
老中青人数分布图 25
人数(个)
20 15 系列1 10 5 0 老年 中年 年龄类别 青年
三.直方图(Histograms)
直方图是用矩形的面积来表示数列各组的频数或频率。 矩形的宽度表示各组组距,矩形的长度标示次数或百 分率。
四.曲线图
当变量数列中的组数愈加增多,变量值也非常多时, 折线图会逐步过渡到平滑曲线。频数分布曲线图实质 上是对应于连续变量的频数分布的函数关系图。
组距 148~156 156~162 162~168 168~174 174~180 合计
f 3 9 25 34 20 91 f 20 34 25 9 3 91
第三章 统计资料的整理
第三章 统计资料的整理
主讲老师:龚秀芳
第一节
资料整理的意义与内容
第二节
第三节 第四节
统计分组
分配数列 统计表和统计图
第一节
资料整理的意义与内容
一、资料整理的意义 P34
即将大量个体单位的原始资料,进行科学的分类、 汇总,使之系统化、条理化,可以有效地展示,为下一
阶段的统计分析作准备。
资料整理是一个从个体到总体的过渡,也是对现象 的认识从感性上升到理性的过程。
(二) 统计表的构成: 1.总标题。
2.横行标题。也称主词(主栏),表明总体及其分组,
一般列于左方。 3.纵栏标题。也称宾词(宾栏),表明总体特征的统 计指标的名称,一般写在表的上方。 4.数字资料。即空格中的数字。
(三) 统计表的种类 (1)统计表按主词的分组不同,可以分为:
1.简单表。未经分组。
2.简单分组表。按一个标志分组。 3.复合分组表。按两个及两个以上标志分组。 (2)按用途分为: 1.调查表。用于登记原始资料。
2.整理表或汇总表。(狭义的统计表)
3.计算分析表。(可和2表结合)
(四)统计表的设计与填写
设计原则:
合理、科学、实用、简明、美观
形式:
1.一般为长方形。
2.上下两端的端线用粗线绘制,表的左右两端不封 闭。
二、统计图
P44-47
特点:
简洁、形象和直观
不能代替统计分析
(一)直方图(histogram)
80000 70000 60000 50000 40000 30000 20000 10000 0
2002 2003 2004 2005 2006 48136 76410
社会消费品零售总额
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计表
1. 格式 总标题
纵栏标题
统计表是表示统计 资料的表格,在由横行 、纵栏交叉结合而成的 表格上,它能系统地组 织和合理地安排大量数 字资料。
横行标题 统计数值
2002年我国城乡人口情况
按城乡分 人口数(万人) 比重(%) 城镇 乡村 合计
50212 78241 128453
39.09 60.91 100.00
资料来源|:《2003中国统计年鉴》第838页。
统计表的制作规则
标题部分 1、标题置于表格正上方 2、总标题所示要点与表中项目一致,在需要时还应表 明资料所属的时间和地区 3、表次:左 ;单位:右 4、对分页的同一表格,在每页上端都要写标题,加 (续一)、(续二) 栏目部分 1、先局部后整体 2、若栏目较多,可加以编号;统计数字间有计算关系 的,可用计算式表达。
91.4 51.1 40.3 28.5 7.9 20.6 23.1 13.7 9.4 143.0
2000
107.6 60.7 46.9 31.7 8.3 23.4 28.7 19.0 9.7 168.0
2001
108.1 69.5 38.6 29.5 12.1 17.4 40.5 26.4 14.1 178.1
异距分组
异距分组主要在变量变动并不是均匀的、有急剧上
升或突然下降之类情况发生时考虑。
频数 频数密度 组距
标准组距频数的换算方法:
(1)选定某一合适的组距为标准组距; (2)用标准组距除以各组组距,得到折合系数; (3)将各组的折合系数乘以各组的频数。
频率密度 频率 组距
频数密度和标准组距频数计算表
线格部分 1、统计表上下两端线应以粗线或双细线标划,表的 左右两侧开口。 2、各栏间用直线标划,大项目间线条较粗,小栏目 线条较细;各行间不必划线条。 数字部分 1、表中数字要对准位数。 2、不存在某数字时,用“——”表示;缺少某项数字 时,用“……”表示。 3、数字较大时,加分位点。 其他规则 1、资料来源写在表格下方。 2、有说明解释需要时,在表下方注释。 3、单位有数种时而不能在表右上角划一标注时,分 两种情况处理。
间距 8―14 15―21 22―28 29―35 36―42 合计 组中值( ) 组中值( 11 18 25 32 39 —— 学校数(f )
i
2 5 10 8 4 29
编制注意四点:相邻组组限是间断的;这 两个组限在整数值上又必须衔接;组限应 使组中值为整数值,以利于计算;虽然每 一组中各变量值不尽相同,但计算时假设 他们相同,而且就是该组的组中值。
解:学生体重是分布均匀的连续型变量,应编制组距数列。 第一步,先将100个数据排序,找出最大值154和最小值80, 这个数列的全距R=154-80=74厘米。 第二步,根据斯特奇斯规则确定组数:n = 1 + 3.322×(lg100) = 7.64,再根据组数与组距的关系确定组距: h= R/n = 74/7.64 =9.51(斤)。根据以上的计算结果, 组数定为8组;组距定为10斤。 第三步,根据所定组数和组距确定组限。第一组下限定为 80,上限则为90(即80+10);第二组下限就是第一组上 限90,第二组上限为100;……;依此类推,第八组下限 是150,其上限则为160。 第四步,进行归组,确定频数。将各个变量值归入相应的 组中,和组限重合的变量值按照“上限不在内,相同入下 限”的原则进行归组,比如154归入第八组(150-160); 133归入第六组(130-140);……;依此类推。 第五步,把最后的结果用频数分布表显示,见表3.3。
连续变量数列
连续变量因其数学特征,在一个区间可以有无限多数 值,无法按顺序一一列举,所以只能编制组距数列。与离 散变量组距数列不同之处在于,根据连续变量的特征,此 时组距数列中相邻两组的上限和下限共有一个组限,即相 邻两组交界处的组限重合。至于恰等于某一组限的数据(如 下表中身高164厘米)归于哪一组,应该按照“上限不包括 在内、相同入下限”的原则处理。这就是说,164应归于 “164—168”这一组,而不应归于“160—l64”这一组。有 了这一规定,就不会在编制连续变量的数列时,发生违背 “穷举”与“互斥”这两个基本原则的情况了。
男青年按身高分 组(厘米) 148―156 156―164 164―168 168―172 172―176 176―180 180―188 188―196 频数 3 15 19 25 17 12 8 1 组距 8 8 4 4 4 4 8 8 频数密 折合系数 度 (取标准组距4) 3/8 15/8 19/4 25/4 17/4 12/4 8/8 1/8 1/2 1/2 1 1 1 1 1/2 1/2 标准组距频 数 1.5 7.5 19.0 25.0 17.0 12.0 4.0 0.5
2. 内容 主词——统计表所要说明的对象。 宾词——用来说明主词的标志和标志值。 如需要,主宾词可互换。 表3.4
草 率 型 离婚案件 (件) 比重(%) 85 14 外 遇 型 79 13
离婚案件构成
猜 疑 型 64 10 虐 待 型 44 7 再 婚 型 44 7 家 务 型 188 31 生 理 型 46 7 分 居 型 14 2 其 他 型 59 9 合 计 623 100
●
简单分组表 中国人口年龄结构状况
单位:%
年龄组 0―14岁 15―64岁 65岁以上
1953年 36.3 59.3 4.4
1964年 40.7 55.7 3.6
1982年 33.6 61.5 4.9
1990年
27.7 66.7 5.6
2000年
22.9 70.1 7.0
资料来源|:《2003中国统计年鉴》第99页。
频数分布数列
在统计资料搜集的基 础上,按分组原则,将总 体中所有单位依一定顺序 归类整理,即可得到能够 表明总体单位总数在各组 分配情况的频数(或次数) 分布数列,简称数列。频 数分布数列是统计分组工 作的产物。
变量数列
品质数列
某社团成员的构成
性别 男 女 人数 28 22 年龄 15--25 25--35 35--45 45--55 55--65 人数 3 7 12 158 165 162
157 175 182 168 176 161 171 163 176 159 171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164
合计
——
100
——
确定组距和组数
对于等距分组且为闭口组的情况,确定组距 已有某些数学公式可供参考
R h 1 3.322IgN
但最佳决定还是依据常识和数列使用的目的而 定。一般地说,组距应不小于可以忽略的数值之差。
全距(R) 组数(n) 组距(h)
注意,在资料被整理成数列时,全距可适当放大 (但不能缩小),以便组数(或组距)取整数值。
第三节 变量数列的编制
变量数列的构成要素
在社会统计学中,总体中各单位的分布特征首 先是用统计表来表示的。能够表示变量分布及其特 = 征的统计表,即变量数列。它有两个构成要素: 变量值 Xi 频数 fi 相对频数 Pi
fi Pi N
f N
i 1 i
n
P 1
i 1 i
n
离散变量数列
● 复合分组表
我国社会福利主要费用情况
项目
(一)优抚对象补助金额 国家支出 集体供给 (二)农村传统救济金额 国家支出 集体供给 (三)城乡各种福利院支出 国家支出 集体供给 合计
单位:亿元
1998
68.0 32.4 35.6 29.8 7.0 22.8 20.2 10.3 9.9 118.0
1999
第三章 社会统计资料的整理
原始资料杂乱无章,需加整理,才能为人所用。统计资料的整 理,其基础是统计分组。 所谓统计分组.就是按统计研究的目的和要求,将总体单位或 全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而 组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以 便为在统计分析中提炼各种有用信息打下基础。 统计分组的原则与标准
第二节 统计表
100名男性青年的身高表
统计调查搜 集来的资料往往 是没有次序的原 始资料(参见右表 ),使原始资料有 序化,列表和作 图是两种基本方 法,得到的分别 就是统计表和统 计图。
单位:厘米
166 181 173 171 168 164 178 167 156 194 169 175 183 168 165 180 170 172 167 175 173 169 174 172 171 169 173 184 173 169 170 181 185 168 174 187 167 174 169 165
主要内容
统计表 变量数列的编制 统计图
第一节 统计分组的原则与标准
统计分组的原则
1.分组应使各类别构成之和等于总体
“穷举 “互斥 ” ” 穷举,分组穷尽总体的全部单位; 互斥,分组界限使每一数据只归属一组。 2.分组设计应能反映统计总体的分布规律性
统计分组主要是为了能很好地反映统计总体的构成状况, 即反映总体中各单位的分布特征。分组设计要适应这一要求, 必须在分组后使总体单位总数在各组的分配情况能够反映总体 的分布规律性。
离散变量所描述的对象的数量特征,可以按一定次 序列出它的整数值,相邻两变量值不会出现小数,因而 能编制出单项式和组距式两种变量数列。 单项数列 组距数列
组距(hi) =上限(ui) ―下限(li)
li ui 组中值( mi) = 2