第三章社会统计资料的整理
第三章社会统计资料的整理
本例视研究对象本身的特点和研究的目的,按组距为10,定组数为5。按经验的看法,组数过多过少都不妥,一般情况下可分为5~7组,组数尽可能取奇数,避免偶数。
(二)等距分组和异距分组 组距数列根据组距是否相等,分为等距数列和异距数列两种。等距数列中各组组距都是相等的(如表1所示);异距数列中每组的组距是不全相等的(如表2所示)。
分配数列是统计分组的一种重要形式,它可以反映总体的结构分布状况和分布特征,这对于统计分析是很重要的。根据分组标志的不同,分配数列可分为两种:品质分配数列(简称品质数列);变量分配数列(简称变量数列)。 按品质标志分组形成为品质数列。品质数列由各组名称和次数组成。各组次数可以用绝对数表示,即频数;也可以用相对数表示,即频率。见表3-3。
由此可见,变量数列也是由各组名称(由变量值表示)和次数(或频率)组成。频率大小表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率大小。变量的具体数值即变量值通常用符号x表示;各组单位数即次数或频数(其相对形式即频率)通常用符号f表示。变量数列的编制,特别是其中组距数列的编制是比较复杂的,下面就组距数列的编制方法专门加以研究。
等距数列适用于标志变异比较均匀的现象,或者说,各组性质差异是由变量值均匀增加或减少而引起的。例如,学生成绩60分以上者,每增加10分就进入高一级档次。人口按身长、体重的分组等,一般均采用等距数列。
2、异距数列。异距数列各组次数的数值受组距不同的影响。在研究各组次数实际分布时,要消除组距不同的影响,这就要将不等组距的次数换算成标准组距次数。可以数列中最小组组距为标准组距,将不等组距次数换算为统一的标准组距次数,并以此绘制图形,或者是在原数列基础上先计算次数密度或频率密度,其公式为: 次数密度=各组次数/各组组距 频率密度=各组频率/各组组距 以上两种方法实质上是一样的。
第3章 统计整理
(2)必须选择最主要的标志作为分组依据;
例3:根据统计调查资料来研究人民生活水平变动情况时, 可供选择的分组标志有家庭人口数、每户就业人数、每 一就业者负担人数、家庭总收入、平均每人每月生活费 收入等,其中最能反映人民生活水平变动的标志是:平 均每人每月生活费收入,应选择这一标志作为分组标志。
练习:企业按净产值分组为:单位(万元) 10以下 10-20 20-30 计算首组和末组的组中值。 30-40 40-70 70以上 首组组中值=10-10/2=5(万元) 末组组中值=70+30/2=85(万元)
第四节
统计汇总
一、统计汇总:即在统计分组的基础上,将统计资料
归并到各组中去,并计算各组和总体的合计数(包 括单位总数和标志总量)的工作过程。
例如:对全国的工业企业进行
简单分组: 按所有制类型分:全民所有制企业、集体所有制企业 按轻重工业分:重工业、轻工业 按企业规模大小分:大型企业、中型企业、小型企业
复合分组:
重工业 全民所有制 轻工业 集体所有制
大型企业 中型企业 小型企业
重工业
轻工业
3、按分组标志的性质分为品质分组和数量分 组。
N 15-24 25-44 45-89 90-179 n 5 6 7 8
180-359 9
360-719 10
适用条件:
1.近似正态分布 2.现象特性适合等距分组
组
限
组限:指每组两端数值。分为上限和下限。 上限:每组的终点数值(最大值)。 下限:每组的起点数值(最小值)。 组限的形式:与变量的特点有关,重合式和不重合式。
第一节 统计整理的意义和程序
一、统计整理的意义 二、统计整理的程序
第三章 统计资料整理
2.分组表: 2.分组表:主词按一个标志分组的统计表. 分组表
复合表: 3. 复合表:主词按两个或两个以上标志复合 分组的统计表. 分组的统计表.
四,统计表的编制原则
应遵循科学,实用,简明,美观的原则. 应遵循科学,实用,简明,美观的原则. 统计表的各种标题要简明扼要; 1.统计表的各种标题要简明扼要; 要合理安排统计表的结构; 2.要合理安排统计表的结构; 数据计量单位相同时,可放在表的右上角标明, 3. 数据计量单位相同时 , 可放在表的右上角标明 , 不同 时应放在每个指标后或单列出一列标明; 时应放在每个指标后或单列出一列标明; 表中的上下两条横线一般用粗线,其他线用细线; 4.表中的上下两条横线一般用粗线,其他线用细线; 5.统计表的栏数较多时,通常要加以编号; 统计表的栏数较多时,通常要加以编号; 通常情况下,统计表的左右两边不封口; 6.通常情况下,统计表的左右两边不封口; 表中的数字应该填写整齐,对准位数; 7.表中的数字应该填写整齐,对准位数; 对于没有数字的表格单元,一般用" 表示; 8.对于没有数字的表格单元,一般用"—"表示; 表中主词各行和宾词各栏, 9. 表中主词各行和宾词各栏 , 应按先局部后整体的原则 排列; 排列; 10.必要时可在表的下方加上注释. 10.必要时可在表的下方加上注释.
�
编制
四,次数分布的主要类型 钟型分布——"两头小,中间大" 两头小,中间大" 钟型分布 两头小
对称分布
右偏分布
左偏分布
两头大, U型分布——"两头大,中间小" 型分布 两头大 中间小"
U型分布
一边小, J型分布——"一边小,一边大" 型分布 一边小 一边大"
社会统计资料的整理
第三章社会统计资料的整理原始资料杂乱无章,需加整理,才能为人所用。
统计资料的整理,其基础是统计分组。
所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。
第一节统计分组的原则与标准统计分组的标志分为数量标志和品质标志两大类。
按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。
在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。
频数分布数列是统计分组工作的产物。
显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。
统计分组的关键在于选择分组标志和划分各组界限。
一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。
按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。
如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。
在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。
因此,如何编制变量数列是我们重点需要掌握的。
第二节统计表统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。
变量数列是统计表的一种常用形式。
1.统计表的格式、内容与种类统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。
统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。
统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。
社会统计资料的整理练习题
第三章社会统计资料的整理一、填空1.统计表从内容上看,是由()和宾词两部分构成的。
2.主词是统计表要说明的();宾词是用来说明主词的()。
3.统计表通常有一定格式,统计表各部位的名称分别是()、横行标题、纵栏标题、()。
4.统计分组的关键在于()和划分各组界限,统计分组法是统计资料________阶段的基本方法。
5.统计表按主词的分组情况,可分为简单表、简单分组表和()。
6、变量数列中各组标志值出现的次数称________,各组单位数占单位总数的比重称________。
7. 各组频数与组距之比称为__________,频数分配数列按照数量标志分组可以得到__________ 。
8.将全部变量值依次划分为若干个区间,并将每一区间的变量值作为一组,这样的分组方法称为________分组。
9. 变量数列有两个构成要素()和()。
对于连续变量,恰是某一组限的数据应按照____的原则归入相应的组别。
10.若采用异距分组,_______反映单位组距内分布的频数。
2.在频数分布图中,()标示为曲线的最高点所对应的变量值。
11.绘制直方图时,对于___变量和定序变量的分组,矩形的宽度是没有意义的。
6.u型曲线的特征是_______。
12.实际收入分配情况则由洛仑兹曲线表示,一般表现为一条下凹的弧线,下凹程度愈大,收入分配(),反之,则收入分配()。
13.基尼系数为(),表示收入绝对不平均;基尼系数为(),表示收入绝对平均。
二、单项选择题1.统计整理所涉及的资料是( C )。
A.原始资料B.次级资料C.原始资料和次级资料D.统计分析后的资料2. 单项数列分组通常只适用于( ) 的情况。
A.离散变量且变量值较多B.连续变量,但范围较大C.离散变量且变量值较少D.连续变量,但范围较小4.以一、二、三等品来衡量产品质地的优劣,那么该产品等级是()。
A. 品质标志B. 数量标志C. 质量指标D. 数量指标7. (B )的数列属于连续型变量数列。
第三章 统计整理(第3、4节)
2.组距数列的编制
组距数列:指每个组的变量值用一个区间来表现的变量数列。
编制条件:
变量是连续变量; 或:总体单位数较多变量不同取值个数也较多的离散变量。 编制步骤:
(1)将变量按由小到大的顺序排列,以看出变量值变动的范围大小 ,并确定全距。 全距=最大变量值-最小变量值
@2012 SIE Management Engineer System
5
第三章 统计整理
二、分类数列的种类
(一)品质数列
根据品质标志分组形成的分配数列叫品质分配数列,简称品质数列。
(二)变量数列
根据数量标志分组形成的分配数列称为变量分配数列,简称变量数列 。
@2012 SIE Management Engineer System
6
第三章 统计整理
三、变量数列的种类
13
第三章 统计整理
(2)确定组距和组数。 等距数列:变量值变动区间的长度相等。 异距数列:变量值变动区间的长度不完全相等。
确定组距的原则:
要能区分各组的性质差异 要能反映总体资料的分布特征 为方便计算,尽可能为5或10的整数倍 (3)确定组限及组限的表式方法。 (4)计算频数,编制变量数列。
日产量/件 20 21 22 23 24 25 26 合计 工人数/人 3 5 6 4 3 2 1 24 比重/% 12.5 20.8 25.0 16.7 12.5 8.3 4.2 100.0
@2012 SIE Management Engineer System
12
第三章 统计整理
100以下
第三章--统计整理-幻灯片(1)
如某班学生按年龄分组:17岁,18岁,19岁, 20岁, 21岁,22岁。
组距式分组
将作为分组依据的数量标志的整个取 值范围依次划分为若干个满足互斥性
和包容性的区间,用这些数值区间作
为组的名称。
某班学生统计 学原理成绩分 组
60分以下 60—70分 70—80分 80—90分 90分以上
组距式分组中的一些概念 《统计学原理》第三章 统计整理
对教师 的分类
按性别分类
男性 女性
高级 按职称分类 中级 共计7组
初级 2+3+2
青年 按年龄分类
中年
复合分组体系
对教师 的分类
按性别 分类
按职称 分类
按年龄 分类
《统计学原理》第三章 统计整理
共计12组 男 2×3×2
女 高级
中级
初级 青年 中年
《统计学原理》第三章 统计整理
统计资料的再分组
• 统计资料的再分组就是把统计分 组资料按某种要求,重新划定各 组界限,再将资料中的单位数或 比重分布重新做出调整。
对总体单位而言,是“合”,即将性质相同的 个体组合起来,在同一组内则保持着相同的性 质。
分组
《统计学原理》第三章 统计整理
25%
33%
分组前
分组后
42%
作用:1·区分事物的性质
例:按所有制性质划分,我国现有8种经济类型:
国有经济;集体经济;私营经济;个体经济 联营经济;股份制经济;外商投资经济;港 澳台投资经济
将统计调查得到的原始资料进行科
统计整理 学的分类和汇总,使之成为系统化、
条理化的综合资料,以反映研究总 体的特征。
地位 是统计调查的继续,统计分析的前提 和基础,起着承前启后的作用。
第三章统计整理
20.27%
68.70% 11.03%
16.60%
70.14% 13.26%
工厂按产量分组
Â Ý Ô · 1 2 3 4 5 6 Ï Æ º ¼
ú ¿ ¨Ô ² Á £ ª þ © ¼ £ x
2 3 4 3 4 5 21
¥ » É ± µ Î ³ ¾ ¨Ô £ y £ ª © 73 72 71 73 69 68 426
•向下累计是将各组频数和频率由变量值大的组 向变量值小的组累计(是各组下限以上的累计频 数或累计频率)
向下累计 生活费 250 275 300 325 350 375 合计 频数 10 8 12 9 5 6 50 累计频数 50 40 32 20 11 6 累计频率 100% 80% 64% 40% 22% 12%
2. 统计表的内容构成:主词部分和宾词部分。
注:统计表的构成和内容构成见表3-2
总标题
表3-2
按考试成绩分组 (分)
某班统计学原理考试成绩分布表
频数 组中值 学生数 (人) 比重 (%) 向上累计 学生数 (人) 比重 (%) 向下累计 学生数 (人) 比重 (%)
纵 栏 标 题
90以上 80-90 横 行 标 题 70-80 60-70 60以下 合计
大型企业 中型企业 小型企业 大型企业 中型企业 小型企业 重工业
轻工业
按分组标志的性质分
学生按性别分组
男 女
学生按民族分组
学生按考试成绩分组
90分以上 80-90 70-80 60-70 60 分以下 19岁及以下 20岁 21岁 22岁 23岁 24岁及以上
汉族 回族 苗族 土家族 羌族 壮族 . . .
第三章统计数据的整理与显示
统计整理方案 1、 确定汇总的统计指标和
综合表; 2、 确定分组方法; 3、 确定汇总资料的形式; 4、 确定资料的审查内容和
审查方法。
第三章 统计数据整理与显示
§2 统计分组 一、统计分组意义和作用 1、概念:它是根据统计研究的需要,将
统计总体按照一定的标志分成若干 个不同的组别。 对总体而言是“分”,对个体而言是“合”。 2、统计分组的原则
第三章 统计数据的整理 与显示
➢ 数量分组的方法 ➢ 分配数列的编制
§1 统计数据整理
一、统计整理的意义和内容 统计整理在统计工作中处于中间阶段,
起着承前启后的作用。通过数据整理,可 以使混乱、缺乏条理性的资料变成有条理 性、在某种程度上能够说明总体特征的有 用的资料。
它是根据统计研究的任务,对调查阶 段所搜集到的大量的原始资料进行加工汇 总,使其系统化、条理化、科学化,以反 映总体综合特征的资料的工作过程。
试将工人分成5组
其基本步骤为: 第一步:将原始资料按数值大小依次排列。 全距(Range)=最大变量值—最小变量值。
=576-432=144
第二步:确定变量的类型和分组方法(单 变量分组或组距分组)。
第三步:确定组数和组距(interval)。当 组数确定后,组距可计算得到: 组距=全距/组数
原则: 应将总体单位分别的特点显示出来 要考虑到原始资料的集中程度 要考虑到所研究对象的实际情况,考
例:重庆市按GDP计算的三次产业结构(%)
1980年
GDP
100
第一产业 38.4
第二产业 44.6
第三产业 17
1990年 100 33.4 39.7 26.9
2000年 100 17.8 41.4 40.8
第三章 统计资料整理
31
简单表案例
某年某公司所属两企业自行车合格品数量表
厂别 甲厂 乙厂 合 计 合格品数量(辆) 5000 7000 12000
32
简单分组表案例
2005年某月某公司各企业劳动生产率统计表 分组 总产值 (万元) 职工人 数(人) 劳动生产率 (元/人)
大型
中型 小型 合计
33
复合分组表案例
某年某地区工业增加值和职工人数
26
第三步:确定组限和组中值。以区分事物质的差别。
对于离散变量,相邻组组限可以间断,也
可重叠;
对于连续变量,相邻组组限必须重叠; 符合“上组限不计入”原则; 首末两组可使用“××以下”及“××以
上”的开口组。
27
第四步:归类汇总,计算各组次数。
本着“不重复,不遗漏”的原则,按照各个总体单位的具体 标志值,将其划归某一具体组之中。 对于重叠设置的组距数列,要本着“上限不在内”的原则。
19
某地区人口分布状况
人口按年龄分组 1岁以下(婴儿组) 1-7岁(幼儿组) 7-17岁(学龄儿童组) 17-55岁(有劳动能力的人口组) 55岁以上(老年组) 合计
人口数(万人) 1 6 12 24.6 8.1 51.7
20
对于异距数列,为了消除各组组距大小对次数分布的影响,
需计算
次数密度=该组次数/该组组距
14-16
16-18 18-20
16
12 5
540
620 680
8
三、统计分组的种类和分组标志的选择
(一)统计分组的种类 1、按标志的性质不同分为:品质标志分组和数量标志分组: 2、按选择标志的多少不同,可分为: 简单分组:对统计总体仅按一个标志进行分组。特点:只能 反映现象在某一标志特征方面的差异情况,说明的问题比较 简单明了。 复合分组:对同一总体采用两个或两个以上的标志重叠起来 进行分组。特点:可从几个不同角度了解总体内部的差别和 关系,因此能更全面、更深入地研究问题;复合分组的组数 随着分组标志的增加而成倍地增加。
统计学第三章 统计数据的整理
汇总技术:
有传统手工汇总和现代电子计算机汇总两种技术。
(1)手工汇总。常用的汇总方式有四种: • 划记法。划“正”字符号计数,多用于对总体单位数或次数的简单汇总。
• 过录法。将原始资料分类过录到事先设计的汇总简表中,可用于对内容项 目较多的资料的汇总。
• 折叠法。将每张调查表中需要汇总的同类项目及数据折压一个印记,一张 一张的重叠在一起,再进行汇总。这种方法一次只能选择一个项目及其数 据进行汇总,故适用于数据较少的资料。
• 卡片法。将需要汇总的项目数据分类登记在卡片上,再汇总计算。这种方 法适用于总体单位数多、且多采用复合分组形式的事物,特别是设备、器 材类的实物资产的汇总。
(2)电子计算机汇总。其数据处理程序如下: • 第一步,编程。使用计算机语言编写出一套完整的数据处理程序。
• 第二步,数据录入。计算机自动按程序进行数据处理,并将数据处理结果 存储在磁盘、磁带等磁介质中。
树茎
数叶
数据 个数
10 7 8 8
3
11 0 2 2 3 4 5 7 7 7 8 8 8 9
13
向上累 计个数
3
16
12 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9
24
40
13 0 1 3 3 4 4 5 7 9 9
10
50
14 0 0 1 3
16284
22.3
第三产业
20228
27.7
合计
73025
100.0
3、变量数列的编制
成绩 (分)
某班学生《统计学》考试成绩分布表
学生人数 频率 (人) (%)
向上累计
人
3管理统计学-统计整理
3
6
110~114
5
10
115~119
8
16
120~124
14
28
125~129
10
20
130~134
6
12
135~139
4
8
合计
50
100
等距分组表
(使用开口组)
表3-7 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
频率(%)
110以下
3
6
110~114
5
10
115~119
8
16
120~124
——
第四节 统计表
统计表的作用
(1) (2)比用叙述的方式表现统计资料更简明易懂, (3)便于比较各项目之间的关系, (4)便于检查统计数字的完整性和正确性。
均能且只能归 到某个组中。
统计分组的方法
分组标志的选择
关键:服从研究任务需要,反映总体本质特征 (1)要根据研究目的选择
(2)要反映现象的本质特征 (3)要因时、因地制宜
统计 分组 方法
按品质标志分组
按数量标志分组 按主要标志和 辅助标志分组
统计分组体系
分组体系指同时使用两个以上 标志分组时,分组标志的组合形式。 具体形式有:平行分组体系和交叉 分组体系。
金牌数 占总数比例
5枚
5枚 4枚 4枚 3枚 3枚 2枚 1枚 1枚
频率 f /∑f
0.1786
0.1786 0.1429 0.1429 0.1071 0.1071 0.0714 0.0357 0.0357
变量数列的编制
频数分布表的编制步骤 (一)排序
(完整版)第3章统计整理
第三章统计整理学习要求:明确统计整理在统计研究中承前起后的地位;掌握分组的方法和汇总技术;认识统计分布是统计整理的重要表现形式;学会统计表的编制并能熟练地运用。
§1 统计整理的意义和方法一、统计整理的意义统计整理是指根据统计研究任务的要求,对调查所搜索的原始资料进行分组、汇总,使其条理化、系统化的工作过程。
统计整理实现了从个别单位的标志值向说明总体数量特征的指标值过渡,是人们对社会经济现象从感性认识上升到理性认识的过渡阶段,为统计分析提供基础。
二、统计整理的方法:1、统计分组就是根据整理的目的要求,按照规定的标志进行区分若干组成部分的一种统计方法。
(科学的分组是搞好统计整理的前提条件)2、汇总是对分组后的各项指标进行汇总,并计算各组的单位数和合计数,计算出说明总体和各组情况的统计指标数值。
汇总是统计整理的中心内容汇总技术:①手工汇总:划记法、过录法、折叠法、卡片法。
②电子计算机汇总。
3、编表:经过汇总,得出表明社会现象总体和各个组的单位数和一系列标志总量的资料,把这些资料按一定的规则在表格上表现出来。
§2 统计分组一、统计分组的意义:统计分组的含义:指根据统计研究任务的要求和现象总体的内在特点,把统计总体按照某一标志划分为若干性质不同而又联系的几个部分。
统计分组是在总体内部进行的一种定性分类。
①对总体而言是“分”,即将总体区分为性质相异的若干组成部分。
②对个体而言是“合”,即将性质相同的个体组合起来。
(统计分组的关键是分组标志的选择)二、统计分组的种类1、按统计分组任务和作用不同分:类型分组:划分社会经济类型;结构分组:研究同类总体的结构;分析分组:分析被研究现象总体诸标志之间的联系和依存关系。
类型分组、结构分组:现象总体按品质标志分组,多属类型分组(例如工业生产按经济类型分-----国有、私营、集体);现象总体按数量标志分组,多属结构分组(例如企业按职工人数分------1000人以下、1000-5000人、5000人以上)。
《社会统计学》全书目录
《社会统计学》全书目录第一章导论第一节什么是社会统计学社会统计的产生与发展·社会统计学的对象与特点·社会统计的方法·社会统计工作的程序第二节社会统计学的几个基本概念总体与单位·标志与变量·指标与指标体系第二章社会统计资料的搜集第一节统计调查的方法及种类原始资料与次级资料·静态资料与静态资料·全面调查与非全面调查·一般调查与专项调查·经常性调查与一次性调查第二节统计调查的组织形式普查·重点调查·典型调查·抽样调查第三节概念的操作化与测量概念的操作化·定类尺度·定序尺度·定距尺度·定比尺度第四节统计误差登记性误差·代表性误差·抽样误差第三章社会统计资料的整理第一节统计分组的原则与标准“穷举”与“互斥”·频数(或次数)分布数列·品质数列与变量数列第二节统计表统计表的格式、内容与种类·统计表的制作规则第三节变量数列的编制对于离散变量·对于连续变量·组距和组数的确定·累计频数第四节统计图直方图·折线图·曲线图·累计顿数分布曲线·洛仑兹曲线与基尼系数第四章集中趋势测量法第一节算术平均数对于未分组资料的算术平均数计算·对于分组资料的算术平均数计算·算术平均数的性质第二节中位数对于未分组资料的中位数计算·对于分组资料的中位数计算·中位数的性质·其他分割法第三节众数对于未分组资料的众数计算·对于分组资料的众数计算·众数的性质第四节几何平均数、调和平均数及其他几何平均数·调和平均数·各种平均数的关系第五章离中趋势测量法第一节全距与四分位差全距·四分位差第二节平均差对于未分组资料A·D的计算·对于分组资料A·D的计算·平均差的性质第三节标准差对于未分组资科S的计算·对于分组资料S的计算·标准差的性质·标准分第四节相对离势变异系数·异众比率·偏态系数第六章概率与概率分布第一节概率论随机现象和随机事件·事件之间的关系·先验概率·经验概率第二节概率的数学性质概率的数学性质·排列与样本点的计数·运用概率方法进行统计推断的前提第三节概率分布、期望值与变异数离数型随机变量及其概率分布·连续型随机变量的概率分布·分布函数·数学期望·变异数第七章假设检验第一节二项分布二项分布的数学形式·二项分布的讨论第二节统计检验的基本步骤建立假设·求抽样分布·选择显著性水平和否定域·计算检验统计量·判定第三节正态分布正态分布的数学形式·标准正态分布·正态曲线下的面积·二项分布的正态近似法第四节中心极限定理抽样分布·中心极限定理第五节总体均值和成数的单样本检验σ已知,对总体均值的检验·学生t分布(小样本总体均值的检验)·关于总体成数的检验第八章常用统计分布第一节超几何分布超几何分布的数学形式·超几何分布的数学期望与方差·关于超几何分布的近似第二节泊松分布泊松分布的数学形式·泊松分布的性质·关于泊松分布的近似第三节卡方分布(2 分布)卡方分布的数学形式·卡方分布的性质·样本方差的抽样分布第四节F分布F分布数学形式·F分布的性质·关于F分布的近似第九章参数估计第一节点估计无偏性·一致性·有效性第二节区间估计精确性和可靠性·抽样平均误差与概率度·区间估计的步骤第三节其他类型的置信区间σ未知,小样本总体均值的区间估计·总体成数的估计·总体方差的区间估计第四节抽样平均误差简单随机抽祥的抽样误差·分层抽样的抽样误差·整群抽样的抽样误差·等距抽祥的抽样误差第五节样本容量的确定影响样本容量的因素·确定样本容量第十章双样本假设检验及区间估计第一节两总体大样本假设检验大样本均值差检验·大样本成数差检验第二节两总体小样本假设检验小样本均值差检验·小样本方差比检验第三节配对样本的假设检验单一实验组的假设检验·一实验组与一控制组的假设检验·对实验设计与相关检验的评论第四节双样本区间估计σ12和σ22已知,对均值差的区间估计·σ12和σ22未知,对均值差的区间估计·大样本成数区间估计·配对样本均值差的区间估计第十一章非参数检验第一节符号检验配对样本的“符号检验”·符号检验与二项检验·简便检验·“符号检验”的作用第二节配对符号秩检验配对样本的符号秩检验·配对符号秩检验的步骤·符号秩检验的效力第三节秩和检验独立样本的秩和检验·秩和·秩和检验的具体步骤·U检验第四节游程检验独立样本的游程检验·游程·游程检验的具体步骤·差符号游程检验第五节累计频数检验独立样本的累计频数检验·累计频数检验的步骤·没有预测方向和已经预测方向·经验分布与理论分布之比较第十二章相关与回归分析第一节变量之间的相互关系相关程度与方向·因果关系第二节定类变量的相关分析列联表·削减误差比例·λ系数·τ系数第三节定序变量的相关分析同序对、异序对、同分对·G amma系数·肯德尔等级相关系数·萨默斯(d系数)·斯皮尔曼等级相关系数·肯德尔和谐系数第四节定距变量的相关分析相关表和相关图·积差系数的导出和计算·积差系数的性质第五节回归分析线性回归·积差系数的PRE性质·相关指数R第六节曲线相关与回归第十三章2 检验与方差分析第一节拟合优度检验问题的导出·拟合优度检验(比率拟合检验)·正态拟合检验第二节无关联性检验独立性、理论频数及自由度·关于频数比较和连续性修正·列联表的卡方分解·关系强度的量度第三节方差分析总变差及其分解·关于自由度·关于检验统计量F o的计算·相关比率·关于方差分析的几点讨论第四节回归方程与相关系数的检验回归系数的检验·积差系数的检验·回归方程的区间估计第十四章动态分析与指数分析第一节时间数列及其指标分析时间数列的构成与分类·动态比较指标·动态平均指标第二节时间数列的趋势分析随手绘法·移动平均法·半数平均法·最小平方法第三节指数分析法动态指数及其分类·质量指标综合指数·数量指标综合指数·用与个体指数的联系来求综合指数·其他权数形式的质量和数量综合指数·指数体系和因素分析·静态指数。
第三章 统计整理
单项式分组:
工人平均日产量资料
工人平均日产量(件) 2 3 4 5 6 合计 工人数 绝对数 比重(%) 10 8.7 15 13.0 30 26.1 40 34.8 20 17.4 115 100.0 上一页 下一页
返回本节首页
组距式分组:
某工厂工人完成生产定额情况表 工人完成生产定额分组(%) 工人数 绝对数 比重(%) 80~90 30 16.7 90~100 40 22.2 100~110 60 33.3 110~120 30 16.7 120~130 20 11.1 合计 180 100.0
某班学生籍贯分布表 地区分 绝对数人数 安徽 30 非安徽 10 合计 40
比重(%) 75 25 100
第3章 统计整理
42
单项式数列:一个变量值代表一组。
工人生产情况表 产量(件) 工人数
第3章 统计整理 11
2、统计分组目的: 总体经过分组,能够突出组与组之间的 差异,抽象掉组内各单位之间的差异, 使数据变得条理化,便于进一步分析研 究。
上一页
下一页
返回本节首页
3、统计分组的原则
⑴穷尽性
就是使总体中的每一个单位都应有组可归, 或者说各分组的空间足以容纳总体所有的单位。 例如:从业人员按文化程度分组,分为小学 毕业、中学毕业(含中专)和大学毕业三组,那 么,文盲及识字不多的以及大学以上的学历者则 无组可归。如果将分组调整为:文盲及识字不多、 小学程度、中学程度、大学及大学以上,那么就 可以包括全部从业人员的各种不同层次的文化程 度,符合了分组的穷尽性原则。
位数。
频率(f/∑f):次数的相对数,各组次数占总
次数的比重。
上一页 下一页 返回本节首页
㈡统计分布(分配数列)的分类
第三章统计资料的整理
本章重点
1.分组的概念、特点和原则,分组的作用,能 熟练进行分组 2.频数分布的概念及其构成
3.组限的表现形式及原则、组距和组中值的计 算 4.统计表的含义及其构成,统计表的编制方法 和原则
本章难点
1.统计数据的预处理
?
2.统计分组的方法
3.频数分布的编制
4.组限的表现形式、组距和组中值的计算
第一节 统计整理概述
次数分布数列,或称分配数列。
频数分布的两个要素
1.组别:总体按某标志所分的组
2.频数(次数)和频率:各组的单位数叫频数,用
f 表示,各组的单位数与总体单位总数之比叫
频率,用 f 表示 。频率具有如下两个性质:
f
(1)各组频率都是界于0和1之间的一个分数。 即: f 0 1 f
(2)各组频率之和等于1 。即
(3)如果所发现的差错在其他单位也可能发生 时,应将错误情况通报所有单位,以免发生类 似错误。
(4)对于严重的错误,应发还重新填报,并查
明发生错误的原因,若属于违法行为,则应依
法严肃处理。
第二节
一、统计分组的概念
统计分组
根据社会经济现象的特点和统计研究的
目的要求,按照某个重要标志(或几个标志) 把总体划分为若干不同性质的组,称为统计 分组。
在下列情况下,就必须考虑采用异距分组:
第一,标志值分布很不均匀的场合。
第二,标志值相等的量具有不同意义的场合。
第三,标志值按一定比例发展变化的场合。
3.间断组距式分组和连续组距式分组
(1)间断组距式分组 :是指组限不相连
的分组。
(2)连续组距式分组 :凡是组限相连(或 重叠)的分组,即以同一数值作为相邻两组的 共同界限的分组。统计上规定 :“上限不在内”
统计资料的整理
第三章统计资料的整理教学目的与要求:本章是统计研究活动的第三阶段—统计资料整理阶段,阐述了统计整理的理论与方法,包括分组、汇总和统计表的设计。
重点要求为:1、明确统计资料整理的概念,了解统计整理的步骤。
2、通过学习统计分组理论,能够对不同的社会经济现象进行统计分组。
3、运用分配数列对原始数据进行系统整理。
4、掌握统计表的具体编配方法。
重点掌握:1、统计分组方法。
2、分配数列的编制与汇总教学方式:用多媒体课件讲练结合。
课时安排:理论4学时,实训4学时第一节统计整理的意义和步骤一、统计整理的意义1、定义统计整理,就是根据统计研究的目的,对所搜集到的资料进行科学的加工,使之系统化,条理化的工作过程。
统计整理即包括对统计调查所得到的原始资料进行整理,也包括对加工过的综合资料,即次级资料进行再整理。
2、意义统计整理在整个统计研究中占有重要的地位。
统计整理的正确与否,将直接影响和决定着能否完成整个统计研究的任务。
如果采用不科学不完整的整理方法,即使搜集到准确、全面的统计资料,也往往使这些资料失去应用价值,掩盖客观现象的本质,难以得出正确的结论。
因此,必须十分重视统计整理工作。
二、统计资料整理的步骤第一步,设计和制定统计整理方案。
第二步,对原始资料进行审核。
第三步,对经过审核的资料进行分组、并结合汇总,计算出总体总量指标。
第四步,将汇总计算的结果,以统计表或统计图的形式表现出来。
第五步,对统计资料妥善保存,系统积累。
第二节统计分组一、统计分组的概念统计分组就是根据统计研究的需要,将统计总体按照一定的标志分为若干个组成部分的一种统计方法。
例如,将某一班级的全体同学按照性别划分为男、女两个组;对某市100家大型零售商店按照零售额、职工人数进行分组等。
统计分组具有两个方面的含义:对总体而言,是“分”,即将同质总体区分为性质有别的不同组成部分;对总体单位而言,它是“组”,即将性质相同或相近的不同总体单位组合在一起,构成一个组。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编制组距数列必须要确定组距和组数。首先要找 出全部变量的最大值和最小值的距离(即全距), 以及大多数变量集中在什么范围内,然后才能据 以考虑组距和组数的问题,务必使分组的结果尽 可能反映出总体分布的特点。 组数的确定和组距有密切联系。组距大则组数少, 组距小则组数就多,两者成反比例的变化。在具 体确定组距时,应使组距能体现组内资料的同质 性和组与组资料的差异性。
二、数据资料的分组 按照一定的标志,把数字资料划分为不同的组成部分。 (一)分组的意义 1、可以找出总体内部各个部分之间的差异。 2、可以深入了解现象总体的内部结构。 3、可以显示现象之间的依存关系。
(二)分组的步骤步骤:选择分组标志、确定分组界限、编 制变量系列。 1、选择分组标志(分组的标准或依据) (1)品质标志—按性质和类别分组。如性别、质量优劣 等。 (2)数量标志—按事物的发展规模、水平、速度、比例 等数量特征分组。 (3)空间标志—按事物的地理位置、区域范围等空间分 组。 (4)时间分组—按事物的持续性和先后顺序分组。
现以某厂工人年龄分布情况为例,将这两 种方法的换算结果列成表3。
表3 某厂工人年龄分别情况
以上标准组距最后两组的人数为32.5与10, 实际上也就是次数密度乘以标准组距5的结 果。
异距数列常在以下场合运用:第一,有许多社会 经济现象的分布存在明显的偏斜状况,这时变量 不适合等距分组,必须采用异距分组。例如,人 口总体的年龄分布,考虑到80岁以上的高寿者在 总人口中所占比重极小,故分组时80岁以下可按 10岁组距分组,80岁以上的组距就应扩大。第二, 有些社会经济现象的标志变异范围较大,其变量 若按一定比例关系变化发展的话,可按等比间隔 分组编制异距数列。例如,钢铁厂高炉按容积 (立方米)的异距分组为100以下,100~200, 200~400,400~800,800~1600,1600 以上。显然,其组距间隔等比为2。
三、文字资料的汇编 汇编的目的指按调查目的和要求对分类后的资 料进行汇总和编辑,使之成为能反映调查对象客 观情况的系统、完整、集中和简明的材料。 1、汇编的方法 根据调查的目的、要求和调查对象的具体情况, 确定合理的逻辑结构,使汇编后的资料既能反映 调查对象总体的真实情况,又能说明调查所要说 明的问题。要对资料进行初步加工,如给各类资 料加上标题、符号,编上序号等。 2、汇编的要求 ( 1 )完整和系统 —可用的资料汇编后要分类编 在一起。 (2)简明和集中—尽可能于标志变异比较均匀的现象, 或者说,各组性质差异是由变量值均匀增 加或减少而引起的。例如,学生成绩60分 以上者,每增加10分就进入高一级档次。 人口按身长、体重的分组等,一般均采用 等距数列。
2、异距数列。异距数列各组次数的数值受组距 不同的影响。在研究各组次数实际分布时,要消 除组距不同的影响,这就要将不等组距的次数换 算成标准组距次数。可以数列中最小组组距为标 准组距,将不等组距次数换算为统一的标准组距 次数,并以此绘制图形,或者是在原数列基础上 先计算次数密度或频率密度,其公式为: 次数密度=各组次数/各组组距 频率密度=各组频率/各组组距 以上两种方法实质上是一样的。
统计分组是统计整理的第二步,它是按照统计研 究的目的,将数据分别列入不同的组内,在第二 章中,将数据分成四种计量尺度,即定类尺度、 定序尺度、定距尺度和定比尺度。其中,定类尺 度和定序尺度的数据是按照事物的性质和属性划 分的,因而又称为按品质标志分组;定距尺度和 定比尺度是按照事物的数量标准划分的,又称为 数量标志分组。 例:见教材第27页表3-1
(三)组限和组中值 1、组限。确定组距和组数之后,还有确定组限 的问题。组距两端的数值称组限。组距的上限、 下乡都齐全的叫闭口组;有上限缺下限,或有下 限缺上限的叫开口组。 确定组限要遵守一个基本原则,即按这样的组限 分组后,标志值在各组的变动能反映事物的质的 变化。也就是要使同质的单位在同一组内。这就 设计到组限的表示方法,下面介绍两种常用的表 示方法:
二、整理资料的原则 1、真实性原则—是整理资料的最根本要求; 2、准确性原则—描述事实要准确,特别是数据; 3、完整性原则—尽可能全面、如实的反映全貌; 4、统一性原则—调查对象要统一,调查指标及其操作 定义要统一,调查方法要统一,调查资料的计算方法、 计量单位要统一等等; 5、简明性原则 —资料尽可能简单、明确。该用文字说 明的用文字说明,该用表格的用表格,该用图表的用 图表。 6 、新颖性原则 — 要尽可能用新的观点、新的角度来审 视资料、组合资料。
表2 某地区的人口分布状况
1、等距数列。等距数列分组时,一般应依据总 体内部情况的定性分析来确定组数,然后用全距 除以组数,确定组距,并据以划分各组的界限。 设R为全距、K为组数、i为等组距 如上例,R=43,设K=5 则i=R/K=43/5=8.6 为方便计算,i宜取5或10的整数倍,故可令i= 10。根据考分现象可知,60分是必须划分及格与 不及格两种性质的数量界限,因此,可在60分以 上及以下均按10分的等组距进行分组。
由表3-3可看出,城镇人数比重小于乡村。 对于品质数列来讲,如果分组标志选择得 好,分组标准定得恰当,则事物的差异表 现得就比较明确。品质数列一般也比较稳 定,通常均能准确地反映总体的分布特征。
按数量标志分组形成为变量数列。按数量标志分 组时,可分为单项式和组距式两种,因此,变量 数列也分为单项数列和组距数列两种。(1)单 项数列是总体按单项式分组而形成得变量数列, 每个变量值是一个组,顺序排序,在组数不多和 组值变动幅度不大时采用。如表3-10。(2)组 距数列是总体按组距式分组而形成得变量数列, 每个组是由若干个变量值形成的区间表示,在变 量个数较多,变动幅度较大时采用。如表3-12 所示。
第三章 调查资料的整理方法
本章主要内容: 整理资料的意义、原则和步骤(重点) 文字资料整理的方法 数字资料整理的方法(重、难点) 统计表的统计图的种类与制作方法(重点)
第一节 整理资料概述
一、 整理资料的涵义和意义 1、涵义 指运用科学的方法,将调查的原始资料按调查目的进 行审核、汇总与初步加工,使之系统化和条理化,并 以集中、简明的方式反映调查对象总体情况的过程。 2、意义 第一,它是对调查资料的全面检查,是提高调查资 料质量及其使用价值的必要步骤。 第二,进一步分析研究资料的基础。 第三,积累保存资料的客观要求。 总之,整理资料是从调查阶段过渡到研究阶段、由感 性认识上升到理性认识的一个不可缺少的中间阶段。
第二节 文字资料的整理
文字资料一般包括:历史资料、汇报材料、总结报告、访 谈记录、观察记录、问卷答案等。 一、文字资料的审核 1、真实性审核。也称信度审核,就是看调查资料是不是真实 可靠。它包括文字资料本身的真实性审核及内容的可靠性审核。 文字资料本身的真实性审核,是指通过审查以判明调查所得的文 献资料、观察和访问记录等文字资料本身的真伪。一般可采用两 种方法,一是外观审查,即从作者、编者、出版者、版本、印刷 技术、纸张等外在情况来判断文献的真伪。二是内涵审查,即从 文献的内容,使用的词汇、概念,写作的技巧和风格等内在情况 来判断文献的真伪。 对文字资料内容的可靠性审查,是指通过审查判明文字资料的 内容是否真实地反映了调查对象的客观情况。一般可用以下方 法:经验法(找有经验的专家或实践丰富的调查人员实施)、逻 辑法(根据内在逻辑检验)、来源法(根据来源渠道判断)。 2、合格性审核。审核调查资料是否符合原设计要求。
分配数列是统计分组的一种重要形式,它可以反 映总体的结构分布状况和分布特征,这对于统计 分析是很重要的。根据分组标志的不同,分配数 列可分为两种:品质分配数列(简称品质数列); 变量分配数列(简称变量数列)。 按品质标志分组形成为品质数列。品质数列由各 组名称和次数组成。各组次数可以用绝对数表示, 即频数;也可以用相对数表示,即频率。见表3 -3。
选择分组标志的原则:从研究目的出发选 择分组标志;从能够反映被研究对象本质 的需要选择标志;应多角度地选择分组标 志;根据具体历史条件选择;坚持穷尽性 和互斥性原则。
第五节 数据资料的整理之三——分 配数列(变量数列的编制)
一、分配数列的概念和种类 在统计分组的基础上,将总体的所有单位 按组归类整理,并按一定顺序排列,形成 总体中各个单位在各组间的分布,称为次 数分配或分配数列。分布在各组的个体单 位数叫次数,又称频数;各组次数与总次 数之比叫比率,又称频率。
表1 某班学生统计学考试成绩表
本例视研究对象本身的特点和研究的目的, 按组距为10,定组数为5。按经验的看法, 组数过多过少都不妥,一般情况下可分为 5~7组,组数尽可能取奇数,避免偶数。
(二)等距分组和异距分组 组距数列根据组距是否相等,分为等距数 列和异距数列两种。等距数列中各组组距 都是相等的(如表1所示);异距数列中每 组的组距是不全相等的(如表2所示)。
二、文字资料的分类 分类就是根据资料的性质、内容或特征,将相异的资料区别开 来,将相同或相近的资料合为一类的过程。 1、方法:前分类法,即在设计调查提纲和表格时,就按照事物 和现象的类别设计调查指标,然后再按分类指标搜集资料、整理 资料。如有结构观察的卡片、标准化访问的记录等大多采取前分 类办法。 后分类法,即在调查资料搜集起来之后,再根据资料的性质、内 容或特征将它们分别集合成类。 2、分类的关键在于正确确定分类标准,要遵循以下原则:科学 性原则、客观性原则、穷举原则、相斥原则。 3、分类的意义: 它是认识社会现象的初步成果。 它是揭示事物内部结构的前提。 它是研究不同类别事物之间关系的基础。
由此可见,变量数列也是由各组名称(由 变量值表示)和次数(或频率)组成。频 率大小表明各组标志值对总体的相对作用 程度,也可以表明各组标志值出现的频率 大小。变量的具体数值即变量值通常用符 号x表示;各组单位数即次数或频数(其相 对形式即频率)通常用符号f表示。变量数 列的编制,特别是其中组距数列的编制是 比较复杂的,下面就组距数列的编制方法 专门加以研究。