统计学第三章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复合分组就是对同一总体选择两个或两个以上标志 层叠起来进行的分 组。
统计分组的种类与方法
统计分组的方法: 统计分组的关键——选择适当的标志 根据研究目的; 选择反映现象本质特征的; 考虑现象和历史条件变化 分组的种类:按分组标志的性质不同:品质分组和数量分组
品质分组就是按照说明总体单位属性特征的品质标志进行分组 数量分组就是按照说明总体单位数量特征的数量标志进行分组
我一眼就看出 来了,销售量 在170~180 之间的天数最 多!
频 数
30 25
直方图下的面 积之和等于1
(天) 20 15
10
5
140 150 160 170 180 190 200 210 220 230 240
某电脑公司销售量分布的直方图
第二节 统计分组
概念:统计分组就是根据统计研究的目的,按照某个或某几个重要标志 将总体划分为若干性质不同的部分或组的一种统计方法。 分——突出组与组的差异性,将性质不同的总体单位分配到不同组 组——突出组内的同质性,将性质相同的总体单位归并到同一组里 遵循两个原则:
次数密度 各组次数 各组组距 频数密度 各组频率 各组组距
次数Hale Waihona Puke Baidu度
3.4 5.6 8 14 6.5 2 --
工人按年龄分组
15~20 20~25 25~30 30~35 35~45 45~50 合计
组距 人数(人)
5 5 5 5 10 5 -17 28 40 70 65 10 230
标准组距人数
较小制累计
人数 2 9 20 32 40 -比率% 5.0 22.5 50.0 80.0 100.0 --
比率 人数 (频率) % 2 7 11 12 8 40 5.0 17.5 27.5 30.0 20.0 100.0
较大制累计
人数 40 38 31 20 8 -比率% 100.0 95 77.5 50.0 20.0 --
组距数列
3.
确定组数和组距
组距 全距 组数
组距i 全距R 1 3.322l g n
4.确定组限和组限的表示方法 5.等距分组和异距分组 6.组中值与开口组 7.汇总各组的次数,并计算各组的频率
组限的表示方法
1. 2.
3.
4.
最小一组的下限要低于最小的变量值,最大一组的上限要高于最 大的变量值。 组限的确定应有利于显示总体次数分布的规律性。 组限的表示应是组距的整倍数。 离散型变量和连续型变量组限的表示方法不一样 连续型变量不可能一一列举, 相另组的上、下限不可能用两 个确定的数值表示,通常用一 个数值作为相另组的上、下限: 例如,粮食亩产量分组:
按数量标志分组的组限应是决定事物性质的数量界限。 组限的确定:
间断组距式分组:相邻两组的上、下组限的取值是间断的。(离散变量) 连续组距式分组:相邻两组的上、下组限的取值是连续的。(连续变量)
5.
组中值:各组变量范围的中间数值,反映各组变量值的一般水平。
1.
组中值=(上限+下限)/2
6.
单项数列
单项数列是总体按单项式分组而形成的变量数列。 一个变量值为一个组,按大小顺序排列,在组数不多和组值变动 幅度不大时采用。 例如, 某厂第二季度工人平均日产量
工人平均日产量(件) 2 3 4 工人数
绝对数
10 15 30
比重(%)
8.7 13.0 26.1
5
6 合计
变量
40
20 115
按所有制 形式分组 (甲) 国有经济 集体经济 企 业 数 工人 人数
性别
男 女 1年以下 (5) 1-3年 (6)
工龄
3-5年 (7) 5-10年 (8) 10年以上 (9)
(1) (2) (3)(4)
是统计工作必不可少的中间环节。 实现从个体单位标志值过渡到总体数量特征值的必经阶段。 统计资料整理的质量如何,会直接影响统计分析的效果。 统计整理方案 统计资料审核 统计资料的分组和汇总 编制统计图表 统计资料的积累和保管
内容(程序):
案例
分配数列(频数分布)
分组数据的图示
(直方图的绘制)
统计数据
的整理与显示
刘锦雯
第一节 统计数据整理的概念与步骤
第二节 统计分组
第三节 分配数列 第四节 统计数据的显示
第一节 统计整理
概念:统计整理,就是根据统计研究的目的,对调查所 搜集到的原始资料进行科学加工,使之系统化、条理化, 以得出反映事物总体综合特征的资料的工作过程。 作用:
统计表的结构
2007年全国国民生产总值
国民生产总值 项目 产值(亿元) 第一产业
横行标题 (横标目) 总标题
纵栏标题 (纵标目)
比重(%) 11.7 49.2
数字资料
28910 121381 96328 246619
宾词
第二产业 第三产业 合计
主词
39.1 100.0
统计表的种类
简单表举例
1.
2.
17 28 40 70 32.5 10 --
案例
•
• • •
•
某班40名学生考试成绩为: 89 88 76 99 74 60 82 60 89 86 93 99 94 82 77 79 97 78 95 92 87 84 79 65 98 67 59 72 84 85 56 81 77 73 65 66 83 63 79 70 将上述资料按数值大小排列为: 56 59 60 60 63 65 65 66 67 70 72 73 74 76 77 77 78 79 79 79 81 82 82 83 84 84 85 86 87 88 89 89 92 93 94 95 97 98 99 99 经初步整理可看出,资料的最小值为56,最大值为99,全距=99-56=43. 本例变量为连续型,应取标志值变动的一个区间作为一组,应采用组 距数列。 学生成绩的数量特征分为:优、良、中、及格、不及格,为将本班成 绩分布的数量特征反映出来,应该分为五个组, 全距R 43 组距i 8.6 10 这时, 组数K 5
品质数列 分配数列 变量数列
组距数列 单项数列 等距数列
异距数列
品质数列
•
品质数列是按品质标志分组形成的分配数列 例如,我国第五次人口普查人口文化程度构成情况 单位:人 按文化程度分组 绝对数人数 比重(%) 大专及以上 高中和中专 初中 小学 文盲 合计 4571 14109 42989 47334 8950 112953 3.88 11.96 36.45 40.13 7.58 100.0
比重(%)
16.7 22.2 33.3 16.7 11.1
90以下 90--100 100--110 110--120 120以上
组距为 10
125
合计
变量值
180
次数
100.0
频率
变量数列的编制
1. 2.
将原始资料从大到小排列起来 确定变量数列的形式:是采用单项数列?组距数列? 根据变量的类型和变动的幅度来定: 变量的类型 变动的幅度 离散型变量 个数少,变动幅度不大 单项数列 个数多,变动幅度大 连续型变量
•学生成绩这种现象60分是一个数量界限,并可用70、80、90分分别表示
中、良、优等,故应该用这些数值作为组限。 •学生成绩为连续型变量,应该用同一个数值分别作为相另两个组的上、 下限。
变量数列的表示方法1
1.
列表法
考分
50--60 60--70 70--80 80--90
学生成绩组距数列分组资料
分组的方法
品质分组的方法:可以将总体中的不同属性分开; 品质标志的复杂分组称为分类,形成分类目录。 数量分组的方法: 1) 单项式分组:即一个变量值代表一个组;适用于变异范围小的离散变量 2) 组距式分组:一组变量值代表一个组:适用于连续变量和变异范围大的 离散变量
统计分组的种类
品质分组 统计分组 数量分组
累计次数分布折线图
45 40 35 30 25 20 15 10 5 0 60 70 80 90 100 人数向上累计 人数向下累计
次数分布的主要类型
钟型分布
U型分布
J型分布
3.4 统计表
概念:将汇总整理后得出的一些系统化的统计资料, 按一定的顺序填列的表格。 作用: 1. 使大量的统计资料系统化、条理化,更清晰地表 述统计资料的内容。 2. 便于比较各项目(指标)之间的关系,便于计算。 3. 比文字叙述更紧凑、简明、醒目,一目了然。 4. 积累和保存统计资料的良好方式。
3.
简单表—主词未经任何 分组的统计表。 分组表—主词按照某一 标志进行了分组的统计 表。 复合表—主词按照两个 或两个以上标志进行复 合分组的统计表。
某年某地区棉纺公司所属棉纺织厂总产值资料 企业名称 第一棉纺织厂 第二棉纺织厂 第三棉纺织厂 第四棉纺织厂 合计 总产值(万元) 6000 7000 5500 4500 23000
复合表举例
某年某地区工业企业净产值和职工人数
项目 大 国有 中 小 大 集体 中 净产值(万元) 9750 8600 4200 7300 5200 职工人数(人) 13800 45000 10050 7500 10400
小 合计
4400 39450
4500 91250
宾词指标的设计1
简单设计 案例: 某地区工业企业的工人性别和工龄
离散型变量可以用相另两个变量值 作为两个相另组的上、下限: 例如,职工人数分组 100人以上 100—499 500—999 1000人以上
400斤以下
400—800 800—1000
1000斤以上
异距数列
各组组距不全相等的组距数列,叫异距数列。例如,
人口按年龄分组 1岁以下(婴儿组) 1~7岁(幼儿组) 7~17岁(学龄儿童组) 17~55岁(有劳动能力的人口组) 55岁以上(老年组) 合 计 人口数(万人) 1 6 12 24.6 8.1 51.7
应用:1、当现象的分布存在明显的偏斜状况时采用;
2、有些社会现象的标志变异范围较大,其变量若按一 定比例变化发展的话,可按等比间隔编制异距数列。
标准组距次数和次数密度
标准组距次数:以数列中最小组组距为标准组距,将不等组距 次数换算为统一的标准组距次数。 次数密度或频数密度:是单位组距的次数或密度。其公式为:
穷尽性原则——不漏,使总体每一个单位都有“组”可归; 互斥性原则——不重,使总体任一个单位只能归属于某一个组
作用: 划分社会经济现象的类型 研究事物的内部结构 分析现象间的依存关系 统计分组的种类 按分组标志的多少:简单分组和复合分组 简单分组又称单一分组,就是对被研究现象总体只按一个标志进行的分 组。其特点是只能反映现象在某一个标志特征方面的差异情况,而不能 反映现象在其他标志特征方面的差异,说明问题比较简单明了。
90--100 合计
累计次数--—截至某一组累积起来的总次数。分为较小制累计和较大制累计。
较小制累计—-从最小一组的次数起逐项累计,表示小于该组上限的次数共有多少。
较大制累计—-从最大一组的次数起逐项累计,表示大于该组下限的次数共有多少。
变量数列的表示方法2
12 10 8 6 4 2 0 50-60 60-70 70-80 80-90 90-100
单项分组
组距分组 等距分组 异距分组
统计分组中的几个基本概念
1. 2. 3. 4.
全距:整个数列中变量值的最大差异。 全距=数列的最大值-最小值 组距:每一组上、下组限之间的距离。 组距=上限-下限 组数:分组的个数。 组数=全距/组距 K=1+3.3lgN 组限:组距两端的变量值,其中一组中的最大值称为上限,一组的 最小值称为下限。
开口组:在组距分组中,缺少下限或上限的组被称为开口组。
缺上限的开口组组中值=下限+(邻组组距)/2 缺下限的开口组组中值=上限--(邻组组距)/2
3.3分配数列及其种类
概念:在统计分组的基础上,将总体的所有单位按组 归类整理,并按一定的顺序排列,形成总体单位在各 组之间的分布,称之为频数分布、次数分布或分配数 列。 构成:分配数列是由分组标志序列和各组相对应的分 布次数两个要素构成。 种类:
次数
34.8
17.4 100.0
频率
组距数列
组距数列是总体按组距式分组而形成的变量数列 每个组是由若干个(一组)变量值形成的区间表示, 在变量值个数较多、变动幅度较大时采用。 某工厂工人完成生产定额情况表
例如,
工人按完成生产定 额分组(%)
开 口 组
组中值
上限
工人数
绝对数
85 95 105 115 30 40 60 30 20