第二章描述统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
四、定类、定序数据的图示—环形图
环形图中间有一个“空洞”,总体中的每一部分数
据用环中的一段表示 环形图与圆形图类似,但又有区别:圆形图只能显 示一个总体各部分所占的比例;环形图则可以同时 绘制多个总体的数据系列,每一个总体的数据系列 为一个环。环形图可用于进行比较研究 。环形图 可用于展示定类和定序的数据。
某高校专业教师学历统计表
学历 人数 累计频数 累计百分率
学士 硕士 博士
26 42 22
26 68 90
28.9 75.6 100.0
甲校学生家庭月收入
f 40 141 369 550 550 510 369 cf↑ 40 181 550 cf↓
收入(元) 1500-1899 1300-1499 500-1299 总数
1 2 3 4
第三节 定距数据的整理与显示
适用于简化品质数据的技术同样 适用于数值型数据 一、单变量值分组(要点)
1. 将一个变量值作为一组 2.பைடு நூலகம்适合于离散变量 3. 适合于变量值较少的情况 例1 统计某社区家庭户人口数分 布情况。
某社区家庭户人口数统计表
人口数(X)
2 3 4 5 6 7 8
100名学生的成绩分布
成绩 41-60 61-80 81-100 组中值 人数 20 50 30
合计
100
(三)组距分组的步骤
1. 确定组数:组数的确定应以能够显示数据的
分布特征和规律为目的。在实际分组时,可以 按 Sturges 提出的经验公式来确定组数: K=1+(lg n / lg2) 其中n为数据的个数(经验公式而已) 2. 确定各组的组距:组距是一个组的上限与下 限之差,可根据全部数据的最大值和最小值及 所分的组数来确定, 等距分组组距=(最大值 - 最小值)÷ 组数 3.根据分组整理成频数分布表
有了这一规定,就不会在编制连续变量的数列时 ,发生违背“穷举”与“互斥”这两个基本原则 的情况了。
(五)内插法求百分比等级
成绩 90-99 80-89 70-79 60—69 50—59 40—49 合计 频数 3 4 6 3 2 2 20 百分比 累计频数 15 20 20 17 30 13 15 7 10 4 10 2 100 累计百分比 100 85 65 35 20 10
合计
户数(f) 5 8 16 10 6 4 1 50
频率(P) 0.10 0.16 0.32 0.20 0.12 0.08 0.02 1.00
二、组距分组
根据统计研究的需要,将数据按照某种标准
重新划分为不同的组别。 例:把“居民储蓄调查数据(存款)”中的 存款数额(定距数据)按:1000元以下, 1001-3000,3001-6000,6001-10000; 10001-15000;15001-20000,20001元以上 分组。 通过频次统计可以了解数据的分布情况。
(二)二手数据的审核
适用性审核:弄清楚数据的来源、数据的 口径以及有关的背景材料;确定这些数据 是否符合自己分析研究的需要。
时效性审核:应尽可能使用最新的统计数 据,确认是否必要做进一步的加工整理。
二、数据的筛选
对审核过程中发现的错误应尽可能予以纠正。
当发现数据中的错误不能予以纠正,或者有些 数据不符合调查的要求而又无法弥补时,需要 对数据进行筛选 数据筛选的内容包括: 1.将某些不符合要求的数据或有明显错误的数 据予以剔除 2.将符合某种特定条件的数据筛选出来,而将 不符合特定条件的数据予以剔出
三、分组数据的图示
1、直方图
f/d
用矩形的宽度和高度来表 35
示 频 数分 布 的 图 形 ,实 际 上 是 用矩 形 的 面 积 来表示 各 组 的频 数 分 布 。 在 直 角 坐 标 中, 用 横 轴 表 示数据 分 组, 纵 轴 表 示 频 数或频 率 ,各组 与 相 应 的 频数就 形成了一 个矩形 , 即直方 图 (Histogram) 。 分 别 称 为 次 数 直方 图 或 者 百 分率直 方图。
长率
甲校学生的父亲职业
f 110 152 288 550 p 0.200 0.276 0.524 1.000 % 20.0 27.6 52.4 100.0
职业 干部 工人 农民 总数
二、定类数据的图示——条形图、圆形图
条形图是用宽度相同的条形的高度或长短来表示数据变动的图
形;条形图有单式、复式等形式 在表示定类数据的分布时,是用条形图的高度来表示各类别数 据的频数或频率;绘制时,各类别可以放在纵轴,称为条形图, 也可以放在横轴,称为柱形图
f=20(10)=200
25 20 15 6 0
f=6(40)=240
10 20 30 40
x
50
90
350 300 250 200 150 100 50 0 1 2 3 µÁ Ï Ð1
f/d
35 25 20 15 6 0
f=20(10)=200
f=6(40)=240
10 20 30 40
x
50
90
(一)组距分组要点
1.将变量值的一个区间作为一组 2.适合于连续变量 3.适合于变量值较多的情况
必须遵循“不重不漏”的原则;可采用等距分
组,也可采用不等距分组
(二)组距分组的原则
1.分组应使各类别构成之和等于总体
“穷举” “互斥”
2.分组设计应能反映统计总体的分布规律性
统计分组主要是为了能很好地反映统计总体的构 成状况,即反映总体中各单位的分布特征。分组设计 要适应这一要求,必须在分组后使总体单位总数在各 组的分配情况能够反映总体的分布规律性。
频数(fi)
1 2 5 10 19 25 17 12 5 3 0 1
频率(Pi)
0.01 0.02 0.05 0.10 0.19 0.25 0.17 0.12 0.05 0.03 0.00 0.01
合计
——
100
——
上下组限重叠分组,恰等于某一组限的数据(如下 表中身高164厘米)归于哪一组? 应该按照“上限不包括在内”的原则处理。这就 是说,164应归于“164—168”这一组,而不应归 于“160—l64”这一组。
(四)几个概念
1、 分组数据的最大值与最小值
2、分组数据的真实上限与真实下限
90~94,95~99,100~104 3、 组距:真实上限与真实下限之差 4、组距中位点:一组数据中最居中的数值。 m=(最大值+最小值)/2,
等距分组表的几种形式:
(1)上下组限重叠; (2)上下组限间断
原来的矩形抹掉,就得到折线图。
50 40 30 20 10 0 148- 156- 164- 172- 180- 188- 156 164 172 180 188 196
3、曲线图
当变量数列中的组数愈加增多,变量 值也非常多时,折线图会逐步过渡到平 滑曲线。
n增大
n
练 习
下表是诺贝尔获奖者的年龄分布表。(1)请根据数据制 作直方图和折线图;(2)将折线图修匀为一条曲线 图,并描述该曲线的特点。
X L PR c%b ( )r % i
X L PR c%b ( )r % 77分在全班同学成绩的百分比等级 i
PR=百分比等级 C%b=低于临界组距下限的累积百分比
X=需要计算的原始分数
L=临界组距的下限 i=组距的大小
r%=临界组距的百分比
X L 77 69.5 PR c%b ( )r % 35.0 ( )30% 57.5 i 10
第一部分:描述统计
第二章 组织数据 第三章 集中趋势的测量 第四章 变异性的测量
第二章 组织数据
数据的预处理
主要内容
定类、定序数据的整理 与显示 定距数据的整理与显示
统计表
第一节
数据的预处理 数据审核 数据筛选 数据排序 变量计算
一、数据的审核
(一)原始数据的审核 逻辑检查:从定性角度,审核数据是否符合 逻辑,内容是否合理,各项目或数字之间有 无相互矛盾的现象。(主要用于对定类数据 和定序数据的审核) 计算检查:检查调查表中的各项数据在计算 结果和计算方法上有无错误。(主要用于对 定距数据的审核)
男青年身高按4厘米的间距分组时的频数分布 身高间距(厘米) 组中值 (Xi)
148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 188―192 192―196 150 154 158 162 166 170 174 178 182 186 190 194
直方图与条形图的区别: ( 1)条形图是用条形的长度 (横置时 )表示各 类别频数的多少,其宽度 ( 表示类别 ) 则是固 定的;直方图是用面积表示各组频数的多少, 矩形的高度表示每一组的频数或百分比,宽 度则表示各组的组距,其高度与宽度均有意 义。 (2)直方图的各矩形通常是连续排列,条形 图则是分开排列。
(六)频数密度计算
男青年身高分组数据表
男青年按身高分组 (厘米) 148―156 156―164 164―168 168―172 172―176 176―180 180―188 188―196
合计
频数
3 15 19 25 17 12 8 1 100
组距
8 8 4 4 4 4 8 8 ——
频数密度
3/8 15/8 19/4 25/4 17/4 12/4 8/8 1/8 ——
一、定类数据的整理(基本过程)
1.列出各类别; 2.计算各类别的频数; 3.制作频数分布表; 4.用图形显示数据。
可计算的指标:
1.频数:落在各类别中的数据个数 2.比例:某一类别数据占全部数据的比值 3.百分比:指定的比例乘以100. 4.比与比率:性别比、出生率、死亡率、人口自然增
2、折线图:
折线图也称频数多边形图(Frequency polygon),
是在直方图的基础上,把直方图顶部的中点(组 中值)用直线连接起来,再把原来的直方图抹掉, 折线图的两个终点要与横轴相交。具体的做法 是:第一个矩形的顶部中点通过竖边中点(即 该组频数一半的位置)连接到横轴,最后一个 矩形顶部中点与其竖边中点连接到横轴。折线 图下所围成的面积与直方图的面积相等,二者 所表示的频数分布是一致的。
第二节
定类、定序数据的 整理与显示
原始资料杂乱无章,需加整理,才能为人
所用。统计资料的整理,其基础是统计分 组。所谓统计分组.就是按统计研究的目 的和要求,将总体单位或全部调查数据按 一定的标志划分成若干组,使组内差异尽 量小,而组与组之间则有明显差异,从而 使原本杂乱无章的资料有序化,以便为在 统计分析中提炼各种有用信息打下基础。
等距分组与不等距分组在频数分布上的差异 等距分组:各组频数的分布不受组距大小的影
响;可直接根据绝对频数来观察频数分布的特 征和规律。 不等距分组:各组频数的分布受组距大小不同 的影响;各组绝对频数的多少不能反映频数分 布的实际状况,需要用频数密度(频数密度= 频数/组距)反映频数分布的实际状况。
350 300 250 200 150 100 50 0 1 2 3
0 50 100 150 200 250 300 350 3
µ Á Ï Ð 1
2
µ Á Ï Ð 1
1
1 2 3
1 2 3
三、定序数据的整理(可计算的指标)
计算指标:频数、累计频数、百分率、累 计百分率 适用于简化定类资料的技术也适用定序资 料,但以下技术适用于定序资料 1. 累计频数:将各类别的频数逐级累加 2. 累计频率:将各类别的频率(百分比)逐 级累加
三、数据的排序
按一定顺序将数据排列,以发现一些明显的
特征或趋势,找到解决问题的线索。
排序有助于对数据检查纠错,以及为重新归
类或分组等提供依据;在某些场合,排序本 身就是分析的目的之一。排序可借助于计算 机完成 。
四、变量计算
变量的计算是指根据研究统计的需要,把已
经录入计算机的数据按照一定的算术表达式 或函数,计算产生一系列新变量并予以保存 的过程。 例1,以“sfgz”为变量名计算“年龄”在50岁以 下性别为“女”的职工的“实发工资”。(“实发 工资”=“基本工资”-“保险” ) 例2,根据农民工的出生年份计算他们的周岁 。(“周岁”=2011-“出生年份”)