第三章 样本数据特征的初步分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实际 数据是否有错误,计算是否正确等
❖ 间接数据
弄清楚数据的来源、数据的口径以及有关的 背景材料
确定数据是否符合自己分析研究的需要 尽可能使用最新的数据 确认是否有必要做进一步的加工整理
数据筛选
➢ 当数据中的错误不能予以纠正,或者有些数据 不符合调查的要求而又无法弥补时,需要对数 据进行筛选
➢ 数据筛选的内容 ▪ 将某些不符合要求的数据或有明显错误的数据予以
剔除
▪ 将符合某种特定条件的数据筛选出来,而不符合特
定条件的数据予以剔除
数据排序
➢ 按一定顺序将数据排列,以发现一些明显的特 征或趋势,找到解决问题的线索
➢ 排序有助于对数据检查纠错,以及为重新归类 或分组等提供依据
➢ 在某些场合,排序本身就是分析的目的之一 ➢ 排序可借助于计算机完成
➢ 直方图的各矩形通常是连续排列,条形图则是分 开排列
➢ 条形图主要用于展示分类数据,直方图则主要用 于展示数值型数据
茎叶图(Stem&Leaf)
❖ 定义
按照某种规则,把所有的样本值分成“茎节”和 “叶”两个部分,表达为“茎节.叶”的形式
如规定“茎节”的宽度为100, 则样本数据123的“茎节.叶”表达方式就是1.23 “茎节”末位上的1所代表的实际值,就是“茎节” 的宽度
例 某班级男生的身高数据
1. 2.
确定Βιβλιοθήκη Baidu间长度 确定组数
组数 =
[
上限—下限 区间长度
]+1
3. 制作频数分布表
4. 确定最左端分组区 间位置的准则:组 中值为最小值
直方图与条形图的区别
➢ 条形图是用条形的长度(横置时)表示各类别频数的 多少,其宽度(表示类别)则是固定的
➢ 直方图是用面积表示各组频数的多少,矩形的高 度表示每一组的频数或百分比,宽度则表示各组 的组距,其高度与宽度均有意义
3.2 频次与频率
❖ 频次(Frequence) 在同一个数据集合中,同一个数据
(样本值)出现的次数 ❖ 频率(Percentage)
某样本值的频率=该样本值出现的频次/n
❖ 从某城市抽出来的30个商店中,某商品的价 格数据
❖ 某单位16人受教育程度
表3.1 某单位职工受教育的结构
受教育程度 小学 初中 高中 大学 硕士 合计
各个受教育程度出现的人数
1
2
2
9
2 16
各受教育程度出现的频率(%) 6.25 12.5 12.5 56.25 12.5 100
❖ 家庭家具的基色调的抽样调查结果
表3.2 家庭家具的基色调的抽样调查结果
家具的基色调 黑色 浅绿色 暗红 白色 淡黄褐 合计
各基色调出现的次数
1
6
8
5
10
30
各基色调出现的频率(%) 3.33 20 26.67 16.67 33.33 100
❖ 原则
确定宽度的原则:样本数据集合中的“茎节”必 须是有变化的
❖ 茎叶图的作法
例 某班级男生的身高(cm)
频数 4 11 6 1
茎叶 16 . 0358 17 . 01255667788 18 . 012356 19 . 0
1. 由“茎”和“叶”两部分构成,其图形是由数字组成的 2. 以该组数据的高位数值作树茎,低位数字作树叶 3. 茎叶图类似于横置的直方图,但又有区别
3.3 观察数据的图形方法
❖ 条形图 ❖ 饼图 ❖ 面积图 ❖ 线图 ❖ 直方图 ❖ 茎叶图 ❖ 箱形图、散点图、正态概率分布图
条形图(Bar Chart)
❖ 用直条的长短来表示数据的频次或频率
例 简单条形图
纵轴为频率
纵轴为累计百分比
例 分组条形图
例 分段条形图
饼图
❖ 用一个圆来表现百分比构成,可根据圆中各个扇 形面积的大小,来判断某一部分在全部中所占比 例的多少
▪ 直方图可观察一组数据的分布状况,但没有给出具体的数值 ▪ 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保
留了原始数据的信息 ▪ 直方图适用于大批量数据,茎叶图适用于小批量数据
3.4 数据特征的度量
❖ 集中趋势(Central Tendency) ❖ 离散程度 (Dispersion) ❖ 偏态与峰态(Distribution)
Month
Harbin Means
-18.8
0.0
22.4
Bars show Means
直方图
➢ 用于展示分组数据分布的一种图形 ➢ 用矩形的宽度和高度来表示频数分布
本质上是用矩形的面积来表示频数分布
➢ 在直角坐标系中,用横轴表示数据分组,纵轴表 示频数或频率,各组与相应的频数就形成了一个 矩形,即直方图
统计表的设计
❖ 4个主要部分:表头、行标题、列标题和数字资料 ❖ 表中的上下两条横线一般用粗线,其他线用细线 ❖ 通常情况下,统计表的左右两边不封口 ❖ 表中的数据一般是右对齐,有小数点时应以小数
点对齐,而且小数点的位数应统一 ❖ 对于没有数字的表格单元,一般用“—”表示 ❖ 必要时可在表的下方加上注释
面积图
❖ 用面积来表现连续型数据的频数分布资料,面积越 大,频数越多,反之亦然
线图
30.0 20.0 10.0
Mean Wuhan
Year 85 86 87 88 89 90 91 92 93 94
0.0
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
➢ 直方图下的总面积等于1
组距分组
❖ 将变量值的一个区间作为一组 ❖ 适合于连续变量 ❖ 适合于变量值较多的情况 ❖ 需要遵循“不重不漏”的原则 ❖ 可采用等距分组,也可采用不等距分组
分组方法
单变量值分组
组距分组
等距分组 异距分组
❖ 1. 下限(low limit) :一个组的最小值 ❖ 2. 上限(upper limit) :一个组的最大值 ❖ 3. 组距(class width) :上限与下限之差,区间长度 ❖ 4. 组中值(class midpoint) :下限与上限之间的中点值
第三章 样本数据特 征的初步分析
●数据的预处理 ●频次与频率 ●观察数据的图形方法 ●数据特征的度量
3.1 数据的预处理
❖ 数据审核 检查数据中的错误
❖ 数据筛选 找出符合条件的数据
❖ 数据排序 升序和降序 寻找数据的基本特征
数据审核
❖ 原始数据
应调查的单位或个体是否有遗漏 所有的调查项目或变量是否填写齐全 数据是否真实反映实际情况,内容是否符合
相关文档
最新文档