样本数据特征初步分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用直观方式显示定性变量
定性变量常常用非数值刻度来测量 对这些变量可以进行分类
可以采用两种最为常见的图形来描述定性变量的分布 饼图 条形图
用直观方式显示定性变量 -- 饼图
饼图的圆圈代表了所有观察值的集合 根据定性变量的类型数目将饼图分成几个部分
饼图每一部分的大小与每一类型的相对频数成正比
茎叶图形
例如,我们想将12个数据转换成一张茎叶图形 : 4.4 3.0 3.6 4.5 4.4 3.8 3.7 2.2 7.6 3.9 3.6 3.5
茎叶图形
2| 2 3| 0 5 6 6 7 8 9 4| 4 4 5 5| 6| 7| 6
用直观方式显示定量变量
三种最常使用的图形类型 -直方图
40 30 20 10
0
140.0 150.0 身高 计数频数
160.0
170.0
180.0
190.0 200.0
用直观方式显示定量--分布曲线
图形显示了每一组的累积频 数或相对累积频数 它可以用“小于”或“大于” 来表示
100
80 60 40 20 0 140.0 150.0 160.0 身高. 累积计数频数 170.0 180.0 190.0
2 2 2
集中趋势测度
--未分组数据
举例: 有6名工人组成一个样本,请找出他们每周工资的中位
数 151 179 163 142 180 195
按升序重新排列每周的工资 142 151 163 179 180 195 最中心位置的两个数值
求这两个数值的平均数 中位数 =
163 179 171 2
样本均值
x 样本中所有观察值之和 x n 样本大小n
集中趋势测度
--未分组数据
Kim是一名中等学校的学生,她上星期进行了5次测验,成 绩分别如下 7, 98, 25, 19, 和26 Kim 测验的平均成绩等于
7 98 25 19 26 35 5
在此我们可以看到,在汇总Kim的测验成绩时,均值并不能发挥 很好的作用。在大多数情况下,Kim的测验成绩低于30分,她只 在一次测验中意外地获得了98的高分,因此她的平均成绩被提高 到35分。
频数分布
1. 一张整理有序的表格可以使数据中隐藏的信息清楚地表现出 来 2. 有助于采用图形方式来汇总数据 数据集表格不具有唯一性
频数分布
举例
以下数据表示一个当地咖啡馆进行的30笔交易 14 81 69 72 51 64 67 62 64 50 15 19 41 48 26 34 25 46 51 42 75 48 35 77 83 24 57 27 64 38
频数分布
如何将数据转换成表格 ?
哪些重要或必要的信息应当包括在内 ?
确定 “组数”和“组宽 ”
频数分布一般包括与每组有关的频数、累积频数、相对
频数和相对累积频数
频数分布
累积频数 显示每组范围内或其下有多少观察值 相对频数 相对频数描述每组范围内观察值所占的百分比, 即每组的频数除以观察值的总数目
用直观方式显示定性变量 --条形 图
例如,我们用条形图来显示某班100名学生的性别分布状况
80
60
40 20 0 男性 女性
SPSS统计软件给我们的工作 带来了方便
饼图 :
图形 饼图 对各组情形进行总结
条形图 :
图形 条形图 对各组情形进行总结
SPSS统计软件给我们的工作 带来了方便
直方图 :
用直观方式显示定性变量 -- 饼图
例如,我们可以用饼图来描述某班100名学生的性别分布状 况
男性 60%
女性 40%
用直观方式显示定性变量 --条形 图
对于定性变量而言,条形图表示每一类型的百分比或 计数频数 每个条形图的高度代表每一类型的百分比或比例 条形图的宽度没有意义,所有类型的宽度均相同
用直观方式显示定量变量 --直方 图
例如,我们在本单元中想通过绘制直方图来表示100名学生的身 高分布
40
30
20
10 0 145.0 身高 155.0 165.0 175.0 185.0
计数频数
用直观方式显示定量变量 --频数 多边形
用线段将各组中点和频数(或相对频数)的交叉点连接起来, 就可以得到频数多边形图形
2.各个组必须将“所有数据均包括在内”
3.组数K 的经验法则 2K n ,此处n代表观察值的总数目
频数分布
4. 各组之间的宽度最好相等,但这并不是必要条件。 当组宽相等时, W
最大观察值 最小观察值 W n
5.应当尽量避免开口组
6.组宽最好是整数
频数分布
例如,为了研究某班100名学生的身高 -我们确定将整个数据分成5组,每组宽度相等,W = 10厘米
频数分布
定义
分布 某个变量所有可能值的集合 显示了变量的图形特点
当数据集为小型时,数据之间的变化特点很容易观察出 来 随着数据集变为中型或大型,变量的特性一般表现得越 来越不明显
频数分布
定 义
组 频数 组限 频数分布的类别 每一组包含的观察值数目 每一组的上限和下限
组宽
上限和下限之间的间距
相对累积频数 显示每组范围内或其下观察值所占的百分比
频数分布
对于定性变量而言 -常常根据变量结果的种类来选择组
例如,为了研究本班100名学生的性别 -频数 60 40 100 累积频数 60 100
男性 女性
频数分布
对于定量变量而言 -选择“组数” 和“组宽 ”是主要问题
应当遵循哪些基本原则来确定组 -1.各个组之间必须是“相互排斥”的
频数多边形
分布曲线 在构造图形之前,需要用频数分布来显示数据
用直观方式显示定量变量 --直方 图
应当将数据转换成频数分布表 水平轴代表变量的数值,核对符号代表每一组的中点 垂直轴代表计数频数或百分比频数 每个条形图的高度与每一组的频数或百分比相对应 每个条形图的宽度与每一组的宽度相对应
频数分布
首先--确定“组数” 和“组宽 ”
组数 样本大小 n =30 组宽 最小观察值 = 14, 最大观察值 = 83 83 14 13 .8 5 25 = 32 > 30 5组
最好采用“整数”
W = 15
频数分布
组别 10 –25 25 –40 40 –55 55 –70 70 –85 频数 4 6 8 7 5 30 累积频数 4 4+6=10 10+8=18 25 30 相对频数
4 30
0 .133 0 .200 0 .267 0 .233 0 .167
相对累积频 数 0.133 0.333 0.600 0.833 1.000
6
8 7 5
30
30 30 30
1.000
茎叶图形
数据必须按照升序排列 为了构造图形,我们将数值的第一个数字作为茎 茎叶排列使我们可以通过图形来了解数据的分布
举例: 有6名工人组成一个样本,请找出他们每周工资的众数
151
151
179
180
163
163
142
142
180
180
195
195
不存在 众数
180
142
180
163
142
180
195
142 和180 (双峰 )
集中趋势测度
--未分组数据
对两个旅行团的小孩年龄进行了数据调查,以下是调 查结果: -A组 年龄 : 14, 17, 11, 10, 11, 14, 9, 12, 8, 10, 9
集中趋势测度
--未分组数据
均值对极值表现得非常敏感
如果数据中存在极值(或者说数据分布有所偏斜),那么 均值就不能很好地测度集中趋势
集中趋势测度
--未分组数据
中位数 (Md) -1.将n个观察值按升序或降序排列 2.如果观察值个数是奇数,则中位数就是位于最中心位置的那个观 察值,即数据集中的第 ( n 1 ) th 个观察值 3.如果观察值个数是偶数,则中位数就是位于正中心两个观察值的 平均值,即数据集中的第 ( n ) th 个和第 ( n 1) th 个观察值的平均值
第三章 样本数据特征的
初步分析
一、整理样本数据
原始数据 -信息在被操纵或处理后并没有超出其原有的格式
两种整理原始数据的基本方法
数据阵列
频数Baidu Nhomakorabea布
2、整理数据 --数据阵列
保留了数据的原值 ,并按数值的升序或降序显示数据。 易观察到:
数据集中包含最大观察值和最小观察值
确认在某个数据集中哪些数组具有相同的值 很容易发现各个值之间的差异
图形 直方图 选择关心的变量
茎叶图形 :
分析 描述统计学 寻找 选择绘图选项
集中趋势测度
--未分组数据
定义 均值 中位数 众数 所有观察值 的平均值 所有观察值中位于最中心位置的那个值 出现最频繁的数据值
集中趋势测度
--未分组数据
均值 -总体均值
x 总体中所有观察值之和 N 总体大小N
均值、中位数和众数之间的关系 -3.倾向右侧 (均值> Md > Mo)
Mo
Md
均值
集中趋势测度
--分组数据
为了计算分组数据的均值 – 计算每一组的中点
假设观察值都落在各组的中点上
总体均值
fx N
样本均值
fx X n
集中趋势测度
--分组数据
举例:下列频数分布显示了某家公司50名工人的每周工资
均值
14 17 11 ... 9 11.36 11
中位数 11
众数 9, 10 , 11 和 14 (有4 个众数 )
集中趋势测度
--未分组数据
B组 age: 9, 14, 8, 10, 13, 7, 9, 11, 16, 10, 12, 9
9 14 ... 9 10.67 12
当样本数据的测度在顺次级以上时,把样本值小于等于 某个样本数据xi的频率值累加起来,就得到“小于等于xi” 的累积频率。 注:名义级的样本数据集合,不存在累积频率问题。 表示法同上。
整理数据 --频数分布
将数据值分成几组 显示各组中有多少数值 很容易发现数据的图形特点
无法保留原始数据的值
集中趋势测度
--未分组数据
Kim的5次测验成绩 又如何呢? Kim成绩的中位数为25 看来中位数能更好地测度Kim测验成绩的中心位置 -中位数不受“极值”的影响
集中趋势测度
--未分组数据
众数 (Mo) -并不经常用众数来测度中心位置 适用于定性变量 众数不具有唯一性
集中趋势测度
--未分组数据
均值 中位数 10 众数 9
集中趋势测度
--未分组数据
均值、中位数和众数之间的关系 -1. 对称分布 (均值 = Md = Mo)
均值 = Md = Mo
集中趋势测度
--未分组数据
均值、中位数和众数之间的关系 -2.倾向左侧 (均值 < Md < Mo)
均值 Md
Mo
集中趋势测度
--未分组数据
身高 (厘米) 140 – 150 150 – 160 160 – 170 170 – 180 180 – 190 频数 6 23 36 28 7 100 累积频数 6 29 65 93 100 相对频数 0.06 0.23 0.36 0.28 0.07 1.00 相对累积频 数 0.06 0.29 0.65 0.93 1.00
N
f 50
每周的平均工资
fx 8715 .0 174.3 N 50
收入,估计每周工资的平均水平
每周工资收入 140 – 149 150 – 159 160 – 169 170 – 179 180 – 189 190 – 199 200 – 209 工人人数(f) 4 6 9 12 9 7 3
集中趋势测度
--分组数据
每周工资收入 140 – 149 150 – 159 160 – 169 170 – 179 180 – 189 190 –199 200 – 209 工人人数(f) 4 6 9 12 9 7 3 中点 (x) 144.5 154.5 164.5 174.5 184.5 194.5 204.5 fx 578.0 927.0 1480.5 2094.0 1660.5 1361.5 613.5 fx 8715 .0
3、样本数据结构的基本特征:频次与频率
一、一些基本概念 1、频次(频数) 在有限的样本数据集合中,同样的数据值(样本值) 出现的次数 称为该样本值出现的频次。
2、频率
该样本值出现的频次 / 该数据集合的数据总数。 常用表示方法: (1)表 ; (2)饼图;
(3)条形图;
二、样本数据集合的基本特征的延伸:累积频率