SPSS 第03章 数据的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
37
简单散点图
38
重叠散点图
39
矩阵散点图
40
41
旋转后的3-D散点图
42
可选入一个分组变量,则表示按该变 量的不同取值将样本数据分成若干组, 并在一张图上分别以不同颜色绘制各 组数据的散点图. (可以省略)
可指定一个标记变量,表示将标记变 量的各变量值标记在散点图的相应点 的旁边. (可以省略)
58
(1) 计算高三男生身高的基本描述统计量
(2) 比较两个地区高三男生身高的分布差异
59
60
61
注意:在分析问题(2)之 前,应先按“地区”变 量拆分文件,再进行描 述性分析.
62
探索性分析
• 目的:在对数据的性质、分布特点等不了解时,可 以通过探索性分析获得数据详细的分布特征。 • 探索性分析过程可以:
据创建图形。
• 各个变量的摘要(变量模式):为每一个变量 (包含所有观测)生成一个条形。 • 个案值(个案模式):为
变量的每一个观测值生成
一个条形,条形的长度表 示观测值的大小。
6
条形图的九种不同类型
7
• 例:“职工数据.sav”
• 问题:绘制条形图,分析

(1) 不同职称职工的平均基本工资的差异;
n 1 2 s2 ( x x ) n 1 i 1 i
s
1 n 2 ( x x ) i n 1 i 1
(3) 全距(极差)= 最大值 - 最小值 (4) 均值的标准误:即样本均值的标准差,度量样 s 本均值与总体均值的平均差异程度 s.e . ( x ) n 55
0 是判断数据是 否呈正态分布的 一个重要依据.
(平峰)
57

菜单选项:【分析】->【描述统计】->【描述】

例:“Height.sav”,该数据描述了2个地区高三
男生的身高.

问题:


(1) 计算高三男生身高的基本描述统计量。
(2) 比较两个地区高三男生身高的分布差异。
xi x 将原始数据标准化的计算公式:zi s
43
44
一般把因变量放在纵轴上.
鼠标点 击散点 图的任 意位置 不松手, 拖动即 可旋转 散点图.
45
二、计算基本统计量
• 定性变量(定序型和定类型变量):频数分析 • 定量变量(数值型变量):描述统计分析 • 菜单选项:【分析】-> 【描述统计】
46
1、频数分析
• 目的:通过频数分析,可以产生详细的频数分布 表和常用的图形,从中能够了解变量取值的状况 ,对把握数据的分布特征非常有用。
Stem width: Each leaf:
(=<22) 44 789999999 000001112333344444 55555677789999 000011111112223333333344444 5555666666777888889999 000111111112222222333444444 55555566678888888899999 0000000111123333 555666677888999999 000222233344 5566899 22 5
2、计算基本描述统计量
• 目的:计算基本描述性统计量,对数据的分布特
征有更准确的认识。 • 主要适用于:定量变量 • 基本描述统计量可分为三类:

刻画集中趋势的统计量:均值、中位数、众数; 刻画离散程度的统计量:全距、方差、标准差、 均值的标准误; 刻画分布形态的统计量:偏度、峰度。
53

1、刻画集中趋势的统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。
分组变量:职称
统计量:平均基本工资

(2) 不同职称不同学历职工的人数的差异.
分组变量:职称、学历
统计量:人数
8
简单条形图
9
简单条形图
10
复式条形图
11
堆栈条形图
12
选择定义条形高度的统计量 设定图形标题 选择缺失值的处理方式 和误差条形图的显示方 式。 选择分组变量
可以指定一个或多个分组变量 来建立图形面板,由相关的子 图构成。子图的类型相同,共 享同一个横轴,但每个图代表 不同的组,可以直观比较不同 组中相同变量的数据。 选择复合分类变量
13
15
16
2、饼图
• 饼图通常用一个圆形来表示构成整体的各个部分
所占的比例情况。其中,整个圆的面积表示整体 ,圆中的扇形部分是按构成整体的各部分在整体 中所占比例的大小切割而成。 • 饼图可以直观地反映各部分与整体之间的关系、 以及各部分之间的关系。 • 例:“language.sav”该数据展示了说世界各种主 要语言(包括母语和日常使用)的人数。 • 问题:绘制饼图,分析日常使用语言的分布情况.
数据指标大小的统计图。其中分组变量的不同值
对应条的数目,条的高度由选择的统计量决定。
• 条形图类型:

简单条形图:对单个变量的各个类别进行对比


复式条形图:对两个变量交叉分类
堆栈条形图:对两个变量交叉分类
5
统计量的描述方法
• 个案组摘要(个案分组模式):根据分组变量
对所有个案进行分组,再根据分组后的个案数
10 1 case(s)
33
菜单选项:
【分析】-> 【描述统计】-> 【探索】
34
6、散点图
• 散点图是常用的表现两个变量或多个变量之间相
关关系的统计图形。
• 散点图将数据以坐标点的形式绘制在平面或空间
直角坐标系中,通过坐标点的分布情况来反映变
量之间的相关关系及其强弱程度和变化趋势。
• 通常在进行相关分析和回归分析之前,都要先绘
三维散点图【3-D分布】:以立体图的形式展现
三个变量间的关系;

简单点图【简单点】:用来展示一个变量在各 个取值上的分布情况.
• 例:为研究腰围、体重和脂肪比重之间的关系, 随机调查了20个人. 数据文件:“腰围和体 重.sav”.
• 问题:腰围、体重和脂肪比重都是定量变量,利
用散点图探索这三个变量之间的关系.
24
• 例:“rich.sav” • 该数据摘自福布斯世界富豪排行榜,展示了世界最 富有的一些人的名次(Rank,为正整数,越小越富) ,所属区域 (Region ,包括北美、欧洲、亚洲和太 平 洋 、 南 美 、 非 洲 ) , 年 龄 (Age) 和 净 财 富
(NetWorth,单位为10亿美元). 其中区域为定性变
3、刻画分布形态的统计量 分布形态主要指变量取值分布的对称性、偏斜程度 和陡缓程度等。 (1) 偏度:描述分布形态的对称性来自百度文库
1 3 Skewness ( x x ) i 3 ( n 1) s i 1
偏度绝对值 越大,则偏 斜程度越大
n
0, 对称 0, 右偏或正偏 . 0, 左偏或负偏
• 问题:绘制箱图,分析 5 个区域富人的年龄分布
状况.
29
除离群值外的最大值
75%分位数
中位数 25%分位数
除离群值外的最小值 离群点及其个案号码
离群点:与四分位数的距离大于1.5倍的四分位数间距
30
选入要分析的变量 选入分类变量,该变量 作为分类横轴
31
5、茎叶图
• 茎叶图既能够展示数据分布的特点,又可以保留 原始数据信息. • 茎叶图包括频数、茎(Stem)、叶(Leaf)三部分. Stem Width 表示茎宽,实际观测值除以茎宽后的 整数部分和小数部分(取一位)分别为茎和叶. (因此,每行的茎和叶组成的数字再乘以茎宽, 就得到实际观测值或其近似值.) • 例:“rich.sav” • 问题:绘制各区域富人年龄的茎叶图.
32
Age Stem-and-Leaf Plot for Region= Europe
Frequency Stem & Leaf
欧洲区域富人年龄的茎叶图
1.00 Extremes 2.00 3 . 9.00 3 . 18.00 4 . 14.00 4 . 27.00 5 . 22.00 5 . 27.00 6 . 23.00 6 . 16.00 7 . 18.00 7 . 12.00 8 . 7.00 8 . 2.00 9 . 1.00 9 .
正(右)偏分布
负(左)偏分布
56
(2) 峰度:描述分布形态的陡缓程度
0, 相同 (与正 1 4 Kurtosis ( x x ) 3 0, 尖峰 . 态分布 i 4 ( n 1) s i 1 0, 平峰 相比)
n
注意:峰度和偏 度的值是否接近
(尖峰)
• 主要适用于:定性变量(定序型和定类型变量)
• 主要输出结果:

编制频数分布表:频数、百分比、有效百分比(
频数/(总样本量-缺失样本量))、累计百分比;

绘制统计图:条形图、饼图、直方图.
47
• 菜单选项:【分析】->【描述统计】->【频率】
• 例:“table7.sav”,该数据给出了123个被调查者 的收入、性别以及对某政策的观点的汇总结果. • 问题:
第三章
数据的描述
1
基本统计分析
• 对数据的分析通常是从基本统计分析入手的。通过 基本统计分析,能够使分析者掌握数据的基本统计 特征,把握数据的整体分布形态,为今后进一步的 数据建模起到重要的指导作用。
• 基本统计分析有两种方式:

绘制常见的基本统计图形(用图形展示数据分布特 点) 计算常见的基本统计量(用数值反映数据的统计特 征)
17
18
该数据为计数数据,先根据 “日常使用”变量加权,再 进一步绘制饼图.
计算分片大小 的统计量.
若不进行加权,可 按以下方法绘制.
19
双击生成的饼图,可打开图表编辑器
20
21
每个语种中母语和日常用语使用的人数(P33)
22
或者
23
3、直方图
• 直方图是用条形的长短来描述连续性数据落入某 个区间内的频数。其中,条形的长短与区间的宽 度有关。 • 直方图与条形图看起来很相似,它们的区别在于 :直方图的条带的长度和宽度都有具体含义,而 条形图的宽度无意义。
2

一、统计图形绘制
• 定性变量(定序型和定类型变量)的图表示: 条形图、饼图等 • 定量变量(数值型变量)的图表示: 直方图、箱图、茎叶图、散点图等
• 绘制图形的菜单选项:【图形】
3
三种绘图方法
• 图表构建程序 • 图形画板模板选择程序 • 旧对话框
4
1、条形图
• 条形图是利用宽度相同的条形的高低或长短表示
制散点图,从直观上考察变量之间的相关关系。
35
• 散点图类型:

简单散点图【简单分布】:用来展示一对变量 之间的相关关系; 重叠散点图【重叠分布】:把多对变量间的散 点图显示在一张图中,通常多对变量中有一个 共同变量;


矩阵散点图【矩阵分布】:以矩阵形式分别显
示多个变量的两两之间的散点图;
36

量,年龄和净财富均为定量变量.
• 问题:绘制直方图,分析年龄和净财富这两个变量
的数据的分布情况.
25
26
(单位:10亿美元)
27
28
4、箱图(盒形图)
• 箱图也叫箱线图,是一种用来描述数据分布的统 计图形,可以用来展现观测数据的中位数、四分 位数和极值等描述性统计量。 • 箱图类型:简单箱图、复式箱图 • 例:“rich.sav”
(1) 样本均值:最常用,但是容易受极端值的影响 1 n x xi n i 1
(2) 中位数:即一组数据按升序排序后,处于中间
位置上的数据值。 中位数不易被极端值所影响,
所以称中位数比均值稳健。
(3) 众数:即一组数据中出现次数最多的数据值, 一般用于定性数据。
54
2、刻画离散程度的统计量 离散程度是指一组数据远离其“中心值”的程度。 (1) 样本方差 (2) 样本标准差
51
输出百分位数: • 四分位数:显示25%、50%、 75%的分位数; • 割点:将数据平均分为所设定 的相等等份,可输入2-100 的整 数,如键入5,则输出20%、 40%、60%和80%百分位数; • 自定义百分位数:可输入0-100 的整数。 选择频数分布表和图形 中数据的输出顺序: • 按变量值大小升序或 降序排列 • 按变量各种取值出现 的频数大小升序或降 序排列(常用于分类 数较多的定类型变量) • 多变量频数分析时, 选择不同变量的分 析结果的输出方式. • 当类别数大于设定 值,将不输出频数 52 分布表.

(1)分析被调查者的观点的分布状况; opinion(观点):定类型变量 (2)分析被调查者的收入的分布状况. income(收入):定序型变量

• 注意:该数据为计数数据,在进行频数分析前, 应先按照“number”(人数)变量进行加权处理.
48
49
50
注意:该数据为计数数据, 若数据还未进行加权,应先 进行加权,再进行频数分析.
相关文档
最新文档