SPSS软件应用教程第七讲
SPSS Modeler数据挖掘 第七讲
2 CFj {N j , S Aj , S Aj , N Bj }
2 2 CF j ,s {N j N s , S Aj S As , S Aj S As , N Bj N Bs }
两步聚类算法:预聚类
预聚类过程:建立CF树 视所有数据为大类,汇总统计量存在根结点中 读入一个样本点,从CF树的根结点开始,利用 结点的汇总统计量,计算数据与中间结点的对 数似然距离。沿对数似然距离最小的中间结点 依次向下选择路径直到叶结点 计算与子树中所有叶结点(子类)的对数似然 距离,找到距离最近的叶结点
聚类算法种类
从聚类变量类型角度划分 数值型聚类算法、分类型聚类算法、混合型聚 类算法 从聚类的原理角度划分 划分聚类(Partitional clustering) 层次聚类(Hierarchical clustering) 基于密度的聚类(Density-based clustering ) 网格聚类(Rid clustering )
两步聚类算法:预聚类
预聚类过程 如果最近距离小于一定阈值,则该数据被相应 的叶结点“吸收”;否则,该数据将“开辟” 一个新的叶结点。重新计算叶结点和相应所有 父结点的汇总统计量 叶结点足够大时应再分裂成两个叶结点 叶结点个数达到允许的最大聚类数目时,应适 当增加阈值重新建树,以得到一棵较小的CF树 重复上述过程,直到所有数据均被分配到某个 叶结点(子类)为止
两步聚类算法
两步聚类:Chiu,2001年在BIRCH(Balanced
Iterative Reducing and Clustering using Hierarchies)算法基础上提出的一种改进算法
spss使用教程简版(共73张PPT)
8.变量的显示宽度(Columns)
输入变量的显示宽度,默认为8。
9.变量显示的对齐方式(Align)
选择变量值显示时的对齐方式:Left(左对 齐)、Right(右对齐)、Center(居中对齐)。
默认是右对齐。
10.变量的测量尺度(Measure)
• 变量按测量精度可以分为定性变量、定序 变 量、定距变量和定比变量几种。SPSS 将其分为定距变量(Scale)、定序变量 (Ordinal)、定类变量(Nominal)。
总体平均数:若一组数据X1,X2,…,XN,代表 一个大小为N的有限总体,则其总体平均数为
在Windows的程序管理器中双击SPSS FOR WINDOWS图标以打开SPSS程序组,选择SPSS图标并双击之,即可启动SPSS。
击“OK”按钮,即可定义变量类型。 SPSS的主要 不连续分布数据 :按Ctrl不放然后用鼠标点击需要填入数据的单元格,再再最后的单元格里输入数据,最后按Ctrl+回车就行了。
设置变量的长度,当变量为日期型时无效。
4.变量小数点位数(Decimal)
设置变量的小数点位数,当变量为日期型时无 效。
5.变量标签(Label)
变量标签是对变量名的进一步描述,变量只 能由不超过8个字符组成,而8个字符经常不足以 表示变量的含义。而变量标签可长达120个字符, 变量标签可显示大小写,需要时可用变量标签 对变量名的含义加以解释。
图2-58 读取Excel文件
图2-59 “Opening Excel Data Source”对话框
SPSS默认将某个sheet中所有数据都读入到数 据编辑窗口中。在“Range”框中输入要读取数据的 范围,也允许指定读取一部分区域的数据,如要读 入前50行数据,则在该框中输入A1:F50,表示读取 的区域是以A1单元为左上角,F50为右下角的矩形 区域。Excel表格中每一行为SPSS的一个个案。 单击“Continue”按钮,即可完成数据导入。
spss(13.0)教程PPT课件
Frequencies过程
例 某地101例健康男子血清总胆固醇值测定结果如下, 请绘制频数表、直方图,计算均数、标准差、变异系数CV、 中位数M、p2.5和p97.5(卫统第三版p233 1.1题)。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3第.2065页/共94页
重点介绍 重点介绍 重点介绍 重点介绍 重点介绍
• 数据的预分析 • 数据的简单描述 • 绘制直方图
• 按题目要求进行统计分析 • 保存和导出分析结果
• 保存文件 • 导出分析结果
第17页/共94页
数据文件管理
• 编辑数据文件 • 定义新变量 • 直接定义新变量 • 从原有变量计算新变量-Transform菜单 • 数据的录入 • 直接录入 • 数据录入技巧
spss教程
SPSS统计分析教程第1 章SPSS安装与运行(PPT)第7 章相关分析第 2 章数据编辑第8 章聚类分析第 3 章基本分析第9 章判别分析第 4 章均值检验第10 章因子分析第 5 章方差分析第11 章统计绘图第 6 章回归分析软件下载SPSS12.0SPSS所处理的数据文件有两种来源:一是SPSS环境下建立的数据文件;二是调用其它软件建立的数据文件。
1 在SPSS数据编辑窗口建立数据文件当用户启动SPSS后,系统首先显示一个提示窗口,询问用户要SPSS做什么时,把鼠标移至“Type in data”项上单击左键选中,然后单击“OK”按钮;或者该窗口中单击“Cancel”按钮进入SPSS数据编辑窗屏幕,如图所示。
图进入SPSS数据编辑器(1) 数据编辑(SPSS Data Editor)界面介绍窗口名显示栏:在窗口的顶部,显示窗口名称和编辑的数据文件名,没有文件名时显示为“Untitled-SPPS Data Editor”。
窗口控制按钮:在窗口的顶部的右上角,第一个按钮是窗口最小化,第二个按钮是窗口最大化,第三个按钮是关闭窗口。
SPSS主菜单:在窗口显示的第二行上,有:File文档,Edit编辑,View显视,Data数据,Transform转换,Analyze分析,Graphs 图形,Utilities公用项,Windows视窗。
图 SPSS窗口界面常用工具按钮:在窗口显示的第三行上,有:打开文档,保存文档,打印,对话检索,取消当前操作,重做操作,转到图形窗口,指向记录,指定变量操作,查找,在当前记录的上方插入新的空白记录,在当前变量的左边插入新的空白变量,切分文件,设置权重单元,标记单元,显示价值标签。
数据单元格信息显示栏:在编辑显示区的上方,左边显示单元格和变量名(单元格:变量名),右边显示单元里的内容。
编辑显示区:在窗口的中部,最左边列显示单元序列号,最上边一行显示变量名称,缺省为“Var”。
SPSS社会科学统计软件包用法操作技巧
2020/5/17
江南大学设计学院
9
第七章 SPSS(社会科学统计软件包)用法操作 第二节 定义变量
一、变量类型
4、定比变量
◇定比变量又称为比率(ratio)变量,它与定距变量意义相近, 细微差别在于定距变量中的“0”值只表示某一取值,不表示 “没有”。例如,人的身高就是一个定比变量,如果身高值为 “0”米,则表示这个人不存在。而定比变量的“0”值表示“没 有”。定比变量的取值称为定比数据或比率数据。定比数据也 同样可进行算术运算和线性变换等。通常对定距变量和定比变 量不需再加以区别,两者统称为定距变量或间隔变量。
Data:运用“数据”菜单对SPSS 数据文件进行全局变化,例如定义 变量,合并文件,转置变量和记录,或产生分析的观测值子集 等。
Transform:“转换”菜单在数据文件中对所选择的变量进行变换, 并在已有变量值的基础上计算新的变量。
2020/5/17
江南大学设计学院
3
第七章 SPSS(社会科学统计软件包)用法操作 第一节 SPSS(社会科学统计软件包)简介
2020/5/17
江南大学设计学院
8
第七章 SPSS(社会科学统计软件包)用法操作 第二节 定义变量
一、变量类型
3、定距变量
◇定距变量又称为间隔(interval)变量,它的取值之间可以比较 大小,可以用加减法计算出差异的大小。例如,“年龄”变量, 其取值60 与20 相比,表示60 岁比20 岁大,并且可以计算出 大40 岁(60-20)。定距变量的取值称为定距数据或间隔数据。 定距数据是一些真实的数值,具有公共的、不变的测定单位, 可以进行加减乘除运算。定距数据的基本特点是两个相同间隔 的数值的差异相等,例如,年龄的60 岁与50 岁之差等于40 岁与30 岁之差。对于定距数据,不仅可以规定“等价关系” 以及“大于关系”和“小于关系”,而且也可以规定任意两个 相同间隔的比值或差值。常用的统计量如均值、标准差、相关 系数等都可直接用于定距数据。
第七讲 spss 人口统计
24
2.年龄别死亡率
概念:也称年龄组死亡率,是指一年内某年龄组死亡 人数与相应的平均人口数之比。通常多以5岁为一组来 计算。 计算公式: 同年该年龄组的死亡人数 ×1000‰ 某年某年龄组平均人口数 年龄别死亡率消除了人口年龄构成不同对死亡水平的 影响,故不同地区同一年龄组死亡率可以进行比较。 对年龄别死亡率进行分析可以明确卫生工作的重点人 群。年龄别死亡率有其自身的规律,一般0岁组死亡率 较高,以后随着年龄的增长迅速下降,至10~14岁时 (在发达国家为5~9岁)死亡率降至最低值,以后虽 略有上升,但在40岁前一直处于低水平,40岁以后, 死亡率随年龄的增长而增高。
4. 5岁以下儿童死亡率
意义:是指某年5岁以下儿童死亡数(包括婴儿死 亡数)与同年活产数的比值。 计算公式: ×1000‰ 同年 5岁以下儿童死亡数
某年活产数
意义:许多发展中国家,由于婴儿死亡率的资料不 易准确,而5岁以下儿童死亡又很高,故联合国儿 童基金会常用5岁以下儿童死亡率作为综合反映婴 幼儿死亡水平及儿童生存大小的指标。
3.年龄别生育率(ASFR )
概念:也称年龄组生育率,是指某年每千名某年龄育龄 妇女的活产数。 同年该年龄组妇女的活 产数 某年龄组生育率= 某年某年龄组妇女数 ×1000‰ 意义:年龄别生育率消除了育龄妇女内部年龄构成对生 育水平的影响,故比总生育率又进了一步,它能反映不 同年龄(组)育龄妇女的生育水平,不同地区不同时期 同一年龄别生育率可以直接比较。通常年龄别生育率多 以5岁一个年龄组计算,所以要想得到这一指标,必须要 有育龄妇女各年龄组的妇女数和活产数,但在不少发展 17 中国家很难获得这一资料。
人口性别年龄构成
1.性别比:男性人口与女性人口的比值。其算式为:
spss第七章.ppt
身高作为因 变量
性别和年级 作为分类变 量。
MEAN过程的选择项对话框
描述统 计量
对第一 层每个 控制变 量分析
单击右 箭头按 钮,将 选定的 统计量 移至 CELL的 矩形框
30名学生按年级分组的描述性统计结 果
身高*年级
年级 Mean
4
133.440
5
133.229
6
134.575
(1) 正态分布(总体分布为正态,方差已知,样本 平均数的分布为正态分布)
(2) t分布:n>30接近正态,n 正态分布
(3) F分布:偏正态分布
F
S2 n1 1
/
S2 n 2 1
2 1
22
(4) 2分布:偏正态分布。当df 为正态分布
2 (x ) 2 2
农村:2.38 2.60 2.10 1.80 1.90 3.65
2.30 3.80 4.60 4.85 5.80 4.25 4.22 3.84
注意:
(1)输入数据的 格式。
(2)分组标记时 要记住代码。
(3)分组标记也 可以采用字符串 数据。
独立样本t检验主对话框
要进行检验的 变量
Total 133.443
N Std. Deviat.714
4
5.052
30
5.691
30名学生按性别分组的描述性统 计结果
身高*性别
性别 Mean
N
Std.Deviation
男 132.900 15
第七讲-1 t检验
3
0.765 0.978 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924
4
0.741 0.941 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5
0.727 0.920 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
要求:1)配对资料 2)定量资料 3)每对数据差值量服从正态分布
两种方法对乳酸饮料中脂肪含量的 测定结果(%)
编号 (1) 1 2 3 4 5 6 7 8 9 10
哥特里-罗紫法 (2)
0.840 0.591 0.674 0.632 0.687 0.978 0.750 0.730 1.200 0.870
按=0.05水准,拒绝H0,接受H1,有统计 学意义。 两种方法对脂肪含量的测定结果不同,哥 特里-罗紫法测定结果较高。
SPSS
SPSS输出结果及其解释
Paired Differences
t
Std. Std. Error 95% Confidence Interval
Mean Deviation Mean
物配成对,再如年龄、病情等接近的每两个个体配成一对。同 窝小白鼠按照性别、体重配对再随机分配到实验组和对照组
二、配对样本t 检验 (paired Samples t-test)
实质:配对样本t检验是先求出每对测量值之差, 对差值变量求均值,检验差值变量的均值与总 体均值0之间比较。相当于对差值变量进行单样 本t检验。
方差不等: • 通过数据变换-变成方差相等的情况。 • 近似t检验——t’检验。 • 非参数检验。
实验七---SPSS软件基本操作PPT课件
土壤种类 B2(二合)
19.6 18.8 16.4 13.0 13.7 12.0 14.2 13.6 13.3
B3(白僵)
17.6 16.6 17.5 13.3 14 13.9 12.0 14.6 14
2021/3/12
19
二、两因素有重复观察值完全随机设计方差分析
分析
一般线性模型
单变量... 因变量: 产量 固定因素: 肥料/土壤
8
2021/3/12
9
2021/3/12
10
录入数据
1. 方法是在数据录入框中输入数据,按回车键或向下移动光标 键即可将数据输入到变量中。
2. 系统默认的变量名为变量l、变量2…;默认输入的第1个数据 为变量l的第1个数据,回车后输入变量l的第2个数据……
3. 移动光标到变量2,可输入变量2的数据,方法与录入变量l的 数据相同。
分析
一般线性模型
单因素... 因变量: x 固定因子 : a/b/c/ab/ac/bc/abc
模型…
自定义 模型: a/b/c/ab/ac/bc/abc 平方和: Type III
在模型中包含截距
2021/3/12
29
例题七
设有一小麦中耕次数(A)和施肥量(B)试验,主处理为A,分 A1、A2、A3 3个水平,副处理为B,分B1、B2、B3、B4四个水平,裂 区设计,重复3次(r=3),副区计产面积33m2,其田间排列和产量见 下图,试作分析。
处理
观察值(yij)
A(氨水1)
24
30
28
26
B(氨水1)
27
24
21
26
C(碳酸氢铵)
31
28
《spss使用教程》课件
01
01
02
03
04
CHAPTER
SPSS在数据分析中的应用
描述市场状况
使用SPSS对市场数据进行统计分析,可以描述市场状况,了解市场趋势和消费者需求。
预测市场趋势
通过SPSS的预测模型,可以对市场趋势进行预测,帮助企业制定合理的营销策略。
竞争分析
利用SPSS对竞争对手进行分析,了解竞争对手的市场份额和营销策略,从而调整自身策略。
情感分析
数据收集
收集消费者对品牌的评价数据,包括品牌知名度、美誉度、忠诚度等。
因子分析
通过因子分析找出影响品牌形象的主要因素,为品牌定位和传播提供依据。
关联规则挖掘
挖掘品牌形象之间的关联规则,发现品牌形象之间的相互影响和关联。
通过SPSS分析品牌形象,了解品牌在消费者心中的认知和评价,为品牌管理和市场推广提供指导。
总结词
数据导入、整理数据
详细描述
在SPSS中,您需要先导入数据才能进行分析。数据可以来自多种来源,如Excel、CSV、数据库等。在导入数据后,您需要检查数据的完整性,并进行必要的整理,如删除重复项、处理缺失值等。
数据编码、数据标签化
总结词
对于某些变量,可能需要进行数据编码或标签化。例如,将分类变量(如性别)转换为数字代码,或将数字变量(如年龄)转换为更易于理解的标签(如儿童、青少年、成人)。
数据收集
收集消费者调查数据,包括消费者的基本信息、购买行为、产品评价等。
描述性统计分析
对数据进行描述性统计分析,如计算频数、均值、标准差等,了解数据的基本特征。
信度分析
通过信度分析检验问卷的一致性,确保数据可靠性。
因子分析
通过因子分析找出影响消费者行为的主要因素,简化数据结构。
SPSS数据分析教程-7-相关性
精选课件ppt
4
相关关系的种类
相关关系的种类:是否线性
线性相关
正相关 负相关
曲线相关
相关关系的种类:据变量的度量类型
定类变量和定类变量之间的相关 定序变量和定序变量之间的相关 尺度变量和尺度变量之间的相关
精选课件ppt
17
选择【分析】→【相关】→【双变量】
精选课件ppt
18
精选课件ppt
19
精选课件ppt
20
Spearman等级相关系数—定序变量之 间的相关性的度量
斯皮尔曼等级相关的适用条件为:
两个变量为定序变量。 一个变量为定序变量,另一个变量为尺度数据,且
两总体不是正态分布,样本容量n不一定大于30。
精选课件ppt
27
SPSS的“偏相关”过程计算偏相关系数,该 系数在控制一个或多个附加变量效应的同时描 述两个变量之间的线性关系。
打开health_funding.sav数据文件,选择【分 析】→【相关】→【偏相关】
精选课件ppt
28
精选课件ppt
29
精选课件ppt
30
动手练习
分析数据car_sales.sav中变量汽车销量和汽车 耗油量之间的关系。它们是否有线性相关性? 如果没有线性相关性,二者之间有其它关系吗?
SPSS数据分析-第7讲
—《SPSS数据分析教程》
精选课件ppt
1
主要内容
相关分析的基本概念 如何绘制各种散点图 三种相关系数的偏相关分析的概念、方法和结
果解释 列联表分析
精选课件ppt
2
第七章SPSS的相关分析PPT课件
2024/10/14
25
基本操作步骤
• 菜单选项:analyze->correlate->partial
选择参与分析的 变量
选择一个或多个 控制变量
option选项:
– zero-order correlations:输出简单相关系数
20• 将家庭常住人口数作为控制变量,对家庭收入与计划购房面积做偏相 关分析
• 利用住房状况调查数据,分析家庭收入和计划购买的住房面积之间的 关系
• 两变量均为定距变量,采用简单相关系数
2024/10/14
21
偏相关分析
• 研究商品的需求量和价格、消费者收入之间的关系. – 需求量和价格之间的相关关系包含了消费者收入对商品需求量的 影响;同时收入对价格也产生影响,并通过价格变动传递到对商 品需求量的影响中
相关分析 须面对的 四个问题
关系的 强度如何
※这种关系 是否为因果
关系
这种关系 能否从样本推
到总体
2024/10/14
9
相关系数
• 相关系数以数值的方式精确地反映了两个变量间线性相关的强弱程度 • 利用相关系数进行变量间线性关系的分析的步骤
1. 计算样本相关系数r – 相关系数r的取值在-1~+1之间 – R>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的
线性相关关系 – R=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相
关;r=0表示两变量不相关 – |r|>0.8表示两变量有较强的线性关系; |r|<0.3表示两变量之间的
线性关系较弱 2. 对样本来自的两总体是否存在显著的线性关系进行推断
2024/10/14
spss软件操作指南ppt课件
ppt课件.
26
One-Samples T Test过程
• One-Samples T Test过程用于进行样本均数与已知总体均 数的比较。
界面说明
• 【Test Variables框】
• 用于选入需要分析的变量。
• 【Test Value框】
• 在此处输入已知的总体均数,可以自行定义已知总体均数 为任意值,默认值为0。
(2)指定标记变量到 Label Case框 中。这与制作简单散点图中的相同。
ppt课件.
12
对于矩阵散点图主要需要定义:
(1)定义参加绘图的几个变量到Matrix框中。这里
应注意:选择变量的先后顺序,决定了矩阵正对角线上
变量的排列顺序。
(2)指定分组变量到Set Markers框中。这与制作简
单散点图中的相同。
• Kendall's tau-b复选框 计算Kendall's等级相关 系数,其计算等级变量间的秩相关。
• Spearman复选框 计算Spearman相关系数。也是计 算等级相关系数。 以上三种相关分析可以选择其中之一,也可以同时 多选。如果参与分析的变量是连续变量,选择 Kendall's tau-b或Spearman相关,则系统自动对 连续变量的值先求秩,pp再t课件计. 算其秩分数间的相关系16
(3)指定标记变量到Label Cases框中。这与制作简
单散点图中的相同。
对于三维散点图主要需要定义:
(1)指定散点图的y轴上的变量名到y Axis框中。
(2)指定散点图的x轴上的变量名到x Axis框中。
(3)指定散点图的z轴上的变量名到z Axis框中。
(4)指定分组变量到 Set Markers框中。这与制作
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《SPSS软件应用》教案
●复习一:数据库结构建立
Name(名称)必须定义,最好是问卷题目。
●复习二:数据合并
有两种:一种是添加个案,基于相同的变量结构而言;一种是添加变量,基于相同的个案而言。
●复习三:定距数据的分组
有两种方法:一是在transform下的visual bander(可视离散化)栏完成;一是在transform转换中的compute计算变量来完成。
通常采取Visual Bander来实现。
●复习四:数据编码和计数
Recode的重新编码功能:一般要求重新编码为一个新变量,目的是为了保持原有变量数据;不受变量层次限制,可以对所有变量进行重新编码;将原变量值按照“一对一”、“多对一”的对应关系生成新变量值。
Count(计数):计算标示值或者某些值在一个或多个变量取值中出现的次数;变量的取值原则上应当具有一致性。
●复习五:统计报表
OLAP Cubes过程(online Analytical Processing Cubes,在线分析处理立方)和Case Summaries(个案汇总)过程,是按照分组变量对摘要变量按照不同的分组水平进行统计的常用定量描述。
前者产生多层标,后者是全表。
第七讲简单描述统计(中)
上次我们讲了Analyze Descriptive Statistics中的两个子菜单,分别是Frequencies过程和Descriptives过程。
Frequencies过程不受测量层次限制;可以实现简单的集中、离散等基本统计描述,还可以实现百分位统计和频率统计;
Descriptive菜单只适合(虚拟)定距变量集中、离散和分布统计。
(三)Explore(探索分析)过程
目的:由于收集到的数据分布并不清楚,因此,需要对数据进行初步探索,
以便确定选择的统计方法。
目的是为了发现数据中的错误,探索变量分布特征。
实现路径:Analyze→Descriptive Statistic→Explore,就打开explore对话窗口。
[界面解释]
Dependent list(因变量列表):用来分析的(虚拟)定距变量。
Factor list(因子列表):也就是分组变量,一般为定类/序或分组定距变量。
Label Cases by(标注个案):选择一个变量,其取值将作为每条记录的标签。
Display:统计量(statistics)或绘制图( plots)或两者都显示
[例题:请尝试比较分析不同城市居民的建筑面积居住情况]
第一,具体操作流程如下:
将“城市”变量移入“Factor list(因子列表)”框内;
将“建筑面积”移入“Dependent list(因变量列表)”内;
不选择标注个案。
点击statistic后,出现统计窗口Explore:Statistics(探索:统计量)窗口
1) M-estimators (描述集中趋势的稳健极大似然估计量):这些估计量的值在用于观测值时分配于不同的权重而得到的,极端值权重小于或接近于中心观测值的权重,对具有长尾的对称分布或有极端值时,其给出比平均值或中位数更好的均值估计。
如果该估计值离均值和中位值较远,则说明数据中可能存在异常值,此时宜用该估计值代替均值反映集中趋势。
会输出Huber 稳健估计;Hampel 非降稳健估计;Andrew 波估计;Tukey 复权重估计。
2)Descriptives: confidence interval for Mean:95%( 95%置信度下的均值置信区
间):指 ⎪⎪⎭⎫
⎝⎛σ+σ-ααn Z x ,n Z x 22; 3)Outliers (界外值):输出五个最大值和最小值;
4)Percentiles (百分位):输出5%、10%、25%、50%、75%、90%、95%分位数。
点击plots (绘制)后,出现绘图窗口;
Boxplots (箱图):按照factor level together(因子水平分组)、Dependent together(因变量分组)、none(无);
Descriptive(描述):Stem and leaf(茎叶图)、histogram(直方图);
normality plots by tests (正态检验);
Spread 或Level with Levene Test (扩展或水平检验):none(无)、P ower estimate (幂估计)、Transformed(已转换)可以选择各种形式的幂(如自然对数)。
这部分属于高级分析功能,当选入Factor List 的分组变量时可用,其目的是判断各组间的离散程度是否相同,并寻找一个比较合适的变量变换方法;可以进行稳健的Levene 方差齐性检验。
第二,输出结果呈现
解释:广州调查样本的平均建筑面积为59.63平方米,比韶关的平均建筑面积少21.08平方米;广州在95%置信度下的均值置信区间的上限值远小于韶关的下限值;去掉5%的尾数值,所计算出来的广州平均建筑面积依然比韶关的要少21.83;韶关的中位值比广州的大20.50平方米,由此可以初步判断广州居民的居住面积普遍偏低,与韶关相比偏低。
从标准差来看,韶关的为31.702,广州的威37.493,韶关的最大最小值差为269平米,广州的最大最小值差为389平方米,这些数据95%置信度下的均值间距区间 5%切尾均值 四分位差
说明广州居民内部的居住面积差异比韶关的要大。
通过广州和韶关的集中与离散趋势分析,发现建筑面积在区域之间是存在显著差异的,因此,我们在日后分析过程中,可以考虑将区域变量与建筑面积进行交互分析,看二者之间的相关强度到底有多高?或者是将区域变量作为Layer 层控制变量。
解释:从表中的4个M估计值来看,M估计值的值与韶关和广州的实际观测样本中位值77.50和57.00相差不太大;但是离均值80.71和59.63却相对较远,因此可以认为建筑面积这一变量的分布不具合理的正态性。
解释:这是极端值表,给出了在不同区域的调查者建筑面积对应的最高和最低的5个调查对象对应的面积数。
极端值表能够直观地告诉我们数据的极端分布
情况。
解释:建筑面积的方差齐性检验表,无论是基于平均值、中位值、调整自由度的中位值还是切尾均值,所计算出来的Levene统计值都通过了显著性检验,Sig .栏的P=0.000,小于0.05,原假定(韶关和广州的建筑面积的方差相等)的假定被否定,从而说明韶关和广州的建筑面积在均值和中位值的差异显著,正态曲线拟和差。
解释:这是正态性检验表,原假定(虚无假设)假设韶关和广州的建筑面积的分布具有正态性。
但是K-S和S-W的统计检验值的显著性水平P都小于0.05,从而否定了原假定,由此认为数据具有正态分布的虚无假设被否定,进而
得出结论,无论是广州还是韶关的建筑面积变量数据的正态曲线拟和差。
解释:这是将建筑面积以10为组距,每一叶代表1个个案而形成的茎叶图,从图形中我们可以在226个广州调查样本中有214个样本的建筑面积集中分布在10-100平方米之间。
解释:上图是韶关和广州的建筑面积箱形图,主要是最小值、25%、50%、75%和最大值这五数总和,我们可以看到广州的75%位值-25%位值的差距比韶关的要大,由此可以说明广州建筑面积的离散程度比韶关强。
[学生练习]
请尝试分析不同教育程度(a6.1)的去年平均月总收入(c14)的分布情况。
(提示:可以尝试对教育程度进行重新编码后再进行分析),然后Crosstab分析不同教育程度与去年平均月总收入之间的相关关系程度,并写一份实验报告。