第四章 SPSS基本统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 计算基本描述统计量的操作
(1)选择菜单Analyze-Descriptive Statistics- Descriptives,出现如下窗口:
(2)将需计算的数值型变量选择到Variable(s)框中。 (3)单击Option按钮指定计算哪些基本描述统计量, 出现如下窗口:
基本统计量 分布
当Variables框中有多个变量 时,此框确定其输出顺序: 按Variables框中的排列顺 序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
(3)压缩频数分布表(Suppress tables with more than n categories) 如果变量取值的个数或取值区间的个数太 多,频数分布表将很庞大,此时可以压缩它。 SPSS默认,如果变量取值的个数或取值区间 的个数大于10,则不输出相应的频数分布表 。应用中可以修改该值。
•计算基本描述统计量的应用举例
1. 利用住房问卷调查数据,对人均住房面 积计算基本描述统计量,并分别对本市户口和 外地户口家庭进行比较。 分析:首先按照户口状况对数据进行拆分 (Split file),然后计算人均住房面积的基 本描述统计量。
•2. 利用住房问卷调查数据,分析人均住房
面积是否存在不均衡现象。
第四章
SPSS的基本统计分析
基本统计分析是统计分析的第一步,做好这第 一步是下面进行正确统计推断的先决条件,通过基 本统计分析,能够使分析者掌握数据的基本特征, 把握数据的总体分布形态。 Frequencies:频数分析过程,特色是产生频 数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的 统计描述(主要针对数值型变量) Crosstabs:多维频数分布交叉表分析(列联表 分析) Ratio statistics:比率分析
S .E.of .Mean
其中:

n

为总体标准差,n为样本单位数
2、刻画离散程度的描述统计量 离散程度是指一组数据远离其“中心值”的 程度。 如果数据都紧密地集中在“中心值”的周围 ,数据的离散程度较小,说明这个“中心值”对 数据的代表性好;相反,如果数据仅是比较松散 地分布在“中心值”的周围,数据的离散程度较 大,则此“中心值”说明数据特征是不具有代表 性的。
• 频数分析扩展功能的应用举例
利用住房状况调查数据进行频数分析,有 以下两个分析目标:

目标一:分析住房面积的分布情况。 目标二:对本市户口与外地户口家庭进行比较。
4.2 计算基本描述统计量
• 基本描述统计量
常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
1、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢 的倾向。 (1)均值(Mean):即算术平均数,是反映某 变量所有取值的集中趋势或平均水平的指标。 如某企业职工的平均月收入。其计算公式为:
1 n x xi n i 1
(2)中位数(Median):即一组数据按升序排序后,处 于中间位置上的数据值。如评价社会的老龄化程度时, 可用中位数。 (3)众数(Mode):即一组数据中出现次数最多的数据 值。如生产鞋的厂商在制定各种型号鞋的生产计划时应 该运用众数。 (4)均值标准误差(Standard Error of Mean):描 述样本均值与总体均值之间的平均差异程度的统计量。 其计算公式为:
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数 自定义百分位数,可输 入0—100 的整数。
集 中 趋 势 栏
离散趋势
分布形态栏
输出统计量对话框
设置频数表输出的格式 选择频数表中排 列顺序 按变量升序排 列,此为默认 按变量降序排 列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
4.3 交叉分组下的频数分析
பைடு நூலகம்
• 目的和基本任务
1、目的:交叉分组下的频数分析又称列联表分析。通 过前面的频数分析能够掌握单个变量的数据分布情况 ,在实际分析中,不仅要了解单个变量的分布特征, 还要分析多个变量不同取值下的分布,进而分析变量 之间的相互影响和关系。对于这种涉及两个或两个以 上变量分布情况的研究通常要利用交叉分组下的频数 分析来完成。
注:变量的计量尺度:
a 定类(Category Scale):只能计次 b 定序(Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 d 定比(Ratio Scale):计次、排序、加减、乘除
(2)频数分析的第二个任务是绘制统计图
柱形图或条形图(Bar Chart):用宽度相同的条 形的高度或长短来表示频数分布变化的图形,适用 于定序和定类变量的分析。柱形图的纵坐标或横坐 标可以表示频数,也可以表示百分比。它们分为单 式图和复式图等形式。 饼图(Pie Chart):用圆形及圆内扇形的面积来 表示频数百分比变化的图形,以利于研究事物内在 结构组成等问题。扇形的面积可以表示频数,也可 以表示百分比。 直方图(Histograms):用矩形的面积来表示频 数分布变化的图形,适用于定距型变量的分析。也 可以在直方图上附加正态分布曲线,便于与正态分 布的比较
(2)峰度(Kurtosis):描述变量取值分布 形态陡峭程度的统计量。其计算公式为:
1 n Kurtosis ( xi x )4 / S 4 3 n 1 i 1
当数据分布与标准正态分布的陡峭程度相 同时,峰度值等于0;峰度大于0表示数据的 分布比标准正态分布更陡峭,为尖峰分布;峰 度小于0表示数据的分布比标准正态分布平缓 ,为平峰分布。
SPSS提供了计算任意分位数的功能,用户可以指定 将数据等分为n份(Cut points for n equal groups )。还可以直接指定分位点(Percentile)。
2、计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计 量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度 (Dispersion)的基本统计量、描述分布形 态(Distribution)的基本统计量等。
2
n
(3)样本标准差(Standard Deviation: Std Dev):表示变量取值距离均值的平均 离散程度的统计量。其计算公式为:
S
1 n 2 ( xi x ) n 1 i 1
标准差值越大,说明变量值之间的差异越 大,距均值这个“中心值”的离散趋势越大。
3、刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称 ,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: (1)偏度(Skewness):描述变量取值分布 形态对称性的统计量。其计算公式为:
控制频数表输出的分 类数量。默认为10
Format 对话框
3、频数分布表格式(Format)的定义
(1)调整频数分布表中数据的输出顺序( Order by):频数分布表中的内容的输出顺序 可以按变量值的升序输出(Ascending values),按变量值的降序输出( Descending values),按频数的升序输出 ( Ascending counts),按频数的降序输 出( Descending counts)。
4.1 频数分析
• 频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分 析能够了解变量取值的状况,把握数据的分布特征,能够 反映出样本在一定程度上的代表性与可信性
2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某 个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本 数的百分比,这里有效样本数=总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比 逐级累加起来的结果。最终取值为100。
2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列 联表; (2)在交叉列联表的基础上,对两两变量间是否存在 一定的相关性进行分析。 • 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个 任务。交叉列联表是两个或两个以上的变量交叉分组 后形成的频数分布表。 例:职工基本情况数据按职称和文化程度编制的二维 交叉列联表(见下页表):
分析:从分析住房面积是否有大量异常值入 手。假设人均住房面积服从正态分布,跟据3 原则,异常值通常为3个标准差范围之外的值, 可通过对数据的标准化处理来判断。标准化的数 学定义为:
xi x zi
• 通过标准化可以得到一系列新变量值,通常称为
标准化值或z分数。计算标准化值可以通过对话框 中的复选框save standardized values as variables来实现,并将结果保存在一个新变量 中。该变量的命名规则为字母z+原变量名的前七 个字符。 接下来可对新变量进行排序并浏览其标准化 值的取值情况,可以发现z分数值得绝对数大于3 的储户是存在的。对其分组为三组: z+原变量 名<-3, -3< z+原变量名<3, z+原变量名 >3并进行频数分析可以发现存款金额存在一定的 不均衡现象。
Options 对话框
在上面窗口中,用户可以指定分析多变 量时结果输出的次序(Display Order)。 其中,Variable list表示按变量在数据窗口 中从左到右的次序输出;Alphabetic表示按 字母顺序输出;Ascending Means表示按 均值升序输出;Descending Means表示按 均值降序输出。 至此,SPSS便自动计算所选变量的基 本描述统计量并显示到输出窗口中。
•SPSS频数分析的扩展功能
1、计算分位数(Percentile Values) 分位数是变量在不同分位点上的取值。分位点在0- 100之间。一般使用较多的是四分位点(Quartiles) ,即将所有数据按升序排序后平均等分成四份,各分位点 依次是25%,50%,75%。于是四分位数便分别是25 %,50%,75%点所对应的变量值。此外,还有八分位 数、十六分位数等。
(2)multiple variables单选框组:
如果选择了两个以上变量作频数表,则 compare variables可以将所有变量的结果在 同一个频数表过程输出结果中显示,便于互相比 较;organize output by variables则将结 果在不同的频数表过程输出结果中显示,每一个 变量一张表。
1 n 3 3 Skewness ( xi x ) / S n 1 i 1
当分布为对称分布时,正负总偏差相等, 偏度值等于0;当分布为不对称分布时,正负 总偏差不相等,偏度值大于0或小于0。偏度 值大于0表示正偏差值大,称为正偏或右偏, 直方图有一条长尾托在右面;偏度值小于0表 示负偏差值大,称为负偏或左偏,直方图有一 条长尾托在左面。偏度绝对值越大,表示数据 分布形态的偏斜程度越大。
常见的刻画离散程度的描述统计量如下: (1)全距(Range):也称极差,是数据的最 大值(Maximum)与最小值(Minimum )之间的绝对离差。 (2)样本方差(Variance):也是表示变量 取值离散程度的统计量,是各变量值与算数平 均数离差平方的算术平均数。其计算公式为:
1 2 S ( xi x ) n 1 i 1
•频数分析的基本操作
(1)选择菜单Analyze→Descriptive Statistics → Frequencies。 (2)将若干频数分析变量选择到Variable(s)框中。 (3)单击Chart按钮选择绘制统计图形,在Chart Values框中选择条形图中纵坐标(或饼图中扇形面 积)的含义,其中Frequencies表示频数; Percentages表示百分比。
相关文档
最新文档