SPSS数据的基本统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目标二:分析储户一次存(取)款金额的分布,并对城镇 储户和农村储户进行分析比较。
分析思路: 由于存(取)款金额属于定距型变量,直接采用频数分析不利于
对分布形态的把握。 运用数据预处理中的‘数据分组’功能 对数据分组后再编制频数分布表。如:将(取)款金额重新分成5 组:少于500元、500-2000、2000-3500、3500-5000、5000以上。
指定输出 多个百分 位数
集中趋势测量
对于分组数据,计算百分位数值 和中位数时,用各组的组中值代 表各组数据。
数据分布形态的偏 斜度和方向 数据分布形态的陡 缓程度
分位数是变量在不同分位点上的取值,从一个侧面清楚地刻画了变量的取值分布状态。分位 数差是一种描述数据离散程度的方式。分位数差越大,表示数据在相应分位段上的离散程度 越大。
源变量框
待分析变量
选择统计量 选择图表 选择输出格式
要求输出频数分析表格
• 制作频数分布表(频数、百分比):以表格形式呈现各 个数据的次数分布情况,包括频数、百分比,有效百分比、 累计百分比。
百分位 数选项
第25、50、 75个百分 位数点对 应的变量 值
离散 趋势 测量
把数值平均 分为n份,每 个等分位点 对应的变量 值 (2≤n≤100)
是用宽度相同的条形的高度或长短来表示频数分布变化的图形;饼图(pie chart)是用圆形或圆内 扇形的面积来表示频数分布变化的图形。
案例分析:居民储蓄调查数据
目标一:分析储户的户口和职业的基本情况; 目标二:分析储户一次存(取)款金额的分布,并对城
镇储户和农村储户进行分析比较。
目标一:被调查者的户口和职业情况的频数分布表和统计图
对比城镇储户和农村储户情况,可采用数据预处理中的‘数据拆 分’并计算样本存(取)款金额的四分位数、峰度、偏度等。
储户一次存(取)款金额的分布情况:
被调查者有近一半的储户一次存取款金额在500元以下,2000-3500元的最少。从 图形看来,储户的存(取)款金额呈明显的右偏分布,即一次存取款金额偏低的 占较大比例,也有少数金额偏高的储户。
定类 定序
定距 定比
众数Mode 中位数Median
均值Mean
异众比率V 四分位差Quartiles
全距 Range 方差 Variance 标准差Std.deviant
均值:某变量所有取值的平均水平,其大小易受到 数据中极端值的影响。
众数Mode:是一组数据中出现次数最多的数据。
中位数Median:一组数据按升序排序后处于中间位 置的数据。
对称性相比较而得到的。如果分布的偏度等于0 ,则其数据分布的对称性与
正态分布相同;如果偏度大于0,则其分布为正偏或右偏;如果偏度小于0,
则为负偏或左偏。
不同等级的变量描述性指标
集中趋势
Central tendency (一组数据向某一 中心靠拢的倾向)
离散趋势
Dispersion(一组数据远 离其‘中心值’的程度)
SPSS基本统计分析
单变量的频数分析 单变量的基本描述统计量的计算 多变量的交叉频数表的编制和分析 探索性分析 数据的多选项分析
1.频数分析
通过频数分析能够了解变量取值的状况,把握数据的分布特征,能反映 样本是否具有总体代表性,抽样是否存在系统偏差等。
频数分布分析过程 (1)程序:分析(analyze)-描述统计(descriptive)-频数 (frequency) (2)选择一个或多个频数分析变量放进‘变量’框中 (3)选中右下角‘显示频数表格’ (4)点击‘统计量’、‘图表’、‘格式’依次进行设置
均值标准误差:是描述样本均值与总体均值之间差 异程度的统计量。
标准差:反映变量取值距离均值的平均离散程度。 其值越大,变量间的差异越大。
方差:是标准差的平方,反映变量取值离散程度。 其值越大,变量间的差异越大。
全距range:也称为极差,是数据最大值与最小值之 间的绝对差,也是反映变量取值的离散程度。
城镇和农村居民储户一次存(取)款金额的比较:
从均值以 及四分位 数差可以 看出城镇 储户存取 款金额的 离散度大 于农村储 户(尤其 在高金额 区),且 城镇储户 的存取款 金额高于 农村储户。
2.基本描述性统计分析
基本的描述性统计量大致有三类:一是刻画集中趋势的描述统计量; 二是刻画离散程度的描述统计量;三是刻画分布形态的描述统计量。 通过以上三类统计量能较为准确地把握数据的分布特点。
均值 = 中位数 = 众数
均值
中位数
对称分布
众数
中位数
均值
众数
左偏
右偏wenku.baidu.com
不输出任何图形
输出条形图 输出饼图 直方图
输出正态分布曲线
直方图:是用矩形的面积来表示频数分布变化的图形。适用于连续性数据,即:定距数据 条形图、饼图:适用于离散型数据,即定序、定类和分组后的定距数据。其中,条形图(bar chart)
对数据标准化 Zi xi,u 并作 为新变量保存在文件中。
案例分析:居民储蓄调查数据
目标一:计算存(取)款金额的基本描述统计量,并分 别对城镇储户和农村储户进行比较;
目标二:分析储户一次存(取)款金额的数量是否存在 不均衡现象。
目标一的分析结果:
城镇储户的平均存取款金额(2687.2)高于农村储户(1944.97);从标准差 及全距可看出,城镇储户存取款金额的离散程度低于农村储户。从峰度和偏度 看来,城镇和农村储户存取款金额的分布均呈现右偏和尖峰分布,只是农村储 户右偏斜程度及尖峰程度更大;总体而言,城镇储户和农村储户中的大部分人 一次存取款金额都低于平均水平,且农村储户表现得更为明显。
基本的描述统计分析过程: (1)程序:分析(analyze)-描述统计(descriptive statistics) -描述(descriptive) (2)选择要描述的一个或多个数值型变量 (3)点击‘选项’按钮,做二级对话框设置 (4)选中右下角‘标准化得分保存为变量’可将数据标准化后的取 值保存到数据文档中。
峰度(Kurtosis) : 是描述某变量所有取值的分布形态陡缓程度的统计量, 而峰度对陡缓程度的度量是与正态分布进行比较的结果。如果峰度等于0 , 其数据分布的陡缓程度与正态分布相同;峰度大于0,其数据分布比正态分布 更陡峭;峰度小于0,其数据分布比正态分布更平坦。
偏度(Skewness):是描述数据分布对称性的统计量,而且也是与正态分布的