第三章 SPSS的基本统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

频数分析
• 目的 了解变量取值的状况,粗略把握变量值的分布状况 – 研究被调查者的特征(如:性别、年龄、职业) • 通过这些分析,能够在一定程度上反映出样本是否具有总 体代表性,抽样是否存在系统偏差等,并以此证明以后相 关问题分析的代表性和可信性 • 方法 – 编制频数分布表:包括计算频数、百分比、累计百分比 – 绘制统计图形:条形图、饼图、直方图
刻画离散程度的描述统计量
• 离散程度反映各变量值远离其中心值的程度(离散程度), 它从另一个侧面说明了集中趋势测度值的代表程度。 – 如果数据都紧密地集中在“中心值”的周围,数据的 离散程度较小,说明这个“中心值”对数据的代表性 好 – 如果数据仅是比较松散地分布在“中心值”的周围, 数据的离散程度较大,则此“中心值”说明数据特征 是不具有代表性的
1 n x xi n i 1
• 适用于定距数据。 • 特点:利用了全部数据,易受极端值的影响
刻画集中趋势的描述统计量
• 中位数(Median):即一组数据按升序排序后,处于中 间位置上的数据值。如评价社会的老龄化程度时 • 众数(Mode):即一组数据中出现次数最多的数据值。 如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用 众数
频数分析基本操作
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)按chart选项,选择所需要绘制的统计图形 (4)按Format按钮,调整频数分布表中数据的输出顺序
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则 输出第25、50、75百分位 数 自定义百分位数,可输 入0—100 的整数。
– 累计百分比(Cumulative Percent)
各百分比逐级累加起来的结果。最终取值为百分之百
统计图
• 柱形图或条形图(Bar Chart) – 用宽度相同的条形的高度或长短来表示频数分布变化的图形 – 适用于定序和定类变量的分析 – 柱形图的纵坐标或条形图的横坐标可以表示频数,也可以表示百 分比 – 分为单式图和复式图等形式
基本统计分析
在Analyze--Descriptive Statistics菜单中,包括: Frequencies:频数分析过程,特色是产生频数表(主 要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述 (主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探 索性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析
基本统计量
分布
当Variables框中有多个变量 时,此框确定其输出顺序: 按Variables框中的排列顺 序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
Options 对话框
例题 3.2
• 利用住房状况问卷调查数据,对人均住房面积计算基本描 述统计量,并分别对本市户口和外地户口家庭进行比较 – 分析:首先按照户口对数据进行拆分(Split file),然 后计算人均住房面积的基本描述统计量
1 n 3 3 Skewness ( xi x) / n i 1
– – – – 偏度为0表示对称; 大于0表示正偏差大(右偏) 小于0表示负偏差大(左偏) 偏度绝对值越大,表示数据分布形态的偏斜程度越大
刻画分布形态的描述统计量
• 峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度 的统计量
数据标准化处理
• 用于对异常值的判断
xi x Zi S
• 新变量被称为标准化值或Z分数,反映的是样本值与均值 的差是几个标准差单位 • 小于0表示在平均水平下,大于0反之
• 3σ 准则:如果标准化值的绝对值大于3,则认为是异常值
数据标准化处理
• 正态分布的数据标准化后呈标准正态分布 –数值分布在正负一个标准差之内的可能性为68.2% –数值分布在正负两个标准差之内的可能性为95.4% –数值分布在正负三个标准差之内的可能性为99.7% • 如果异常数的总比例大于0.3%,则认为该组数据存在一定 的不均衡
刻画离散程度的描述统计量
• 全距(Range):也称极差,是数据的最大值(Maximum) 与最小值(Minimum)之间的绝对离差。 • 方差(Variance):各变量值与算数平均数离差平方的算 术平均数。其计算公式为
n 1 2 ( xi x) 2 n i 1
• 标准差(Standard Deviation:Std Dev):表示变量取值 距离均值的平均离散程度的统计量。其计算公式为
频数分析中的扩展功能—计算分位数
• 分位数是变量在不同分位点上的取值。分位点在0~100之间
• 一般使用较多的是四分位点(Quartiles),即将所有数据按升序排 序后平均等分成四份,各分位点依次是25%, 50%, 75%。于是, 四分位数分别是25%, 50%,75%分位点对应的变量值 • 此外,还有八分位数、十六分位数等
2、分析过程: (1)数据分组,将人均住房面积重新分成四组,四组区 间分别为,少于10平方米,10-20平方米,20-30平 方米,30平方米以上。分组后进行频数分析并绘制带 正态曲线的直方图。 (2)利用SPSS的频数分析计算所有样本的人均住房面 积的四分位数;然后,按照户口类型对数据进行拆分 (Split file)并重新计算分位数,分别得到本地户口和 外地户口的人均住房面积的四分位数。
• 饼图(Pie Chart) – 用圆形及圆内扇形的面积来表示频数百分比变化的图 形 – 有利于研究事物内在结构组成等问题 – 饼图中圆内的扇形面积可以表示频数,也可以表示百 分比
• 直方图(Histograms) – 用矩形的面积来表示频数分布变化的图形 – 适用于定距型变量的分析 – 可以在直方图上附加正态分布曲线,便于与正态分布 的比较
计算分位数
适用于定序数据 – 数据按升序排序后,找到若干个分位点上的变量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、 75%(QU) – cut points for n equal groups:n等份 – percentile:自定义百分位点 • 分位数的应用 – 在排除极端值影响的条件下,通过计算分位数差,比 较两组样本数据的离散程度
频数分布表
• 内容 – 频数(Frequency)
变量值落在某个区间(或某个类别)中的次数
– 百分比(Percent)
各频数占总样本量的百分比
– 有效百分比(Valid Percent)
各频数占总有效样本量的百分比 有效样本量=总样本-缺失样本量 在不包含缺失值个案的所有个案中各变量取值频数的比例
基本描述统计量
• 目的 – 精确把握变量的总体分布状况,了解数据的集中趋势、 离散趋势、对称程度、陡峭程度
• 常见的基本描述统计量有三大类: – 刻画集中趋势的统计量 – 刻画离散趋势的统计量 – 刻画分布形态的统计量
刻画集中趋势的描述统计量
• 集中趋势是指一组数据向某一中心值靠拢的倾向 • 计算刻画集中趋势的描述统计量正是要寻找能够反映数据 一般水平的“代表值”或“中心值” – 均值(Mean):即算术平均数,是反映某变量所有取 值的集中趋势或平均水平的指标。如某企业职工的平 均月收入。其计算公式为
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
例题3.1
• 利用住房状况问卷调查数据 – 分析被调查家庭中户主的从业状况和目前所住房屋的 产权状况 – 分析人居住房面积的分布状况,并对本市户口和外地 户口家庭进行比较
目标一:分析从业状况和目前所住房屋的产权状况 (1)产权状况和从业状况两个变量都是定类型变量,可通 过基本频数分析实现。 (2)职业变量的取值(分类)数目较多,为使频数分布表 更一目了然,应对内容的输出顺序进行调整,单击Format 按钮,选择Descending counts按频数的降序输出。 (3)单击Chart按钮指定输出产权变量的饼图和职业变量 的柱形图。
• save standardized values as variables选项 –将变量作标准化后,结果存入名为“Z+原变量名”的新 变量中
例题 3.3
• 利用住房状况问卷调查数据,分析人均住房面积是否存在 不均衡现象 – 分析:假设人均住房面积服从正态分布,跟据3σ原则, 异常值通常为3个标准差范围之外的值,可通过对数据 的标准化处理来判断 – 通过标准化可以得到一系列新变量值 – 对新变量进行排序并浏览其标准化值的取值情况,可 以发现 z 分数值得绝对数大于 3 的家庭是存在的。对其 分组为三组:z人均面积<-3, -3<z人均面积<3, z人均 面积>3。并进行频数分析
目标二:分析人均住房面积的分布状况,并对本市户口和 外地户口家庭进行比较。 1、分析思路: ( 1 )由于人均住房面积数据为定距型变量,直接采用频 数分析不利于对其分布形态的把握,因此考虑依据第三 章中的数据分组功能对数据分组后再编制频数分布表。 ( 2 )进行数据拆分,并分别计算本地户口和外地户口的 人均住房面积的四分位数,并通过四分位数比较两者分 布上的差异。
1 n Kurtosis ( xi x)4 / 4 3 n i 1
– 峭度为0表示与标准正态分布峭度相同 – 大于0表示比标准正态分布陡,尖峰 – 小于0表示比标准正态分布缓;平峰
偏态
峰态
左偏分布
扁平分布
与标准正态 分布比较!
右偏分布
尖峰分布
计算基本描述统计量的操作
(1)菜单选项:analyze->descriptive statistics->descripive (2)选择将参加计算的数值型变量名到variables框。 (3)按Options按钮指定计算哪些基本描述统计量,选择相 应的选项
• multiple variables单选框组 – 如果选择了两个以上变量作频数表,则compare variables可以将所有变量的结果在同一个频数表过程 输出结果中显示,便于互相比较
– organize output by variables则将结果在不同的频数表 过程输出结果中显示,每一个变量一张表
第三章 SPSS的基Baidu Nhomakorabea统计分析
基本统计分析
• 通过基本统计分析,能够使分析者掌握数据的基本统计特征,把握数 据的总体分布形态。基本统计分析的结论对今后进一步的数据建模, 将起到重要的指导和参考作用 – 频数分析 – 计算基本描述统计量(分布特征测度) – 列联分析(交叉分组下的频数分析) – 多选项分析 – 比率分析 • 两种方式 – 数值计算 – 图形绘制
2
M

[ x E ( x )]
M
2


n
• 因此,均值标准误差是描述样本均值与总体均值之间平均 差异程度的统计量。 • 样本数越大,样本均值的离散程度越小,对真值的估计越 准确
刻画分布形态的描述统计量
• 数据的分布形态主要指数据分布是否对称,偏斜程度如何, 分布陡峭程度等 • 偏度(skewness):描述某变量分布形态的偏斜程度和方向 的统计量
集 中 趋 势 栏
离散趋势
输出统计量对话框
分布形态栏
设置频数表输出的格式 选择频数表中排 列顺序 按变量升序排 列,此为默认 按变量降序排 列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
控制频数表输出的分 类数量。默认为10 Format 对话框
s 1 n 2 ( x x ) i n i 1
均值标准误差(Standard Error of Mean)
• 样本均值作为抽样样本的平均数也与总体均值之间存在差 异。若干次抽样后会得到若干个不同的样本均值,当样本 容量足够大时,这些均值服从正态分布,即X~N (μ,σ2/n) • 可见,样本均值与总体均值的平均差异 (离散)程度(方差) 为 /n。于是,均值标准误差的数学定义为: (x X ) S .E.of .Mean
相关文档
最新文档