SPSS学习笔记

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算新变量: compute
变量转换: recode,visual bander,count,rank cases,automatic recode 五个过程,可以看成是 compute 再某一方面的强化和打包。
专用过程:建立时间序列、缺失值代替和设定随机种子三个过程,前两个专用于时间序列 模型。设定随机种子的功能主要影响伪随机函数的使用。
2、如果变量之间有 多层因果关系 ,就可以由多个内在联系得多元回归方程组成一套 析连立方程组,每个方程都通过多元回归求解系数,然后应用通径分析分解变量之间的直 接作用和间接作用。
通径分
3、如果一套联立方程组中 含有潜在变量 (即不可直接观测的变量),便不能再用最小二乘 法求解,这是可以应用 结构方程模型 ,它主要采用 最大似然 估计求解。
所谓变量的秩序,就是对记录按照某个变量值得大小来排序。 专用过程。
Rank cases 就是用来排序的
Count:该过程用来表示某个变量的取值中是否出现某个值,可以使单个数值,也可以指定 区间,并且可以仅给出条件,而不必对整个数据集进行操作。该过程可以直接使用 过程来实现。
recode
Random number seed:默认情况下,随机种子随时间不停改变,这样计算出的随机数值无 法重复,可以用该过程人为指定一个种子,以后所有的伪随机函数在计算时都会以该种子 开始计算,即结果可以重现。
积差相关系数的适用条件: 在相关分析中首先要考虑的问题就是两个变量是否可能存在相关关系,如果得到了肯定的 结论,那才有必要进行下一步定量的分析。另外还必须注意以下几个问题:
1、 积差相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,积差相关系 数的大小并不能代表相关性的强弱。
2、 样本中存在的极端值对积差相关系数的影响极大,因此要慎重考虑和处理,必要时可 以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。
在数据分析中,将字符变量转换为数值变量是非常实用的一个功能,除了使用
recode 过程
手工设定转换规则外,还可以使用 automatic recode 过程自动按照原变量的大小或者字母排
序生成新变量,而变量值就是原值的大小次序。
Automatic recode 的排序功能和 rank cases类似,不同在于, automatic recode 可以用于字符 型变量。
Spss 学习笔记( 3)
有关因子分析和回归分析 因子分析
是一种多变量化简技术。目的是分解原始变量,从中归纳出潜在的 指标归为一类,不同类间变量的相关性较低。每一类变量代表了一个 内在结构,因子分析就是要寻找该结构。
“类别 ”,相关性较强的 “共同因子 ”,即一种
适用条件 样本量 样本量与变量数的比例应在 5:1 以上 总样本量不得少于 100,而且原则上越大越好
如有必要,可计算出因子得分等中间指标供进一步分析使用 公因子数量的确定
主成分的累积贡献率: 80~85%以上 特征根:大于 1
综合判断 因子分析时更重要的是因子的可解释性 回归分析的基本步骤 (1) 确定自变量和因变量 (2) 从样本数据出发确定变量之间的数学关系式 ,并对回归方程的各个参数进行估计 . (3) 对回归方程进行各种统计检验 . (4) 利用回归方程进行预测 . 通径分析实际上是回归分析的扩展,同时又是结构方程模型的一种特例情况。 对于应用来说,更重要的问题是,各种方法都是在一定具体条件下应用的,因此如何选择 恰当的方法便成为正确应用这些方法的前提。
Spss 学习笔记( 2)
相关分析和回归分析: 都可以用来考查两个连续变量间的关系,但反映的是不同的侧面。 尽管在提及相关分析的时候,往往考查的都是两个连续变量的相关关系,但实际上对任何 类型的变量,都可以使用相应的指标进行相关关系得考查。 测量相关程度的相关系数很多,各种参数的计算方法及特点各异。 连续变量的相关指标 : 此时一般用积差相关系数,又称 pearson 相关系数来表示其相关性的大小,积差相关系数 只适用于两变量呈线性相关时。其数值介于 -1~1 之间,当两变量相关性达到最大,散点呈 一条直线时取值为 -1 或 1,正负号表明了相关的方向,如果两变量完全无关,则取值为 零。 作为参数方法,积差相关分析有一定的适用条件,当数据不能满足这些条件时,分析者可 以考虑使用 Spearman 等级相关系数来解决问题。 有序变量的相关指标: 所谓有序的等级资料的相关性 /一致性高,就是指行变量等级高的列变量等级也高,反之亦 然。如果行变量等级高而列变量等级低,则被称为不一致。 简单相关分析: 当两个连续变量在散点图上的散点呈现直线趋势时,就可以认为二者存在直线相关趋势, 也称为简单相关趋势。 Pearson 相关系数,也称乘积相关系数,就是人们定量描述线性相关 程度好坏的一个常用指标。
变量的分布不做要求,属于非参数统计方法。因此它的适用范围比
Pearson 相关系数要广
的多。即使原始数据是等级资料也可以计算
Spearman 相关系数。对于服从 Pearson 相关系
数的数据也可以计算 Spearman 相关系数,但统计效能比 Pearson 相关系数要低一些(不容
易检测出两者事实上存在的相关关系)。
各变量间必须有相关性 KMO 统计量: 0.9 最佳, 0.7 尚可, 0.6 很差, 0.5 以下放弃 Bartlett 球’形s检验 标准分析步骤
判断是否需要进行因子分析,数据是否符合要求 进行分析,按一定标准确定提取的因子数目
如果进行的是主成分分析,则将主成分存为新变量用于继续分析,步骤到此结束 如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳 解释方式
Data 菜单说明: 简单命令:包括插入变量、插入记录和到达某条记录,这些功能都可以用鼠标在数据界面 上直接完成,很少会使用菜单调用。 常用的简单过程:包括排序、拆分文件、选择记录和加权记录。 变量与数据文件属性向导:用于定义数据字典,或者将预定义的数据字典直接引入当前数 据文件,对于大型或者连续性的数据分析项目而言,这是一个非常有用的功能。 数据重构向导:用于进行数据转制,或者对重复测量数据进行长型、宽型记录格式间的转 换。 文件合并过程:用于生成实施联合分析所需的设计。 其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录向导。
距离测量指标,根据不同的数据类型,距离测量指标也有所不同。分为连续性变量、频数 表资料和二分类变量三种。
相似性测量指标时间上就是前述的那些相关分析指标体系,只是更为详细一些,主要分为 剂量资料和二分类变量两种。
相关和回归描述的是两变量间联系的不同侧面,简单回归分析就是寻找因变量数值随自然 量变化而变化的直线趋势,并在散点图上找到这样一条直线,相应得方程也就被称为直线 回归方程。
Distinces 过程就可以用于计算记录(或变量)间的距离(或相似程度),根据变量的不同 类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析的 过程,因此距离分析并不会给出常用的 p 值,而只给出各变量 /记录之间的距离大小,以供 用户自行进行判断相似性。
Distinces 过程可以计算距离测量指标或者相似性测量指标,这可以在主对话框中加以切 换。
Kendall ’ s-tbau等级相关系数是用于反映分类变量相关性的指标,适用于两个变量均为有序 分类的情况。
简单相关和偏相关有一个共同点,就是对所分析的数据背景应当有一定程度的了解。在这 种情况下进一步进行积差相关系数的计算,以在定量的水平上对这种关联予以确认。同 理,计算偏相关系数也是同样的情况,只是又在计算积差相关系数的基础上考虑了其他因 素的影响。但有的时候会遇到一种情况,在分析前对数据所代表的专业背景知识了解的尚 不充分,本身就属于探索性的研究,这时往往需要先对各个指标或者案例的差异性、相似 程度进行考察,以先对数据有一个初步的了解,然后再根据结果考虑如何进行深入的分 析。
通过回归方程解释两个变量之间的关系会显得更为精确。除了描述两个变量之间的关系 外,回归方程还可以进行预测和控制。
无序分类变量的统计推断: x2 检验 主要用于检验某无序分类变量各水平在两组或多组间的分布是否一致。还可以用于检验一 个分类变量各水平出现的概率是否等于指定概率;一个连续变量的分布是否符合某种理论 分布等。其主要用途:
Aggregate 数据汇总:分类汇总就是按照指定的分类变量对观测值进行分组。分类汇总的分 类变量可以指定多个,称为多重分类汇总。 Define variable properties :变量属性定义向导,用于对数据集中已存在的变量进一步定义其 属性。 Copy Data Properties :用于将定义好的数据字典直接应用到当前文件中。 Identifying Duplicate cases :查找个别变量值重复,或者所有数值完全重复的记录。 Restructure:根据用户的要求改变数据的排列格式。 Transpose:用于对数据进行行列转置。主要用于编成,进行矩阵运算时的矩阵转置操作。 数据文件的合并有两种:纵向连接和横向合并。纵向连接是几个数据集中的数据纵向相 加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。横向合 并是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个 数据集,新数据集中的变量数十所有原数据集中不重名变量的总和。
Spss 学习笔记( 4)
对于 12 种社会统计方法 ,可以用最简练的语言将这些分析方法加以概括: 1、 多元回归 应用于单方程模型,其 因变量 必须为 测量性变量 ,其 自变量 可以为 测量型变 量或虚拟型变量 。研究目的是 通过自变量的变化来预测因变量的变化 ,多元回归用最小二 乘法求解回归系数。
数据分析中,将连续变量转换为等级变量,或将分类变量不同的变量等级进行合并是常见 的工作。而 recode 可以很好的完成这个任务。
Recode 提供了精确的分组功能,但是如果希望进行的分组是有规律的,比如等距分组或者 等样本量分组,使用 recode 过程进行操作就显得非常麻烦,而且可视化程度不高,可以使 用 visual bander 过程进行可视化分段。
Sort cases:记录排序。
Split file :记录拆分。 Select cases:不需要分析全部的数据,而是按照要求分析其中的一部分。 Weight cases:记录加权。默认情况下,每行就是一条记录,但是有时非常麻烦。这时候可 以使用频数格式录入数据,即相同取值的观测只录入一次,另加一个频数变量用于记录该 数据出现了多少次。
3、 积差相关系数要求相应得变量呈双变量正态分布,注意双变量正态分布并非简单的要 求 x 变量和 y 变量各自服从正态分布,而是要求服从一个联合的双变量正态分布。
以上几条要求中,前两者的要求最严,第三条比较宽松,违反时系数的结果也是比较稳健 的。
Spearman 相关系数又称为秩相关系数,使利用两变量的秩次大小作线性相关分析,对原始
1、 检验某个连续变量的分布是否与某种理论分布相一致。 2、 检验某个分类变量各类的出现概率是否等于制定概率。 3、 检验某两个分类变量是否相互独立。 4、 检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。 5、 检验某两种方法的结果是否一致。 主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往 往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而 无法得出正确结论。主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互 独立的少数几个能充分反映总体信息的指标,便于进一步分析。
Spss 学习笔记 (1)
在 spss 中, 数据文件的管理功能 基本上都集中在 data 和 transform 菜单上,其中 transform 主
要实现变量级别的数据管理,如计算新变量、变量取值重新编码等,
data 的功能主要是实现文
件级别的数据管理,如变量排序,文件合并、拆分等
wk.baidu.com

Transform 菜单说明:
相关文档
最新文档