SPSS知识学习记录文本

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Spss 学习笔记(1)
在spss中,数据文件的管理功能基本上都集中在data和transform菜单上,其中transform主要实现变量级别的数据管理,如计算新变量、变量取值重新编码等,data的功能主要是实现文件级别的数据管理,如变量排序,文件合并、拆分等。

Transform菜单说明:
计算新变量:compute
变量转换:recode,visual bander,count,rank cases,automatic recode五个过程,可以看成是compute再某一方面的强化和打包。

专用过程:建立时间序列、缺失值代替和设定随机种子三个过程,前两个专用于时间序列模型。

设定随机种子的功能主要影响伪随机函数的使用。

数据分析中,将连续变量转换为等级变量,或将分类变量不同的变量等级进行合并是常见的工作。

而recode可以很好的完成这个任务。

Recode提供了精确的分组功能,但是如果希望进行的分组是有规律的,比如等距分组或者等样本量分组,使用recode过程进行操作就显得非常麻烦,而且可视化程度不高,可以使用visual bander过程进行可视化分段。

在数据分析中,将字符变量转换为数值变量是非常实用的一个功能,除了使用recode过程手工设定转换规则外,还可以使用automatic recode过程自动按照原变量的大小或者字母排序生成新变量,而变量值就是原值的大小次序。

Automatic recode的排序功能和rank cases类似,不同在于,automatic recode可以用于字符型变量。

所谓变量的秩序,就是对记录按照某个变量值得大小来排序。

Rank cases就是用来排序的专用过程。

Count:该过程用来表示某个变量的取值中是否出现某个值,可以使单个数值,也可以指定区间,并且可以仅给出条件,而不必对整个数据集进行操作。

该过程可以直接使用recode过程来实现。

Random number seed:默认情况下,随机种子随时间不停改变,这样计算出的随机数值无法重复,可以用该过程人为指定一个种子,以后所有的伪随机函数在计算时都会以该种子开始计算,即结果可以重现。

Data菜单说明:
简单命令:包括插入变量、插入记录和到达某条记录,这些功能都可以用鼠标在数据界面上直接完成,很少会使用菜单调用。

常用的简单过程:包括排序、拆分文件、选择记录和加权记录。

变量与数据文件属性向导:用于定义数据字典,或者将预定义的数据字典直接引入当前数据文件,对于大型或者连续性的数据分析项目而言,这是一个非常有用的功能。

数据重构向导:用于进行数据转制,或者对重复测量数据进行长型、宽型记录格式间的转换。

文件合并过程:用于生成实施联合分析所需的设计。

其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录向导。

Sort cases:记录排序。

Split file:记录拆分。

Select cases:不需要分析全部的数据,而是按照要求分析其中的一部分。

Weight cases:记录加权。

默认情况下,每行就是一条记录,但是有时非常麻烦。

这时候可以使用频数格式录入数据,即相同取值的观测只录入一次,另加一个频数变量用于记录该数据出现了多少次。

Aggregate数据汇总:分类汇总就是按照指定的分类变量对观测值进行分组。

分类汇总的分类变量可以指定多个,称为多重分类汇总。

Define variable properties:变量属性定义向导,用于对数据集中已存在的变量进一步定义其属性。

Copy Data Properties:用于将定义好的数据字典直接应用到当前文件中。

Identifying Duplicate cases:查找个别变量值重复,或者所有数值完全重复的记录。

Restructure:根据用户的要求改变数据的排列格式。

Transpose:用于对数据进行行列转置。

主要用于编成,进行矩阵运算时的矩阵转置操作。

数据文件的合并有两种:纵向连接和横向合并。

纵向连接是几个数据集中的数据纵向相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。

横向合并是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数十所有原数据集中不重名变量的总和。

Spss 学习笔记(2)
相关分析和回归分析:
都可以用来考查两个连续变量间的关系,但反映的是不同的侧面。

尽管在提及相关分析的时候,往往考查的都是两个连续变量的相关关系,但实际上对任何类型的变量,都可以使用相应的指标进行相关关系得考查。

测量相关程度的相关系数很多,各种参数的计算方法及特点各异。

连续变量的相关指标:
此时一般用积差相关系数,又称pearson相关系数来表示其相关性的大小,积差相关系数只适用于两变量呈线性相关时。

其数值介于-1~1之间,当两变量相关性达到最大,散点呈一条直线时取值为-1或1,正负号表明了相关的方向,如果两变量完全无关,则取值为零。

作为参数方法,积差相关分析有一定的适用条件,当数据不能满足这些条件时,分析者可以考虑使用Spearman等级相关系数来解决问题。

有序变量的相关指标:
所谓有序的等级资料的相关性/一致性高,就是指行变量等级高的列变量等级也高,反之亦然。

如果行变量等级高而列变量等级低,则被称为不一致。

简单相关分析:
当两个连续变量在散点图上的散点呈现直线趋势时,就可以认为二者存在直线相关趋势,也称为简单相关趋势。

Pearson相关系数,也称乘积相关系数,就是人们定量描述线性相关程度好坏的一个常用指标。

积差相关系数的适用条件:
在相关分析中首先要考虑的问题就是两个变量是否可能存在相关关系,如果得到了肯定的结论,那才有必要进行下一步定量的分析。

另外还必须注意以下几个问题:
1、积差相关系数适用于线性相关的情形,对于曲线相关等更为复杂的情形,积差相关系数的大小并不能代表相关性的强弱。

2、样本中存在的极端值对积差相关系数的影响极大,因此要慎重考虑和处理,必要时可以对其进行剔出,或者加以变量变换,以避免因为一两个数值导致出现错误的结论。

3、积差相关系数要求相应得变量呈双变量正态分布,注意双变量正态分布并非简单的要求x变量和y变量各自服从正态分布,而是要求服从一个联合的双变量正态分布。

以上几条要求中,前两者的要求最严,第三条比较宽松,违反时系数的结果也是比较稳健的。

Spearman相关系数又称为秩相关系数,使利用两变量的秩次大小作线性相关分析,对原始变量的分布不做要求,属于非参数统计方法。

因此它的适用范围比Pearson相关系数要广的多。

即使原始数据是等级资料也可以计算Spearman相关系数。

对于服从Pearson 相关系数的数据也可以计算Spearman相关系数,但统计效能比Pearson相关系数要低一些(不容易检测出两者事实上存在的相关关系)。

Kendall’s tau-b等级相关系数是用于反映分类变量相关性的指标,适用于两个变量均为有序分类的情况。

简单相关和偏相关有一个共同点,就是对所分析的数据背景应当有一定程度的了解。

在这种情况下进一步进行积差相关系数的计算,以在定量的水平上对这种关联予以确认。

同理,计算偏相关系数也是同样的情况,只是又在计算积差相关系数的基础上考虑了其他因素的影响。

但有的时候会遇到一种情况,在分析前对数据所代表的专业背景知识了解的尚不充分,本身就属于探索性的研究,这时往往需要先对各个指标或者案例的差异性、相似
程度进行考察,以先对数据有一个初步的了解,然后再根据结果考虑如何进行深入的分析。

Distinces过程就可以用于计算记录(或变量)间的距离(或相似程度),根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。

但由于本模块只是一个预分析的过程,因此距离分析并不会给出常用的p值,而只给出各变量/记录之间的距离大小,以供用户自行进行判断相似性。

Distinces过程可以计算距离测量指标或者相似性测量指标,这可以在主对话框中加以切换。

距离测量指标,根据不同的数据类型,距离测量指标也有所不同。

分为连续性变量、频数表资料和二分类变量三种。

相似性测量指标时间上就是前述的那些相关分析指标体系,只是更为详细一些,主要分为剂量资料和二分类变量两种。

相关和回归描述的是两变量间联系的不同侧面,简单回归分析就是寻找因变量数值随自然量变化而变化的直线趋势,并在散点图上找到这样一条直线,相应得方程也就被称为直线回归方程。

通过回归方程解释两个变量之间的关系会显得更为精确。

除了描述两个变量之间的关系外,回归方程还可以进行预测和控制。

无序分类变量的统计推断:x2检验
主要用于检验某无序分类变量各水平在两组或多组间的分布是否一致。

还可以用于检验一个分类变量各水平出现的概率是否等于指定概率;一个连续变量的分布是否符合某种理论分布等。

其主要用途:
1、检验某个连续变量的分布是否与某种理论分布相一致。

2、检验某个分类变量各类的出现概率是否等于制定概率。

3、检验某两个分类变量是否相互独立。

4、检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。

5、检验某两种方法的结果是否一致。

主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。

主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析。

Spss 学习笔记(3)
有关因子分析和回归分析
因子分析
是一种多变量化简技术。

目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性较低。

每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。

适用条件
样本量
样本量与变量数的比例应在5:1以上
总样本量不得少于100,而且原则上越大越好
各变量间必须有相关性
KMO统计量:0.9最佳,0.7尚可,0.6很差,0.5以下放弃
Bartlett’s球形检验
标准分析步骤
判断是否需要进行因子分析,数据是否符合要求
进行分析,按一定标准确定提取的因子数目
如果进行的是主成分分析,则将主成分存为新变量用于继续分析,步骤到此结束
如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式
如有必要,可计算出因子得分等中间指标供进一步分析使用
公因子数量的确定
主成分的累积贡献率:80~85%以上
特征根:大于1
综合判断
因子分析时更重要的是因子的可解释性
回归分析的基本步骤
(1)确定自变量和因变量
(2)从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计.
(3)对回归方程进行各种统计检验.
(4)利用回归方程进行预测.
通径分析实际上是回归分析的扩展,同时又是结构方程模型的一种特例情况。

对于应用来说,更重要的问题是,各种方法都是在一定具体条件下应用的,因此如何选择恰当的方法便成为正确应用这些方法的前提。

Spss 学习笔记(4)
对于12种社会统计方法,可以用最简练的语言将这些分析方法加以概括:
1、多元回归应用于单方程模型,其因变量必须为测量性变量,其自变量可以为测量型变量或虚拟型变量。

研究目的是通过自变量的变化来预测因变量的变化,多元回归用最小二乘法求解回归系数。

2、如果变量之间有多层因果关系,就可以由多个内在联系得多元回归方程组成一套通径分析连立方程组,每个方程都通过多元回归求解系数,然后应用通径分析分解变量之间的直接作用和间接作用。

3、如果一套联立方程组中含有潜在变量(即不可直接观测的变量),便不能再用最小二乘法求解,这是可以应用结构方程模型,它主要采用最大似然估计求解。

4、在研究有两组各包含多个变量的变量组之间的关系时,可以采用典型相关分析。

典型相关分析的所有变量必须为测量型变量或虚拟变量。

5、多元方差分析研究两个以上的类别中在多项测量型数据指标上是否存在显著差异。

6、当因变量为二分类变量且自变量为测量型变量和虚拟变量时,不能采用多元回归,而应该采用logistics回归。

7、logit模型是对数线形模型的一种特例。

它与logistic回归的不同在于,它的自变量全部都是分类变量。

8、鉴别分析主要应用于在已知一些案例的各种条件值及其结果类型的条件下,形成鉴别方程,并应用于其他条件值已知但结果类型未知的案例,预测他们的结果类型。

这种方法可以视为因变量为多分类结果,自变量为测量型或虚拟变量的因果预测。

它的主要应用目的是进行鉴别分类。

9、在使用纵贯数据进行因果分析时,事件史分析是可以应用的分析技术。

其中,离散时间模型实际上就是用logistic回归求解。

而cox比例风险模型是连续变量模型,他分为两种,一种包括动态变量(即随时间变化的自变量),另一种不包括动态变量。

事件史分析的数据处理是一项比较复杂的工作。

10、至于因子分析、聚类分析和对应分析不是因果模型,他们分别用于分析变量、案例或类型(变量值)之间的结构不安席。

将他们成为相依模型。

因子分析经常服务于浓缩多个测量型变量,使之转换为较少数量的新变量(称为因子)后,仍然携带原变量的绝大部分信息。

11、聚类分析用于分析各案例在多个测量性变量值上的近似型距离,将其按近似性原则进行案例排列。

12、对应分析可以用来对不用非测量型变量的类别之间进行分析,以作图形式显示不同变量类别之间的近似程度。

Spss 学习笔记(5)
统计方法的分类框架:
首先按照观测数据的来源分类,
第一类是横贯数据,横贯数据指在同一时间、不同案例的观测数据。

第二类是纵贯数据,指对同样的案例在不同时间上的多次观测的数据。

从方法论上,对于研究因果关系,纵贯数据具有更高的有效性。

其中事件史分析就是这一类。

第二种划分是分析模型的属性。

一类是因果模型,一类是相依模型。

因果模型即在变量中明确设置因变量和自变量的模型,目的在于描述自变量的变化如何影响因变量的变化。

第三种划分时变量的侧度等级。

分为非测量型变量和测量型变量两种。

该框架对于因果模型分类时还涉及到模型中因变量的数量,有三种情况:一种是单变量模型,一种是多因变量模型,一种是多层因果模型。

其中单因变量模型和多因变量模型都是单一方程模型,而多层因果模型实际上是结构模型,指由联立方程组构成的模型,即某个变量在有的方程中是因变量,而在其他方程中是自变量。

科学研究不仅表现为一种有明确目的的探索,而且是通过极为细致、严谨的特殊方式来进行的,因此,提高方法论素养是减少错误、少走弯路的必要训练。

科学的研究工作更要讲究科学的方法论。

有的时候,由于不具备时间、费用、人力等投入条件,不可能实施一个专门设计的观察,我们便不得不借助可以得到的其他统计数据。

这种数据称为二手资料,应用二手资料进行的分析成为二手分析。

尽管这些数据中也可能包含我们需要的信息,但是由于当初取得这些数据时仅服务于其他目的,所以数据的变量设置、测量水平不一定能够完全达到本次研究的要求,而研究人员又只能在这种条件下开展分析。

这时研究人员必须明确,数据资料方面的限制对分析结果构成了哪些可能的损害,是表现在分析结果的有效性上,还是表现在分析结果的可靠性上。

Spss 学习笔记(6)
统计研究中的常见谬误:
1、混淆统计联系与因果关系:
因果关系是事物之间的一种本质联系,而统计联系只是观测数据中所反映的数量联系。

并且检查和排除现象之间的虚假相关,也是科学研究的任务之一。

时间先后顺序是判断因果关系得另一个准则,因此观察的时间维度是研究设计中的另一个重要内容。

方法论的理论告诉我们,横贯研究使用的是同一个时点的观察资料,比较适合于对差异的研究,而用于因果分析时就存在很大的局限性。

但是,来自于追踪调查和回顾性调查的纵贯观察资料能够提供时间变量,于是在分析中可以包含时间顺序的控制,则更有效于因果联系得分析。

即使所采用的统计模型是因果模型,并且模型中包括了时间变量,统计分析所能揭示的仍然只是统计联系,只不过统计模型多加了几个控制条件而已。

这种被实际数据所验证的统计联系,仍然不能等同于因果关系。

这是因为,不论多么严密和复杂,统计模型只是一种假设模型,代表研究人员对于实际因果关系数量特征的一种设想。

最为模型必然有所抽象,简化,绝不可能再现实际中因果关系丰富多彩的各种规定性。

并且,统计模型是进行假说检验的一种手段,其检验的本质是证伪,而不是证实。

2、事后解释:
这一问题的产生不是统计分析的错误,而是对于正确统计结果的错误解释问题。

如果事实上统计分析开始时并没有理论假设,那么这一研究属于探测性或描述性研究。

在得到统计
结果的基础上,可以形成新的理论假设。

然而,如果反过来再将同一统计分析作为假设检验看待,就是犯了事后解释错误。

3、生态学谬误:
即根据集合单位的分析结果作关于个体的断言。

这一问题的要害时混淆了不同层次主体的行为模式。

在研究设计中,分析单位是一个很重要的概念。

从宏观到微观可能存在不同层次的分析单位。

因为宏观利益并不完全与微观利益相一致。

但是如果将宏观汇总资料中所发现的变量关系直接用来解释微观主体的行为,便有可能产生生态学谬误。

4、还原论谬误
是与生态学谬误相对的一种方法论谬误。

还原论在统计研究上的具体表现形式为,根据较低层次研究单位的分析结论推断较高层次单位的运行规律。

这种引申同样需要先行假设宏观行为模式与微观行为模式相同才能成立,所以必然经历与生态学谬误类似的风险。

生态学谬误和还原论谬误都是在研究当中由于逻辑推理不够严密,因而犯了过分简单化的错误。

5、混淆统计检验显著与实际意义显著
对于整个模型或某些模型参数的统计检验都是与采用抽样数据相联系得。

统计检验是否显著受到三个方面的影响:
一是实际差异幅度或作用强度的影响;
二是所要求的把握或称置信度的大小;
三是抽样样本规模的大小。

统计检验的结果是有条件的结果,三个方面中只要有一个方面发生变化,结果就发生变化。

所以,统计检验显著只是说明在三个方面的特定条件下,是否能够肯定差异或作用存在。

如果可以肯定,就说其统计性显著,否则就说其统计性不显著。

Spss 学习笔记(7)
乱七八糟的摘录了好多,都贴这里吧,时间长了,都不太记得了。

这本书里提到的变量的划分是:名义测度(定名测度)、序次测度、间距测度、比率测度。

多元回归将所研究的变量分为一个被影响的变量(称为因变量)和一组影响变量(称为自变量)。

要求因变量必须是艰巨测度以上等级的变量(连续变量),自变量可以是间距测度变量、也可以是名义测度等级的变量(也称为分类变量)。

因变量和自变量的确定是建立回归模型的主要任务。

在回归模型中,研究人员以规定因变量和自变量的方式确定研究变量之间的因果关系,加以量化描述,并根据实测数据求解这一模型的各个参数,评价回归模型是否能很好的拟合实测数据,检验各自变量的作用事否符合预先的构想。

如果模型可以很好的拟合实测数据,回归模型还可以用于预测。

一个自变量的回归称为一元回归或简单回归。

确定系数R2:
我们想知道,一个解释性或者预测性的方程效率如何,也就是说,所得到的回归方程在多大程度上解释了因变量的变化,或者说方程对观察值得拟合程度如何。

R2称为方程确定系数,它取值在[0,1]之间。

R2越接近1,表明方程中的变量对y的解释能力越强。

通常将R2乘以100%表示回归方程解释y变化的百分比。

当采用曲线拟合数据时,R2可以作为选择不同模型的标准。

当模型中的变量是线性关系时,R2是方程拟合优度的度量。

R2越大,说明回归方程拟合数据越好,或者说x与y线性关系越强。

即回归方程中的自变量对y的解释能力越强。

当R2等于1时,所有的观察值都落在拟合平面上。

R2越小。

说明x与y的线性关系越弱,它们之间的独立性越强,或者说对x的了解无助于对y的预测。

当R2接近于0时,说明x与几乎不存在线性关系,但可能存在很强的非线性关系。

但是R2高并不表示模型选择食正确的,在建立回归方程之前,通常应该先观察散点图以确定合适的模型,这时的R2才是有意义的。

随着自变量个数的增加,余差平方和逐渐减少,R2随之增大,尽管有的自变量与y线性关系不显著,将其引入方程后,也会使R2增加。

所以,R2是一个受自变量个数与样本规模之比影响的系数,一般的常规是1:10以上为好。

当这个比值小于1:5的时候,R2倾向于高估实际的拟合优度。

为了避免这种情形,常用调整地R2代替R2。

对于R2开平方,就得到多元相关系数R:
R又被称为复相关系数,它的值域为[0,1],R值越接近1,表明y与所有x之间的线性关系越密切。

当R=1时,所有的观察值都落在拟合平面上;当R等于0时,这时y的线性变化与x的变化无关。

偏确定系数:。

相关文档
最新文档