SPSS讲义描述

合集下载

SPSS概述(第一次课)详细版.ppt

①定义变量， ②录入数据， ③保存数据。
33
.精品课件.
（一）定义变量
定义变量名定义变量类型定义变量长度（小数点）定义变量标签定义变量值标签定义变量显示格式（宽度、对齐方式）
34
.精品课件.
定义变量步骤
1. 首先启动SPSS for Windows，进入SPSS的主画面 — 数据编辑窗口，单击数据编辑窗口底部的 “Variable View”标签切换到变量定义界面。
比如：
变量名
ID
NAME
SEX
42
变量标签序号姓名性别
.精品课件.
5.定义变量值标签(Values)
每个变量名对应一个数据项，每个变量取不同的值，表示数据项中的不同信息。有时为了更好理解统计分析过程中的输出结果，要给变量的取值（简称变量值）赋以标签，那么在输出结果的相应位置上就会出现该标签，使读者一目了然。并不是所有变量值都要取标签，一般来说离散变量才给变量值定义标签。
26
.精品课件.
6．变量表视窗（Variable View）
变量表视窗用于定义、显示变量和编辑变量特征，视窗中有一个平面二维表格，表格的顶部为变量特征，表格的左则是变量序号，一行可定义一个变量。定义变量有如下内容：变量名（Name），变量类型（Type），变量宽度（ Width ），保留小数位（ Decimal ），变量标签（Label），变量值标签（Values），缺失值（Missing），变量显示（Columns），对齐方式（Align），变量类型（Measure）。
元格右方出现按钮。单击该按钮，弹出定义变量类型(Define Variable Type)对话框。系统默认为数值型Numeric。

SPSS讲义

SPSS 讲义Chapter1.统计软件概述Chapter2.数据文件的建立和管理原始数据文件：住房状况调查.sav（默认打开文档）分布数据文件：教师职称年龄分布.sav数据定义：Name[变量名]，type[变量类型]，width[变量宽度]，decimal[小数位宽度] label[标签]，values[值标签]，missing[缺失值]，columns[显示列宽]align[对齐方式]，measurement[测度方式]Type：要求定义变量的类型，SPSS变量类型包括八大类：▪Numeric（标准数值型）：总长度为8，小数是2位▪Comma：从右向左每3位用“，”分开，小数点用“•”▪Dot：从右向左每3位用“•”分开，小数点用“,”▪Science notation：7.89E+10，6.45E-8▪Date日期型变量▪Dollar（带美元的变量）：在Comma变量之前增加“$”▪Custom currency(自定义型变量)：选择该项目后，机器自动提示选择方法▪String字符型变量：一般情况下没有长度限制Value：主要针对名义变量和有序变量值的进一步说明。

▪nominal[名义变量]，即类别变量；▪ordinal [有序变量]，即定序变量；▪Scale[尺度变量]，即定距变量数据读取：Open>Data Open Database>New Query Read Text Data 住房状况调查.xls、住房状况调查.mdb住房状况调查.txt、无分割固定宽度.txt合并文件：Merge Files>Add Cases[添加个案]/Add Variables[添加变量] 职工数据.sav + 追加职工.sav / 职工奖金.sav Chapter3.数据的预处理数据排序：Data>Sort CasesSort by [Variable 1, Variable 2…]Sort Order：升序Ascending/降序Descending变量计算：Transform>Compute数据选取：Data>Select CasesIf condition is satisfied[按指定条件]Random sample of cases[随机选取]Based on time or case range[区段选取]（一般是用于时间序列）Use filter variable[筛选变量]（筛选缺失变量值个案）Unselected Cases Are：Filtered[已筛选]/Deleted[删除]计数：Transform>Count分组汇总：Transform>Data>Aggregate数据分组：Transform>Recode>Into Different Variables数据转置：Data>Transpose加权个案：Data>Weight Cases-----蔬菜销售.sav数据拆分：Data>Split File----职工数据.sav定义变量集：Utilities>Define SetsChapter4.基本统计分析频数分析：Analyze>descriptive statistics>frequencies----住房状况调查.sav：从业状况/房屋产权统计量[Statistics]（一般不适合于未分组汇总的定距数据）Percentile Values[百分位数]Quartiles[四分位数]Cut points[割点] xx equal groups[相等组]Percenti(s) [百分位]Values are group midpoints[值为组的中点]Central Tendency[集中趋势]Mean[均值]、Median[中位数]、Mode[众数]、Sum[总和]Dispersion[离散程度]Std.deviation[标准差]、Variance[方差]、Minimum[最小值]、Maximum[最大值]Range[全距]、S E .mean[均值标准误]Distribution[分布]Skewness[偏度]、Kurtosis[峰度]格式[Format]Order by[排序方式]Ascending values[输出结果按变量值的升序排列]descending values[输出结果按变量值的降序排列]Ascending counts:[输出结果按变量值出现的频次的升序排列]Ascending counts[输出结果按变量值出现的频次的降序排列]Multiple VariablesCompare variables[把所有选中的变量的计算结果放在同一表格中显示] Organize output by variables[把所有选中的变量的计算结果单独输出显示] Suppress tables with more than n categories[把组数限制在n个以内的表格输出，否则，取消输出]图表[Chart]Chart Type[图表类型]None[无]、Bar charts[条形图]、Pie charts[饼图]、Histogram[直方图]With normal curve[带正态曲线]Chart Values[图表值]Frequencies[频数]、Percentages[百分比] 描述统计量：Analyze>descriptive statistics> descriptive （多用于定距数据的处理） ----住房状况调查.sav ：人均面积交叉频数分析：Analyze>descriptive statistics> Crosstabs （一般不适合于未分组汇总的定距数据） ----住房状况调查.sav/户口状况*未来三年显示单元[Cell Display] Counts[计数]Observed[观察值]/Expected[期望值]数合计单元格所在列的观测频数合计单元格所在行的观测频期望频数其中：--CT --RT f n CT RT n n CT n RT f e e--⨯=⨯⨯= Percentages[百分比]Row[行]/Column[列]/Total[总计] Residuals[残差]Unstandardized[非标准化]Standardized[标准化]eeo f f -f Residuals Std.=Adjusted standardized[调节的标准化] Noninteger Weights[非整数权重]Round cell counts[4舍5入单元格计数] Round case weights[4舍5入个案权重] Truncate cell counts[截短单元格计数] Truncate case weights[截短个案权重] No adjustments[无调节] 统计量[Statistics]Chi-square[卡方]/Correlations[相关性]Chi-Square Tests适用条件：不应有期望频数小于1的单元格，或不应有大量期望频数小于5的单元格（小于30%）Pearson 卡方检验统计量：（见P115-118）期望频数观察频数列联表列数列联表行数　其中：----=∑∑==e 0r 1i c1j eij 2e ij 0ij 2f f --c --r f )f -(f χ精确检验[Exact Tests]Asymptotic only[仅渐近法]比率分析：（略）多选项分析：（略）Chapter5.参数检验单样本t 检验[One-Sample T Test]Analyze>Compare Means> One-Sample T Test----住房状况调查.sav/人均面积=20----各保险公司人员构成情况.sav/高等教育人员比例=0.8 & 年轻人比例=0.5 Test Value[原假设置---待检验值]Missing Values[缺失变量处理]Exclude cases analysis by analysis[逐个排除个案]Exclude cases listwise[全部排除个案]两个独立样本t 检验[Independent-Samples T Test]Analyze>Compare Means> Independent-Samples T Test----住房状况调查.sav：人均面积（本市户口=外地户口？）----各保险公司人员构成情况.sav：高等教育人员比例（全国性保险公司=外合资企业）两配对样本t 检验[Paired-Samples T Test]Analyze>Compare Means> Independent-Samples T Test----减肥茶数据.sav：喝茶前和喝茶后对比Chapter6.方差分析单因素方差分析[One-Way ANOV A]Analyze>Compare Means> One-Way ANOV A----广告地区与销售额.sav：不同广告形式对销售量的影响多因素方差分析[Univariate]Analyze>General Linear Model>Univariate----广告地区与销售额.sav：不同广告形式和地区对销售量的影响Chapter7.非参数检验单样本非参数检验卡方检验：通常用于多项分类值的总体分布检验Analyze>Nonparametric Tests>Chi-Square...----心脏病猝死.sav：给定分布2.8:1:1:1:1:1:1二项分布检验：通常用于检验总体是否服从二项分布Analyze>Nonparametric Tests>Binomial...----产品合格率.sav：合格率是否为90%K-S检验：通常适用于探索连续性随机变量的分布Analyze>Nonparametric Tests>1-Sample K-S...----儿童身高.sav：检验是否服从某种分布Normal[正态分布]／Uniform[均匀分布]／Po isson[泊松分布] ／Exponential[指数分布]游程检验：也称变量随机性检验，含义如名Analyze>Nonparametric Tests>Runs...----电缆数据.savMedian[中位数]／Mode［众数］／Mean［均值］／Custom［自定义］两独立样本非参数检验：Analyze>Nonparametric Tests>2 Independent Samples...----使用寿命.savMann-Whitney U［曼-惠特尼Ｕ］／Kolmogorov-Smirnov Z［K-S检验］Wald-Wolfowitz runs［游程检验］／Moses extreme reactions［极端反映检验］多独立样本非参数检验：Analyze>Nonparametric Tests>K Independent Samples...----多城市儿童身高.savKruskaWallis H／Jonckheere-Terpstra［均类似曼-惠特尼Ｕ］／Median［中位数检验］两配对样本非参数检验：Analyze>Nonparametric Tests>2 Related Samples...----统计学学习.sav[McNemar]----训练成绩.sav[Wilcoxon／Sign]Wilcoxon／Sign／McNemar／Marginal Homogeneity多配对样本非参数检验：Analyze>Nonparametric Tests>K Related Samples...----促销方式.sav：Friedman［通用于多配对非参数检验］----航空公司.sav：Cochran's Q［通常样本值为二值变量］----评委打分.sav：Kendals W［也称Ｋ-协同系数检验，多涉及两因素并检验其中一个的一致性］Chapter8.相关分析散点图[Scatter]：Graphs>ScatterSimple［简单］／Matrix［矩阵］／Overlay［重叠］／3-D［3维］Simple Dot［SPSS 13.0，简单点图］Set Markers by［指定分组变量］Label Cases by［指定标记变量］panel by row／Columns[画布行列布局]单相关系数[Bivariate]，也称双变量相关：Analyze> Correlate> Bivariate...----住房状况调查.sav：家庭收入/计划面积Pearson[简单相关系数]/Kendal's ta-b/Spearman结果解释见P275偏相关系数[Partial]：Analyze> Correlate> Partial...----住房状况调查.sav：家庭收入/计划面积[常住人口]Chapter9.回归分析线性回归分析（一元和多元）：Analyze> Regression>Linear...见P 303-309----高校科研研究.sav：课时总数[因]/其他[自]|省市名称筛选方法[Method]：Enter[强行进入]/Stepwise[逐步筛选]/Remove[剔除]/Backward[向后筛选]/Forward[向后筛选] 统计量[Statistics]Regression Coefficients[回归系数]Estimates[估计]Confidence intervals[置信区间]Covariance matrix[协方差矩阵]Model fit[模拟拟合]Rsquared change[R方变化]Descriptives[描述性]Part and partial correlations[部分相关和偏相关性]Collinearity diagnostics[共线性诊断]Residuals[残差]Durbi-Watson[杜宾-沃森]Casewise diagnostics[个案诊断]Outliers outside：x standard deviations[外离群：3标准差] All cases[全部个案]图[Plots]DEPENDNT*ZPRED 标准化的预测值：Standardized predicted values*ZRESI 标准化残差：Standardized residuals*DRESI 剔除残值：Deleted residuals*ADJPR 调整后的预测值：Adjusted predicted values*SRESI 学生化残值：Studentized residuals*SDRES 学生化剔除残值：Studentized deleted residuals Standardized Residual Plots[标准化残差图]Histogram[直方图]Normal probability plot[正态概率图]Produce all partial plots[产生所有部分图]保存[Save]Predicted Values[预测值]Unstandardized[未标准化]Standardized[标准化]Adjusted[调整]S.E. of mean predictions[均值预测值的标准差] Residuals[残差]Unstandardized[未标准化]Standardized[标准化]Studentized[学生化]Deleted[剔除]Studentized deleted[学生化剔除]Distances[距离]MahalanobisCook`sLeverage values[杠杆值]Influence Statistics[影响统计量]DfBeta(s)Standardized DfBeta(s)DfFitStandardized DfFitCovariance ratioPrediction Intervals[预测区间]Mean[均值] Individual[单值]Confidence Interva[置信区间]:95%Save to New File[保存为新文件]Coefficient statistics[]Export model information to XML file[将模型信息输出到XML文件] Include the covariance matrix[包括协方差矩阵]选项[Options]Stepping Method Criteria[步进方法标准]Use probability of F[使用F 的概率]Entry[进入]：0.05 Removal[删除]：0.10Use F value[使用F 值]Entry[进入]：3.84 Removal[删除]：2.71Include constant in equation[在等侍中包含常量]Missing Values[缺失值]Exclude cases listwise[按列表排除个案]Exclude cases pairwise[按对排除个案]Replace with mean[使用均值替换]曲线回归分析：Analyze> Regression>Curve Estimation...----年人均消费支出和教育.sav ：教育支出/年人均消费支出[年份]，在外就餐/TChapter10. 聚类分析层次聚类：Analyze>Classify>Hierarchical Cluster----商厦评分.sav[Q]----小康指数.sav[Q]----裁判打分.sav[R]快速聚类：Analyze>Classify>K-Means Cluster----小康指数.sav[Q]Chapter11. 因子分析主成分分析：Analyze>Data Reduction>Factor----各地区年平均收入.sav)x)(ln (ln )1y 1(ln )/1/(1y )Logistic ()x)(ln x (x )(ln y)(ln x y )Power ()x /1x (x y /x y )Inverse (x)(ln y)(ln e y )l Exponentia ()x /1x (x y)(ln e y )S ()x (x x x x y x x x y )Cubic ()x)(ln (x x y ln(x)y )c Logarithmi (xy)(ln e y )Growth ()x(ln )(ln y)(ln y )Compound ()x (x x x y x x y )Quadratic (xy )Linear (10x 101110011101010x 01110/x 1i i 23121033221011101010x 10x 10211210221010111010ββμββμββββββββββββββββββββββββββββββββββββββββββββ+=-⇒+==+=⇒+==+=⇒+=+=⇒==+=⇒==+++=⇒+++==+=⇒+=+=⇒=+=⇒==++=⇒++=+=+++：逻辑函数：幂函数：逆函数：指数曲线：Ｓ型曲线：三次曲线：对数曲线：增长曲线：复合曲线：二次曲线：一元线性。

SPSS软件使用讲义(一)(精)

7. [Missing]：缺失值的定义方式SPSS 有两类缺失值：系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值，用点号(· )表示。SPSS 可以指定那些由于特殊原因造成的信息缺失值，然后将它们标为用户缺失值，统计过程识别这种标识，带有缺失值的观测被特别处理。默认值为[None]。单击[Value]相应单元中的按钮，可改变缺失值定义方式。
SPSS主界面说明
File：“文件”菜单用于新建SPSS 各种类型
文件，打开一个已存在的文件，从文本文件或其它数据源读入数据。 Edit：“编辑”菜单用于撤消操作、剪切、复制、粘贴、查找、改变SPSS 默认设置等。 View：运用“视图”菜单显示或隐藏状态行、工具栏、网络线、值标签和改变字体。 Data：运用“数据”菜单对SPSS 数据文件进行全局变化，例如定义变量，合并文件，转置变量和记录，或产生分析的观测值子集等。
8.[Column]：变量的显示宽度。输入变量的显示宽度，默认为8。 9. [Align]：变量显示的对齐方式。选择变量值显示时的对齐方式：[Left（左对齐）]、[Right （右对齐）]、[Center（居中对齐）]。 10.[Scale]：变量的测量尺度。正如前面所说的，变量按测量精度可以分为定类变量、定序变量、定距变量和定比变量，定距变量和定比变量经常不加以区别。如果变量为定距变量或定比变量，则在[Scale]相应单元的下拉列表中选择 [Scale]；如果变量为定序变量，则选择 [Ordinal]；如果变量为定类变量，则选择 [Nominal]。
计量经济学中经常使用的操作
数据管理
图形分析统计分析
输出管理
数据管理
定义变量

第5章-SPSS基本统计分析说课讲解

5.单击Cells指定列联表单元格中的输出内容；
6.单击Format指定列联表各单元的输出排列顺序；
7.单击Statistics指定用哪种方法分析行变量和列变量的关系。
5.5 多选项分析
一、什么是多选项问题二、分析多选项问题的一般方案三、多选项分析处理多选项问题
一、什么是多选项问题
③Charts 统计图形
④Format 设置频数表输出格式。
● Multiple variables 多变量栏 •Compare variables，将所有变量结果在一个图形z 中输出 •Organize output by variables ，为每一个变量单独输出一个图形。
Statistics
variables/File is already sorted。
四、分组计算描述统计量
5.2 变量的频数分析
一、变量频数的描述方法利用变量的频数分布分析可以方便
的对数据按组进行归类整理，形成各观测量的不同水平（分组）的频数分布情况表和图形，以便对数值的数量特征和内部结构状况有一个概括的认识。
7
11.00
12.00
13.00
16.00
5.4 交叉分组下的频数分析
一、交叉分组下的频数分析
1.主要任务：（1）编制交叉列联表
（2）变量间进行相关性分析
一、交叉分组下的频数分析
1. 交叉列联表两个或两个以上的变量交叉分组后形成的
列联表。行变量(Row)：表1、2中职称列变量(Column)：表1、2中文化程度层变量(Layer)：表2中性别
5.3 变量的频数分析
1.频数、百分比有效百分比：各频数占总有效样本数之比累计百分比：各百分比逐级累加结果。 2.分位数 4分位数（Quartiles） 3.统计图形条形图、饼图、直方图

第一讲SPSS概述

第一章 SPSS与心理统计
第一节、SPSS概述
SPSS-----Statistical Package for Social Science （社会科学统计软件包）现改名为 Statistical Product and Service Solutions(统计产品与服务解决方案）
1. 20世纪60年代末，美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS，同时成立了SPSS 公司 2. 1975 年在芝加哥组建了SPSS 总部 3. 1984年开发了DOS操作系统下的PC+1.0版本 4. 1992年的DOS版升级为Windows版本，即最初的4.0版 5. 1999年升级到10.0版、2001年升级为11 .0版、 2003年 Windows操作平台下的最新版本为12.0;2005年开发为 14.0，现在的最高版本为16.0
统计方法对数据进行处理？

如：受教育程度与收入的关系
定性数据：卡方检验（第十章）
定量数据：（正态）相关分析（第七章）
（非正态）相关分析（第七章）
6、一个变量与另一变量或多个变量的函数关
系

如：一个地区的教育支出与GDP的近似函数关系。
解决方法
回归分析（第八章）
7、某数据是否服从特定分布
如：高校学生的月支出是否呈正态分布。
课程要求
本课程是一门应用型的课程，其目的旨在通过课程的学习，使同学们能够应用SPSS软件，解决心理学研究中的数据处理工作，成为大家今后学习和研究心理学的重要应用工具。作业形式：以邮件的形式发放和上交作业，作业交纳以小组为单位。(邮箱： lyttonlookingfor@) 课程成绩组成：小组平时成绩50%，上机成绩 50%。(71641135)

第讲SPSS描述性统计分析

第讲 SPSS 描述性统计分析1. 简介SPSS（Statistical Package for the Social Sciences）是一款功能强大的统计分析软件，在社会科学、医学和商业等领域中广泛应用。

本文将介绍 SPSS 中的描述性统计分析方法，帮助用户更好地理解和解读数据。

2. 描述性统计分析概述描述性统计分析是对数据进行和组织的过程。

它可以帮助人们更好地理解数据的特性和分布情况。

SPSS 中的描述性统计分析主要包括以下内容：2.1 中心趋势中心趋势是指数据在数轴上的中心位置。

SPSS 中常用的中心趋势指标包括：平均数、中位数和众数。

平均数是指所有数据的总和除以数据的个数。

它能够反映数据的总体水平，但会受到极端值的影响。

中位数是指数据按大小排序后位于中间位置的数值。

它能够反映数据的分布情况，不会受到极端值的影响。

众数是指出现次数最多的数值。

它能够反映数据的典型值，但在数据分布不均匀时可能不够准确。

2.2 离散程度离散程度是指数据相对于中心趋势的差异程度。

SPSS 中常用的离散程度指标包括：标准差、方差和极差。

标准差是指数据与平均数的差异程度的平均值。

它能够反映数据的分散程度，越大表示数据越分散。

方差是指数据与平均数的差异程度的平方的平均值。

它可以用来比较不同数据集的分散程度。

极差是指数据最大值和最小值之间的差异。

它不能反映数据的分布情况，但可以用来描述数据范围。

2.3 数据分布数据分布是指数据在数轴上的分布情况。

SPSS 中常用的数据分布指标包括：偏度、峰度和频数分布表。

偏度是指数据分布的不对称程度。

正偏态分布表示数据分布向左偏，负偏态分布表示数据分布向右偏。

峰度是指数据分布的峰度程度。

正态分布峰度值为 0，大于 0 表示峰度更高，小于 0 表示峰度更低，称为尖峰态和扁平态。

频数分布表是指数据中每个值出现的次数。

它可以用来了解数据的分布情况，如是否存在异常值或集中现象。

3. SPSS 描述性统计分析操作步骤SPSS 中的描述性统计分析可以通过以下步骤进行：Step 1：导入数据。

SPSS讲义-读取数据

► 从“数据格式”下拉列表中选择美元。 ► 单击下一步继续。
► 保留此对话框中的缺省选择，然后单击完成以导入数据。
可以使用字段名称来创建变量名。如有必要，可将这些名称转换为有效的变量名。原始字段名称将保留为变量标签。您也可以在导入数据库之前更改变量名。 ► 单击“Gender” 字段中的重新编码为数值单元格。使用此选项可将字符串变量转换成整数变量，并将原始值保留为新变量的值标签。 ► 单击下一步继续。
数据将立即显示在数据编辑器中，其中的列标题被用作变量名。
由于变量名中不能包含空格，所以原始的列标题中的空格已删除。例如，Excel 文件中的 Marital status 变成了变量 Maritalstatus。原始的列标题保留为变量标签。
使用数据库向导可以很容易地从数据库源导入数据。在安装ODBC(开放数据库连接)驱动程序之后，可直接读取使用ODBC驱动程序的任何数据库。安装CD中提供了适用于多种数据库格式的ODBC驱动程序。其他驱动程序可从第三方供应商获得。本示例中将对最常用的数据库应用程序之一 Microsoft Access 进行讨论。
பைடு நூலகம்
► 从菜单中选择：文件 > 读取文本数据... ► 选择 Text (*.txt) 作为您要查看的文件类型。 ► 打开 demo.txt 。文本导入向导将指导您完成有关如何解释指定文本文件的定义过程。 ► 在第 1 步中，可以选择预定义的格式或在向导中创建新格式。选择否指示应该创建新格式。 ► 单击下一步继续。
将显示“打开 Excel 数据源”对话框，在该对话框中可以指定是否将变量名包括在电子表格和想要导入的单元格中。在 Excel 95 或更高版本中，还可以指定要导入哪些工作表。

SPSS讲义1章数据文件的管理

删除变量
总结词
删除SPSS数据文件中的变量需要谨慎操作，因为这将永久删除该变量及其所有观测值。
详细描述
在SPSS的数据编辑器窗口中，选择要删除的变量。然后，右键单击选择“删除行”，或者使用键盘上的 “Delete”键进行删除。请注意，这将永久删除该变量及其所有观测值，因此在执行此操作之前务必备份数据。
出。
Excel文件
支持Excel格式的数据文件，可以通过 “文件”菜单中的“导出为Excel文件 ”选项导出。
其他统计软件文件
如SAS、Stata等统计软件的文件，可以通过“文件”菜单中的“导出为其他统计软件文件”选项导出。
导入和导出其他软件的文件格式
• 支持多种其他软件的文件格式，如SAS、Stata、R等统计软件的文件格式，以及Word、PDF等文档格式。通过相应的转换工具或插件可以实现与其他软件的互通互导。
个变量。
打开现有数据文件
点击菜单栏的“文件 ”选项，选择“打开 ”>“数据”。
点击“打开”按钮，即可打开现有数据文件。
在弹出的文件选择对话框中，浏览并选择要打开的数据文件。
保存数据文件
在SPSS软件中，点击菜单栏的“文件”选项，选择“保存”。
如果需要更改保存位置或文件名，可以选择“另存为”选项，并指定新的保存路径和文件名。
SPSS讲义-第1章数据文件的管理
目录
• 数据文件概述 • 创建数据文件 • 编辑数据文件 • 数据文件的导入与导出 • 数据文件的备份与恢复
01 数据文件概述
数据文件的类型
结构化数据文件
按照一定格式和结构组织的数据文件，如电子表格、数据库等。
非结构化数据文件

SPSS讲义

Chapter 6 SPSS§ 6.1 SPSS简介SPSS是世界上最著名的统计分析软件之一。

SPSS是软件英文名称的首字母缩写，原意为Statistical Package for the Social Sciences，即“社会科学统计软件包”。

但是随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions，意为“统计产品与服务解决方案”，标志着SPSS的战略方向正在做出重大调整。

SPSS是世界上最早的统计分析软件，由美国斯坦福大学的三位研究生于20世纪60年代末研制，于1970年代推出的，迄今已有近30年的历史。

是国际著名三大社会科学统计软件包之一（SAS、SPSS、Statis）。

与SAS相比较而言，SAS由于是为专业统计分析人员设计的，具有功能强大，灵活多样的特点，为专业人士所喜爱。

而SPSS是为广大的非专业人士设计，它操作简便，好学易懂，简单实用，因而很受非专业人士的青睐。

此外，比起SAS 软件来，SPSS主要针对着社会科学研究领域开发。

现应用于多个领域和行业，是世界上应用最广泛的专业统计软件。

在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。

例如，SPSS的预测分析能有助于：●企业解决客户生活周期的问题，例如吸引新的客户，尽量久的留住最好的客户，以及改善与客户的相互作用。

●研究人员和分析家揭示各种关系和趋势●教育工作者帮助学生更好的进入商业、学术和公共事业领域●政府机构致力于减少欺诈、犯罪以及不服从●独立软件供应者（ISVs）将预先开发好的SPSS组件集成到他们自己的应用软件中，可以提供更好的解决方案以下是SPSS预测分析技术在各个领域使客户受益的一小部分例子：●某大银行使用SPSS软件提高营销效率，销售额上升了50%，关键营销成本则下降了30%。

SPSS应用讲义

SPSS应用讲义一、SPSS是软件英文名称的首字母缩写，原意为Statistical Package for the Social Sciences，即“社会科学统计软件包”。

随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions，意为“统计产品与服务解决方案”。

SPSS现在的最新版本为11.03，大小约为200M。

它是世界上最早的、应用最广泛的统计分析软件，应用于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业。

也是目前权威统计软件中界面最为友好，使用最为方便的。

在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。

二、优点S PSS最突出的特点就是操作界面极为友好，输出结果美观漂亮（从国外的角度看），它使用Windows的窗口方式展示各种管理和分析数据方法的功能，使用对话框展示出各种功能选择项，只要掌握一定的Windows操作技能，粗通统计分析原理，就可以使用该软件为特定的科研工作服务。

SPSS采用类似EXCEL表格的方式输入与管理数据，数据接口较为通用，能方便的从其他数据库中读入数据。

其统计过程包括了常用的、较为成熟的统计过程，完全可以满足非统计专业人士的工作需要。

是非专业统计人员的首选统计软件。

三、缺点：该软件只吸收较为成熟的统计方法，而最新的统计方法，在SPSS中均难觅芳踪。

另外，其输出结果虽然漂亮，但不能为WORD等常用文字处理软件直接打开，只能采用拷贝、粘贴的方式加以交互。

知道吗？在计算机领域中有个著名的80/20规则，也就是在奔腾及更早的CPU所采用的CISC指令集中，有80%的任务是被20%的最常用指令所完成的；换言之，另外80%的复杂指令只完成20%的不常用任务。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

统计描述与参数估计
例: 120 名健康男性农民舒张压(mmHg), freq.sav 82.00 76.00 81.00 75.00 87.00 76.00 78.00 79.00 83.00 73.00 62.00 91.00 69.00 89.00 76.00 72.00 79.00 75.00 70.00 68.00 64.00 68.00 62.00 65.00 70.00 71.00 72.00 81.00 62.00 65.00 69.00 76.00 64.00 65.00 75.00 84.00 80.00 67.00 80.00 73.00 85.00 75.00 84.00 71.00 77.00 74.00 75.00 74.00 86.00 84.00 58.00 78.00 66.00 78.00 74.00 79.00 77.00 69.00 81.00 86.00 84.00 68.00 77.00 79.00 76.00 82.00 68.00 76.00
Extreme Values 舒张压 Highest 1 2 3 4 5 1 2 3 4 5 Case Number 64 54 82 106 5 67 55 101 47 18 Value 91 90 89 88 .a 58 62 62 62 63
Lowest
a. Only a partial list of cases with the value 87 are shown in the table of upper extremes.
5个最大值，最小值．无离群值
Tests of Normality Kolmogorov-Smirnov Statistic df Sig. .058 120 .200*
a
舒张压
*. This is a lower bound of the true significance. a. Lilliefors Significance Correction
• 例：对陈平雁13/clinical trail.sav中 “pltl”分组“group”进行探索性分析。
分类变量的统计描述
分类变量: 有序分类变量无序分类变量
• • • • •
例:药物治疗感冒（何test.sav）试验组60人，对照组69人。疗效评价指标：是否有效。协变量：年龄，性别。分组描述两组的年龄、性别、疗效
• Analyze descriptive statistics frequencies • 提供频数分布表，集中趋势和离散趋势的指标，偏度系数、峰度系数及其标准误，统计图等
Statistics 舒张压 N Mean Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Percentiles Valid Missing 120 0 75.31 7.11 -.032 .221 -.584 .438 70.00 75.50 80.00
参数估计的概念 • 区间估计：按一定的概率估计包括总体参数范围的方法 • 可信区间：总体参数的所在的可能范围通常称为参数的可信区间 • 可信区间以一定的概率（如95%或99%）包含总体参数
• 以120名健康男性农民舒张压(mmHg)资料为例（数据见freq.sav），讲解数值变量的统计描述。 • analyzedescriptive statistics frequencies descriptive explore
72.00 77.00 72.00 67.00 80.00 78.00 73.00 70.00 72.00 74.00 67.00 85.00 79.00
71.00 84.00 83.00 80.00 75.00 75.00 72.00 75.00 80.00 67.00 80.00 88.00 64.00
舒张压
a. The weighting constant is 1.339. b. The weighting constant is 4.685. c. The weighting constants are 1.700, 3.400, and 8.500 d. The weighting constant is 1.340*pi.
Lower B ound Upper Bound
.221 .438
M-Estimators Huber's a M-Estimator 75.40 Tukey's b Biweight 75.43 Hampel's c M-Estimator 75.38 Andrews' d Wave 75.43
Statistics对话框: • 总体均数的可信区间 • M估计值 • 5个最大值，最小值 • 百分位数
Plot对话框： • 箱丝图 • 茎叶图 • 直方图 • 作正态性检验，并绘制正态概率图 • 方差齐性检验
Descriptives 舒张压 Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 75.31 74.02 76.59 75.31 75.50 50.602 7.11 58 91 33 10.00 -.032 -.584 Std. Error .65
25 50 75
偏度系数z＝－0.032/0.221＝－0.14 P=0.88 峰度系数z＝－0.584/0.438＝－1.33 P=0.18 可认为舒张压服从正态分布
舒张压
30
20
10
Fr equency
Std. Dev = 7.11 Mean = 75.3 0 57.5 60.0 62.5 65.0 67.5 70.0 72.5 75.0 77.5 80.0 82.5 85.0 87.5 90.0 N = 120.00
稳健估计M值离均数、中位数很近，提示数据中无明显的异常值
Percentiles 5 Weighted Average(Definition 1) Tukey's Hinges 舒张压舒张压 64.00 10 65.00 25 70.00 70.00 Percentiles 50 75.50 75.50 75 80.00 80.00 90 85.00 95 87.00
.2
.1
0.0
Dev from Normal
-.1
-.2 50 60 70 80 90 100
Observ ed Value
90
80
70
60
舒张压
箱体高度为四分位数间距（P75-P25），中间线为P50。顶线、底线分别为去除异常值外的最大值、最小值。观察值距P75或P25的距离为箱体高度的1.5~3倍时，用表示被视为离群值；超过3倍时，用*表示，被视为极端值。本例数据基本对称，无异常值。
连续变量统计描述与参数估计
• 频数分布 • 频数分布的类型
• 正态分布 • 正偏态分布 • 负偏态分布
• 正态性判断
• 统计图 • 正态性检验
常用的统计指标
集中趋势 • frequency table • arithmetic mean • geometric mean • median 离散趋势 • range • quartile interval • variance • standard deviation
正态性检验Ｐ＝０.２，提示数据为正态分布
•
• • • • • • • • • • •
舒张压茎叶图Stem-and-Leaf Plot
Frequency 1.00 8.00 18.00 24.00 35.00 21.00 11.00 2.00 Stem width: Each leaf: Stem & Leaf 5. 8 （1例58mmHg ） 6 . 22234444 （3例62mmHg, 1例63mmHg, 4例64mmHg） 6 . 555567777788888999 7 . 000011111222222233334444 7 . 55555555566666666677777888888999999 8 . 000000111222233344444 8 . 55666677789 9 . 01 10 1 case(s)
舒张压
Analyze descriptive statistics descriptive 输出集中趋势和离散趋势的指标，偏度系数、峰度系数及其标准误，z值等
• explore除给出基本描述性指标外，可对数据进行初步检查，进行正态性、方差齐性检验，提供描述性统计图等
• analyzedescriptive statistics explore dependent list: 舒张压 factor list: （分组变量） label cases by: （标记的分类变量）
analyzedescriptive statistics frequency
analyzedescriptive statistics crosstables
性别 Frequency 43 86 129 Percent 33.3 66.7 100.0 Valid Percent 33.3 66.7 100.0 Cumulative Percent 33.3 100.0
70.00 87.00 75.00 65.00 71.00 87.00 78.00 67.00 68.00 78.00 77.00 86.00 82.00
79.00 63.00 71.00 83.00 64.00 90.00 76.00 72.00 73.00 76.00 86.00 82.00 76.00