统计分析与Spss应用第二章(数据与数据文件)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、保存数据文件
在数据编辑器中定义变量输入修改数据形成 一个可供SPSS 分析的数据文件,使用Edit 菜单 项中的各种功能可以对数据文件进行编辑处理。 如果将数据文件存盘磁盘数据文件的扩展名 为SAV ,利用菜单项File 的Data或Save As 功能 展开的对话框指定存储路径位置和磁盘文件名, 将数据窗中的数据保存为.sav格式的数据文件 或者其他的数据文件如数据库文件等。
2 操作符与表达式 (1) 算术运算符与算术表达式 (2) 比较算符与比较表达式 (3) 逻辑运算符与逻辑表达式
数学运算操作符 关系运算符 逻辑运算符 +加 <(LT) :小于 & (And) :与 -减 >(GT) :大于 | Or :或 *乘 <=(LE): 小于等于 ~ Not 非 /除 >=(GE) : 大于等于 **幂 = EQ 等于 ( ) 括号 ~= NT 不等于
2.1.2一手数据与二手数据 一手数据:针对特定的研究问题,通过专门收集、 调查或试验取得的数据称为一手数据。(要通过 建立文件才能使用SPSS进行分析) 二手数据:由各种媒体、机构发布的数据,如证 券市场行情、物价指数、利率、国民生产总值等, 对于数据分析人员来说,可以根据研究的问题, 从这些数据中加以选择,这样间接得到的数据称 为二手数据。(要通过外部文件引入才能使用 SPSS进行分析) 一手数据和二手数据是根据数据分析人员获取数 据的方式是直接还是间接的来划分的。
(b) 字符串常量 字符串常量是被单引号或双引号括起来的 一串字符,如果字符串中带有字符“ ‘ ”, 则该字符串常量必须使用双引号括起来例 如 :“BOY’ S BOOK ”
(2)SPSS 变量设计
(a) 为变量命名应该遵循以下几个原则
SPSS 变量的变量名由字符组成。 首字母是字母,其后可为字母或数字或除“?、!、*” 以外 的字符,但应该注意不能以连接线“-”和圆点“. ” 作为变量名 的最后一个字符。 变量名不能与SPSS 保留字相同,SPSS 的保留字有ALL AND BY EQ GE GTLE LT NE NOT OR TO WITH 系统不区分变量名中的大小写字符例如ABC 和abc 被认为是同 一个变量 变量设计的基本原则 不同观察对象的数据不能在同一条记录中出现每一个测量指 标/影响因素只能占据一列的位置,即同一个指标的测量数值 都应当录入到同一个变量中去 最终的数据集应当能够包含原始数据的所有信息 可以出现违反这些原则的例外情况,如重复测量数据
返回
2.2.3 数据录入与编辑
数据输入方法 1按变量输入数据 2按观测量输入数据(case) 概率事件观测量(Cases) 在数据编辑器的二维表格中每行都是数据文件的一个记 录,在统计学中称作一个概率事件。在SPSS 的菜单中或帮 助信息中用Cases 这个单词表示,每个Cases 是由各变量的 一定的值组成,是一个事件或者说是对一个被观测对象的 各种特征的实测值组成。因此相对应变量来说可以称之为 观测量单元格中的数据即是某个观测量中的一个值,因此 可以称之为变量值,也可以称之为某个观测值,在Help 信 息中往往使用Case 这个单词。
第二章 SPSS数据与数据文件
2.1 数据的来源与分类
数据是数据分析的关键之一,数据通常和 我们研究的对象联系在一起。个体就是一 组数据描述的对象;变量就是一个个体的 任意特征。将数据按照不同的标准进行分 类,有助于对数据来源和用途及其分析方 法的深入理解和研究。
2.1.1观测数据与试验数据 观测数据:是爱自然的未被控制的条件下观测到的数据, 如社会商品零售额,消费价格指数,降雨量等。抽样调查、 普查都是重要的观测研究,得到的数据是观测数据。 试验数据:是在人工干预和操纵下产生的数据,这种数据 通常来自于科学和技术试验。 将数据分为观测数据和实验数据是基于观测的对象是 在自然的还是在可控的实验条件下产生的。他们是数据最 根本的两个来源。 对这两种类型的数据要通过建立文件才能使用SPSS进行分 析。
(c)变量标签和变量值标签
变量 Gender 变量标签 性别 变量值 f m Height 身高 1 2 3 4 5 男 女 <=1.49m 1.50~1.59m 1.60~1.69m 1.70~1.79m >=1.80m 变量值标签
返回
(d) 变量的格式 变量值标签是对变量的可能的取值所附加的进一步说明对 分类变量往往要定义其取值标签当然变量值标签也是一个 可选择的属性可以定义也可以不定义 例如: 变量 值 值标签 Sex f Female m Male
2.2.5 数据编辑
数据编辑器
1.数据编辑器的组成 (1) 窗口标题栏 (2) 窗口状态栏 (3) 数据输入栏 (4) 数据显示区
2 数据编辑器的功能概述 (1) 变量与观测量的编辑功能 (2) 数据编辑功能
已输入数据的修改
1 在一个区域中修改数据 2 恢复删除或修改前的数据
数据的剪切复制与粘贴
2.2.2 变量的定义
输入数据之前首先要定义变量定义变量即要定 义变量名、变量类型、变量长度(小数位数)、 变量标签(或值标签)和变量的格式(显示宽度对 齐方式缺失值标记等) (1) 对一般文件的变量定义 (2) 调查问卷中开放题的变量定义 (3)调查问卷中简单单选题变量定义(值标签) (4)调查问卷中对多选题变量定义(a.多重二分法 b.多重分类法)
2.2.4 数据文件的保存
1、 文件类型 SPSS(*.sav) (6.0以上) SPSS(*.sys) (4.0版) SPSS Portable (*.por) Tab-delimited (*.dat) Fixed ASCII (*.dat) Excel (*.xls)
1-2-3 Rel 3.0 (*.wk3) 1-2-3 Rel 2.0 (*.wkl) 1-2-3 Rel 1.0 (*.wks) SYLK (*.slk) dBASEIV(*.dbf) dBASEIII(*.DBF) dBASEII(*.dbf)
简单数据定义和输入实例
欲比较A公司与B公司普通员工的收入(月薪) 有无差距,随机调查了各五人,数据如下: • A公司:2000,3000,4000,3000,4500 • B公司:3000,3000,3500,4000,5000 请建立数据文件,并进行分析。
2.2 .1 数据类型
1. 常量与变量 (1) SPSS 常量 (a)数值型常量 数值型常量就是程序在SPSS 语句中的数字, 一般使用两种书写方式,一种是普通书写方 式例如26 、38.4 等;另一种书写方式是科 学记数法,用于表示特别大或特别小的数字 例如1.23E18 、2.56E-16 等。
2.3其他格式数据文件的导入
直接打开(如excel文件) 使用数据库查询打开 使用导入向导导入文本文件
2.3.1 Excel文件读入
步骤: 1, file---〉open-data 弹出文件操作对话框 2,通过查找范围查找要转换文件所在路径 3,选择要打开文件类型:exel(*.xls) 4,找到要转换的文件选定,按“打开”按钮 弹出一个对话框 5,保留默认选项,选择“ok” 6,将读入的文件保存file--〉save,选择正确路径, 根据要求命名保存即可。
(1)
对一般文件的数据录入
a按变量输入数据 b按观测量输入数据(case)
(2) 调查问卷中开放题的数据录入
a按变量输入数据 b按观测量输入数据(case)
(3)调查问卷中简单单选题数据录入
a.直接录入 b.字符代码+值标签 c.数值代码+值标签
(4)调查问卷中对多选题数据录入
a.多重二分法 b.多重分类法
Data View和Variable View
返回
定义变量的普通方法
返回
定义变量类型
返回
定义值标签
返回
定义用户缺失值
返回
列格式、对齐、测度方式
定类尺度(Nominal ):对事物的类别或属性的一种测度,可按某属性对其分类或分组 定序尺度(ordinal ):对事物之间等级或顺序差别的一种测度,可以比较优劣或排序 定比尺度(scale):能够测算两个测度值之间比值的一种计量尺度,表现为数值
格 式 $# # ##,# # # 总长 度 3 6 小数位 数 0 0 格 式 # # #.# ##,# # # . # # 总长 度 5 8 小数位 数 1 2
e)变量度量(Measurement) 在统计学上按照对事物描述的精确尺度, 将所采用的测量尺度从低级到高级分为4个 层次:定类尺度、定序尺度、定距尺度 (interval measurement)和定比尺度。下 面是SPSS可以定义的变量测量尺度类型 scale: 定距数据 Ordinal:定序数据 Nominal:定类数据
(b) 变量类型与默认长度
SPSS 变量有三种基本类型:数值型、字符型、 日期型。定义时有以下可选的数据类型: Numeric(标准数值型) Comma(带逗点的数值型) Dot(逗点作小数点的数值型) Scientific Notation(科学记数法) Date(日期型) Dollar(带有美元符号的数值型) CustomCurrency(自定义型) String(字符型)
2.2 数据文件的建立
建立数据文件步骤: 1、定义变量:定义变量名、指定变量类型、 宽度、小数位数、定义变量标签、变量值 标签。 2、数据录入与编辑 3、保存数据文件
数据标识数据类型 SPSS(*.sav) SPSS 数据文件(6.0~12.0 版) SPSS/PC+(*.sys) SPSS 4.0 版数据文件 Systat(*.syd) *.syd 格式的Systat 数据文件 Systat(*.sys) *.sys 格式的Systat 数据文件 SPSS Portable(*.por) SPSS 便携格式的数据文件 EXCEL(*.xls) EXCEL 数据文件(从5.0 版~2000 版) Lotus(*.w*) Lotus 数据文件 SYLK(*.slk) SYLK 数据文件 dBase(*.dbf) dBase 系列数据文件(从dBaseII~IV) SAS Long File Name(*.sas7bdat) SAS 7~8 版长文件名类型数据文件 SAS Short File Name(*.sd7) SAS 7~8 版短文件名类型数据文件 SAS v6 for Windows(*.sd2) SAS 6 版(for Windows)数据文件 SAS v6 for UNIX(*.ssd01) SAS 6 版(for UNIX)数据文件 SAS Transport(*.xpt) SAS 便携格式的数据文件 Text(*.txt) 纯文本格式的数据文件 data(*.dat) 纯文本格式的数据文件
(1) 选择变量 (2) 选择观测量 (3) 选择属于某个变量的若干个连续的单 元格 (4) 选择属于某个观测量的若干个连续的 单元格
变量观测量的插入与删除
1 插入一个变量 2 删除一个变量 3 插入一个观测量 4 删除一个观测量
恢复删除或修改前的数据
如果对本次的修改与删除不满想恢复操作 前的状态,只要使用鼠标单击系统菜单中 的Edit 展开下拉菜单选择第一项Undo 鼠标 单击之即可2.1.3时间序列数据与横截面数据 这是计量经济学中的数据分类方法。 时间序列数据是对同一研究对象按时间顺序收集得到的数 据,如国内生产总值、失业率等。这类数据是按照一定的 时间间隔如每日、每周、每月、每季、每年收集的; 横截面数据是指在同一时点上不同研究对象的数据的集合, 如2007年沪深股市上市公司中期业绩。 由这两类数据衍生出合并数据,合并数据中既有时间序列 数据又有横截面数据。 时间序列数据和横截面数据是数据沿时间与个体两个维度 上的视图。