spss数据文件的建立与编辑2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
两分类变量 分类变量
定性变量
多分类变量
Categorical variable
Qualitative variable 等级变量(有序变量) ordinal variable
连续型变量
定量变量
discrete variable
Quantitative variable 离散型变量 continuous variable
Y
X1
X2
ˆ y 0 1 x1 2 x2
27
资料类型
变量的类型决定了资料data的类型。 定量资料(计量资料或测量资料)
measurement data 计数资料(count data)
等级资料(ordinal data) 在实际科研数据中,并不是仅有一个单一的 资料类型,而是包含了多种类型定量组成,即含 有多种资料类型。
33
观察单位的确切理解 统计学上的一个观察单位unit( Observation or Case):医学研究中依据 研究目的而确定的最小研究单元(unit) ,有狭义的个体和广义的个体。如:一个 人、一个动物、一个家庭。
34
35
36
数据编辑窗Data Editor 的Data View界面的二维表格
Data Editor SPSS术语 中文解释 数据文件 样品、病例 样品编号 变量 变量名 变量值 统计学概念 总体或样本 一个概率事件 观测量序号 对象的特征 特征名称 对象的某特征值
二维表 data file 一行 case 行号 case number 一列 variable 列号 variable name 单元格中的数值 value
28
分类变量的数值化(或称为编码录入问题)
为了录入电脑和高级统计方法计算的需要,常将分类 变量进行数值化,有两种方式: 1、直接赋值 如“职业”这个变量,其可能取值:工、农、商、学 、兵等,为了便于录入计算机也可以采用代码(code)1 、2、3、4、5等表示各个水平。
2、采用哑变量
哑变量或伪变量、假变量(dummy variable)—— 定性变量或等级变量转换成定量变量比较难办,叫做指标 的数量化。定性指标的数量化是引入指示变量、即取值( 0、1)的两分变量变量就称为哑变量。如性别:0为男性 ,1为女性。
SPSS STATISTICAL SOFTWARE
主讲:李国春
1
Chapter1 数据文件建立与编辑(2)
统计软件简介 SPSS for Windows概述 统计数据的结构 SPSS数据文件建立 数据文件的交换 练习题(每章一练)
2
数据创建和管理
数 据 分 析
数据量较少时用Eexel或SPSS 录入质量较高时,用Epidata或data entry 数据量极大时,采用Access等专用数据库
年龄/岁 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15
2 3 3 3 3 3 3 3
DATA
1 4 2 4 4 4 4 4 2 3 3 3 3 3 3 3 1 4 2 4 4 4 4 4
· · 60 · · · 63 · · · 30 · · 70 · · · 23 · · · 55 · ·· · ·· · ·· · ·· · ·· · ·· · ·· · ·· ·
25 60 38 60 70 75 56 80
1 1 0 1 0 1 0 1 0 1 1 1 1 1
11
注:焦虑状态一栏中,1表示阳性,0表示阴性
例4:某大学不同专业的统计学分,如下: 表 3 某大学不同专业的统计学分
姓名
张三 李四 王二
主修
文学 心理 经济
分数
87 70 95
等级
B C A
DATA
25
变量的其它分类方法
自变量(Independent variable)、协变量 (covariate)、因变量(dependent variable) 。
协变量——混杂因素中的定量变量我们可以作 为协变量来处理。
X
Independent variable
Y
dependent variable
26
29
指标变量
工 农 商 学 兵
var1 var2 var3 var4 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1
哑变量优点:可以用和真变量一样参与计算,回 归分析。
30
(0:表示男;1表示女)
患者姓名 陈×× 朱×× 范×× 性别 男 女 女 编码 0 1 1
40
41
步骤1:定义数据结构
步骤2:分类变量的数值化 例如:性别 男 女 “1” 表示男 “2” 表示女
42
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
性别 男 男 男 男 男 女 女 女 女 女 男 男 男 男 男 女 女 女 女 女 男 男 男 男 男 女 女 女 女 女
37
38
(二) SPSS数据文件建立
SPSS所处理的数据文件有两种来源: 在SPSS环境下新建数据文件 直接用Data Editor(数据编辑器)建立(也称为系统数据 库):数据文件的格式一般为每行一个记录(case),每列一 个变量(variable)。往往不同的统计分析方法需要不同的 数据文件的格式。注:数据文件的后缀为.sav 从外部调用已建立的数据文件 能与其它软件共享数据,与其它软件数据有转换接口 ①读取纯文本文件(Read Text Data—ASCII) ②读取Excel 文件 ③读取其它数据库(FOXPRO)文件 注:通过其它数据库转换而来的数据文件在数据结构上可 能有些不同。
·· ·· · ·
21. 各项总分 22. 焦虑是否存在 ①阳性
②阴性
10
表 2 病人的焦虑症状调查资料汇总表
病人编号 条目1 条目2 条目3 条目4 条目5 · · 总分 焦虑状态 · 1 2 3 4 5 6 7 8 9 10 11 12 13 14 4 3 2 4 2 3 1 4 2 4 4 4 4 4 3 3 3 4 1 3 4 4 2 4 1 4 3 3 2 3 2 3 4 4 1 4 3 3
8
9
例3:某研究者为了研究病人的焦虑症状,采用焦虑自评 量表(SAS),调查20个病人,调查表如下: 病人的焦虑症状调查表 编号: 姓名: 性别:
1. 我感到比往常更加神经过敏和焦虑 ①很少有该项症状 ②有时有该项症状 ③大部分时间有该项症状 ④绝大部分时间有该项症状 2. 我无缘无故感到担心 ①很少有该项症状 ②有时有该项症状 ③大部分时间有该项症状 ④绝大部分时间有该项症状
11.47 12.53 10.98 …
正常 正常 异常 …
显效 有效 显效 … 有效
16.90 11.78 异常
13
例6:某大学一年级学生第一学年必修课考试成绩表下:
14
例7:某医师研究用兰芩口服液与银黄口服液治疗慢性咽 炎疗效有无差别,将病情相似的80名患者随机分成两组, 分别用两种药物治疗,结果见下表:
(年龄分级编码,这样处理缺点:会损失部分信息) 年龄范围 0~未满10岁 10~未满20岁 20~未满45岁 45~未满65岁 65岁及以上 编码 0 1 2 3 4
31
结构
变量值
32
变量 variable
数 结 据 构 变量值 value---数字
记录或病例 record or case
变量 记录 数字
表二: (P.102) 10名3岁儿童的身高、体重、体表面积资料 编号 体表面积/m3 身高/cm 体重/Kg 1 5.382 88.0 11.0 2 5.299 87.6 11.8 3 5.358 88.5 12.0 应 变 4 5.292 89.0 12.3 自 量 变 5 5.602 87.7 13.1 量 6 6.014 89.5 13.7 7 5.830 88.8 14.4 8 6.102 90.4 14.9 9 6.075 90.6 15.2 10 6.411 91.2 16.0
39
1、在SPSS软件中直接建立数据文件 ①定义数据库结构 定义数据结构(库结构)—定义变量(define variable 内容包括:变量名、类型、变量标签、变量值标签、 定义缺失值、数据列对齐方式、变量的度量尺度(scale 定 量变量、ordinal 等级变量、nominal 定性变量) 注:系统默认变量名称:var00001 var00002 … ②数据录入 SPSS 在数据编辑器中定义变量,输入、修改数据,形 成一个可供SPSS分析的数据文件,可使用“Edit”菜单项中 的各种功能可以对数据文件进行编辑处理。编辑完注意要 存盘,默认扩展名为 .sav ,也可用 Save as 存盘并可保存 为其它类型的数据文件。
变量 记录 数字
17
变量
数字 记录
18
变量:观察对象的特征或指标,若以人为观察对象, 人的特征如性别、年龄、体重等被称作变量。对变 量进行取值所采用的工具或标准称为测量尺度 (scale)。测量的结果被称为变量值(value of variable),或观察值(observed value, measurements),如性别的观察值为男性或女性。 变量值是统计分析的第一手资料。
变量
19
关于变量
20
变量类型:数据由变量及其取值组成。变量根据 其取值的不同,可分为数值变量和定性变量,定 性变量又有两分类、多分类和等级之分;数值变 量又可分为连续型和离散型。从包含的信息量的 多少而论,数值变量多于等级,等级多于多类, 多类多于二类。
DATA
21
变量分类
理论教材中是按测量尺度分类
药物
兰芩口服液
疗效 有效(%) 41(36.56) 无效(%) 4(8.44)
合计
45(固定值)
银黄口服液 合计
24(28.44) 65
11(6.56) 15
35(固定值) 80
15
调查 实验 试验
数据 DATA
数据结构 变量类型
数据类型
数据数值化
其它
数据转换
16
数据结构:由变量、记录和数字组成,变量是对 观察对象某个特征的描述,包含变量名、变量值。 只含有一个变量的数据是最简单的数据,通常情 况下,科研数据不止一个变量,大型调查或临床 试验中往往有纵多的变量。
变量的类型可以转化或转换(由高级向低级): 定量 有序 分类 二类
22
23
SPSS变量测量尺度:
24
A Scale level Interval scale (定距尺度) Quantitative variables measured on a numeric scale in which distances between the points on the scale can be compared meaningfully. Interval variables have numeric values, rather than coded values. Ratio scale (定比尺度) Quantitative variables measured on a numeric scale in which distances between the points on the scale can be compared meaningfully, and which have a true (nonarbitrary) zero point.
数据分析
3
EpiData 功能:
• • • • • ① ② ③ ⑤ ⑤ 数据录入; 数据核对,双机录入和核对; 数据管理; 数据报告; 数据初步分析;(EpiData Analysis)
4
5
6
7
三、统计数据的结构
(一) 数据的结构 统计软件包归根到底是要以数据为对象,对数据进行 分析。学会建立一个正确的数据文件及进行数据管理是做 好统计分析的第一步,是为分析做好准备工作。
12
例5:100名高血压病人治疗后的临床记录,如下: 表4
患者 编号来自百度文库
100名高血压病人治疗后的临床记录
治疗 分组 收缩压 舒张压 心电图 疗效 (kPa) (kPa) 判定
年龄 性别 (岁)
1 2 3 … 100
37 45 43 … 54
男 女 男 … 男
A药 对照 B药 … A药
DATA
18.67 20.00 13.44 …