第2章 数据的整理与展示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分组的组数 组数要适中,太少则数据分布会过于集中,太多 则数据分布会过于分散,都不利于考察数据分布的 规律。 在有经验可以遵循时依据经验划分! 无先验性分组时,采用以下Sturges经验公式:
K ≈ 1+3.322 lgN 其中,K为组数,N为不同数据的个数,lg为常用 对数。
2.3数据的汇总技术
• 数据同类的汇总---求和
单个分类数据的计数汇总
1.列出各类别 2.计算各类别的频数 3.制作频数分布表 4.用图形显示数据
分类
A B C D E
频数
相对频 百分比频


分类数据例
例对以下所列血型资料C
O O A B A O B O B O O A
A A AB A B A 解O 答O:排序A 归类A A O
=IF(MOD(MID(C3,17,1),2)=1,”男”,”女”)
2.1.1 数据的录入技术
(3)出生日期输入: 出生日期为身份证从第7位数字共8个数表示年月日, 利用日期组合函数提取生日的组合公式: =DATE(MID(C3,7,4),MID(C3,11,2),MID(C3,13,2)))
(4)学历和部门输入:(可选固定项) 选中F列中需要输入学历的单元格,选择“数据”—“有 效性”—“设置”,在“有效性条件”选项中,选取 “序列”,在“来源”中输入硕士,本科,大专(注意:用 逗号隔开)。 同学练习部门输入
1, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2, 2
身高(height)
76,59,67,65,63,72,70,68,69,74,68,63
参加活动以前的体重(before)
185 113 145 156 109 191 155 165 175 180 135 118
参加活动以后的体重(after)
2.1.4 数据的排序
3.SPSS 排序:选择字段->鼠标右键功能->升序 或降序
SPSS输入数据
• 读入Excel数据两种方式: 1 –将excel中数据复制并直接粘贴到数据视图屏幕中 2 –读入excel 格式文件(.xls)
• 注意: 注意: • SPSS 更擅长处理数字变量,而弱于处理字符串变量(分类
码,然后单击确定。
6对其他分类变量重复这个过程
输入数据
• 也可以从其他数据库中传输数据 • 还可使用Stat/Transfer工具包进行数据转换,
包括Excel、Lotus、 Paradox 、Dbase和 Quattro Pro。
• 读入文本数据: 文件 打开文本数据
数据形态
• SPSS通常需要宽格式的数据 • 每行表示不同个案(例如每个病人一行) • 每列表示不同的变量
2.1.3 数据的筛选
2、高级筛选 首先建立筛选条件,条件区域首行为条件字
段名称,第二行为条件; 若是“与”的多个条件则在同一行并行设置,
如果是“或”的多个条件,则是在不同行设置。
2.1.4 数据的排序
排序:按规则将数据排列; 确定各数据的相对位置。
目的:分析比较 排序顺序可选, 习惯升序
2.1.4 数据的排序
2.2.2数据分组的种类
1、简单分组
使用一个特征标志对研究对象进行的分组称为简单 分组,比如:员工按性别分组,按工资分组,按年龄分组, 等等。下表为两个简单分组的并列。
员工分组
总计
其中:按月工资分 3000 元以下
3000-5000 元
5000 元以上
其中:按性别分


员工人数 79 23 44 12 51 28
2.1.1 数据的录入技术
(5)年龄和工龄输入: 年龄值等于今年减去出生年份,E3单元格为出生日 期年份身份证号,则在需要计算年龄的单元格输入 公式: =INT(YEARFRAC(E3,TODAY() ,1) 同学练习工龄输入
2.1.2 录入数据的逻辑审核
• 数据质量 • 有问题的数据: • 缺失值、不完整 • 杂质、偏离值、不正确 • 重复值
• SPSS可以对变量有选择地进行保存。可以选择 你需要的变量进行保存。
• 可以选择不同的格式对SPSS数据文件进行保存
作业练习1
• 利用函数在Excel中快速输入表格数据,并作限制审核。
作业练习2
• 在SPSS中输入以下 12项调查数据并保存为学号-1的文件。
注意:先在变量视图做数据定义,再在数据视图输入数据 ID号(id):个人学号向下递增 性别(sex):1:男; 2:女
单个数值型数据的计数汇总 70 83 77 69 52 54 70 74 85 92
例某班31名学生考试分数见
76 48 71 73 93 73 67 90 78 69 77 72 53 82 68 92 54 94 64 50
• 2.3.1数据的计数 • 2.3.2数据的求和
2.3数据的汇总技术
• 分组(分类)后汇总(观察总数为n)
频数分布:将数据分成不重叠的几个部分,统计每 一部份出现的次数及占比等情况。
频数(每组的数量)---计数 相对频数---每组频数占总数比= 每组频数/n 百分比频数=相对频数*100 频数分布表,用表格形式列出频数分布信息
读入Excel数据
• 读入数据后,SPSS可识别分类变量的代码 1点击data editor窗口左下角的变量视图选项卡。 2看看你要处理的变量的行,然后转到值列点击 “None”这个词. 3点击右边的小灰色方块(里面有圆点). 4输入第一个值(代码)(例如0 )和相应的标签 (例
如No ),然后单击 添加 5重复4的操作,直到输入了该变量的所有标签和代
数据的整理的基本问题
1. 要弄清所面对的数据类型,因为不同类型的 数据,所采取的处理方式和方法是不同的
2. 对分类数据主要是做分类整理
3. 对数值型数据则主要是做分组整理
2.2数据的分组
• 2.2.1数据分组的作用 • 2.2.2数据分组的种类 • 2.2.3数据分组时组限的表示方法 • 2.2.4数据分组的组数与组距
YEARFRAC(begindata,enddate,1)
2.1.1 数据的录入技术
在Excel中录入下表中的数据:
2.1.1 数据的录入技术
(1)编号输入: 手工输入前两个编号01001和01002,利用拖动复制 功能即可完成01003、01004等的自动输入。 (2)性别输入: 性别为身份证的第17位数字信息,利用字符串截取 函数提取,如果除以2的余数为0则判断为“女”, 否则为男。C3单元格为身份证号,则性别提取公式 为:
2.2.3数据分组时组限的表示方法
连续型变量组限的表达: 2000以下为缺下限的开口组,5000以下为缺上 限的开口组,组距均为1000(相邻组组距)
2.2.3数据分组时组限的表示方法
离散型变量组限的表达:
注意0-99组的组距为100,100-999组组距为 900(wenku.baidu.com围为100人至999人)
2.2.4数据分组的组数与组距
回顾总结 (计量尺度、获取方法、时间空间、范围)
• 数据的类型
计量尺度粗到细
(定类尺度→定序尺度→定距尺度和定比尺度) 获取方法(观测数据\实验数据) 时间空间(截面数据\时间序列数据\面板数据 ) 范围(总体数据\样本数据)
• 数据的来源 (直接、间接 )
• 数据分析的步骤 目的、数据收集、数据整理(预处理)、 数据分析(方法)、结果展现报告 )
第二章 数据的整理与展示
• 2.1数据的预处理 • 2.2数据的分组 • 2.3数据的汇总技术 • 2.4数据的图形展示
2.1数据的预处理
数据预处理包括数据录入、审核、订正、筛 选、排序等工作的筛选
• 2.1.1 数据的录入技术 • 2.1.2 录入数据的逻辑审核 • 2.1.3 数据的筛选 • 2.1.4 数据的排序
2.2.1数据分组的作用
1、划分现象的类型 比如,根据人均收入的数据分组,可以将不
同的国家划分为高、中、低收入国家。 2、研究现象的内部结构
比如,对人口按年龄分组,可以考察人口的 年龄结构。 3、研究现象之间的依存关系
比如,对家电企业按销售额分为若干组,观 察各组企业的流通费用率,可以发现销售额越高, 流通费用率越低。
1.Excel的自动排序功能 数据清单的第一行要求是排序关键字。选择
“数据”—“排序”,进入对话框。
2.1.4 数据的排序
2.利用Excel的函数排序
RANK(number,ref,order)。其中 number为要排序的数;ref为排序所要参照的一 组数据或一个数据列表;order为排序方式参数, 0或忽略为降序,非零值为升序。 RANK(E1,E$1:E$10,1)
176 90 140 135 100 184 130 158 165 172 120 102
政治派别(party)
211112221122
8个有关性格的问题(分别记为e1到e8)随机填
2.1.3 数据的筛选
筛选出工龄20年以上的员工 1、自动筛选
将光标定位在A到J列数据清单的任一单元格 内,选择“数据”—“筛选”—“自动筛选”后,数 据清单的每一列第一行的标题单元格右方将出现下 拉按钮,点击工龄后的下拉按钮,选择“自定义”, 进入对话框后选择和输入相应条件即可。
2.1.2 录入数据的逻辑审核
例如 : 1.身份证位数的审核 选中身份证所在C列,选择“数据”—“有效性”— “设置”,在“有效性条件”选项中,选取“允许”、 “数据”和“长度”分别选取“文本长度”、“等 于”和“18”即可。
2.年龄区间的审核
选中年龄所在I列中,在有效性设置的“条件”选 项中,选取“允许”、为 “自定义”,在“公式” 栏中输入">=18"and"<=60"即可。
• 缺失值处理
–如果有数据缺失,SPSS对于字符型数据和数值型数据有不 同的处理方式。
–对于数值型数据,缺失值默认为“.”;对于字符串型数据 ,系统默认值为空。
保存文件
• 在数据输入过程中,要经常注意保存数据,而 不要等到所有数据输入完成之后再进行保存。 这样可以避免例如计算机故障或者突然断电造 成的不必要的的数据丢失。
数据作为文本输入) • 要将数据从Excel传输到SPSS,最好将字符类数据(例如
:yes/no/don‘t/e/女性等)以数字类型(代码)而不是文 本形式输入到Excel中 • 例如可把‘No’设为0 ,‘Yes’=设为1,以此类推。
读入Excel数据
Option 1: 将excel表格中数据复制并直接粘贴到数据视图 屏幕中
可得各类频数: 4 类
A 18 AB 2 B4 O 16 分布表如右
A A A O O O A A A O O A A O O AB
血型
A AB B O 合计
频数
18 2 4 16 40
相对频数
0.45 0.05 0.1 0.4
1
百分比频数(%)
45 5 10 40 100
注意:数量多一定要在先分好类!
2.2.2数据分组的种类
2、复合分组 使用两个或以上的特征标志对研究对象进行分组并且
以层叠方式排列 。
2.2.3数据分组时组限的表示方法
1、单项式 各组均用一个数值表示; 适合数据为离散型数据且变量值个数不多的情形。 2、组距式 (变量值较多) 各组用一个数量范围表示。 前后两组可以用开区间。 各组组距可以相同或不全相同时。
SPSS 数据的录入及保存
数据的定义
11
输入数据时候应该注意问题
• 字符型数据
–在SPSS中,字符型数据值是区分大小写的,小写的m和大 写的M是不一样的。
–字符型数据也可以设置值标签。例如,“sex”变量的两个 取值为M,F,他们的值标签分别为Female, Male。
–如果值标签为英语,可以单击“拼写”进行拼写检查,以 检查值标签的英文拼写。
Option 2:2 –读入excel 格式文件(.xls) 1 启动 SPSS. 2 选择文件 → 打开 → 数据 3 修改文件类型为Excel(*.xls)后,会显示所有该类文件。 4选择需要的Excel 的文件,点击打开按钮 5勾选“从第一行数据读取变量名”的复选框,然后单击确定
(如果excel中的第一行包含变量名,否则就不勾选了) 6数据将出现在SPSS数据编辑器中.
2.1.1 数据的录入技术
函数举例
字符串截取: MID(text,start_num,num_chars) 求余: MOD(number,divisor) 条件判断: IF(Logical-test,value-if-true,value-if-false) 日期组合: DATE(year,month,day) 日期差比较:
相关文档
最新文档