数据分析工具使用[牛琨]
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学的分类
• 描述统计学——
– 研究如何把数据用易于理解的形式展示出来,结果可能是表格、 图形或者数值
• 推断统计学——
– 利用部分数据对总体数据的规律性做出预测和检验,为了实现这 一功能,统计学家建立了大量的统计模型
描述统计量概述
• 描述统计量(Summary Statistic),也称汇总统计 量或概括统计量
描述性统计分析概述
• 尽量精确、直观而全面的对所获得的样本进行呈现 • 统计图:直观,但精确度稍差
– 常规统计图:主要的使用部分 – 交互式统计图:功能非常强大,但操作也较复杂 – 统计地图:将数据与地图相结合
• 统计报表:能尽量详细,精确,但不够直观
– Base模块:基本上满足需要 – Tables模块:专业级报表输出,操作方便快捷
图一:根据交通管理部门统计结果显示,多数 车祸发生在当汽车行驶于一般车速的时 候,只有少数车祸发生在时速150公里 以上,这是否表示开快车比较安全呢?
图二:如果统计显示在亚利桑那州有较多的人 死于肺结核,这是否表示和别的地区比 较起来,亚利桑那州的天气比较容易感 染肺结核呢?
图三:有个调查研究显示,身高比较高的儿童 拼写能力也比较好,这是不是表示从一 个人身高的大小,可以测量出他的拼写 能力?
950 900
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
公司A 公司B
差距为何变小了?
更改Y轴刻度单位后的效果!
1400 1200 1000
800 600 400 200
0
1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
如性别、年龄段
• 对一个变量进行多个统计量的汇总
例如销售总额、平均每笔销售额
• 生成次数变量:成交次数 • 汇总生成新文件或直接显示在数据窗口
数据汇总
待处理变量
分类变量 汇总变量 统计数量汇总
数据结构的转置:Restructure
第一种:一条记 录变成多条记录 第二种:多条记 录变成一条记录 第三种:3行 ×200列变成200 行×3列
精确检 验
缺失值 分析
基础模 块
SPSS
高级模 块
回归
时间序 列
地图展 示数据
表格展 示数据
正交设 计分析
分类数 据分析
SPSS模块与分析过程
读/录入数据
数据整理
Base 描述统计 数据分析
图表展示
Missing Value
Table Map
结果编辑
结果报告
Advanced Categories Conjoint Regression Trends Exact Test Complex Sample
目录
▪ 第一部分 SPSS使用技巧
–概述 –数据采集 –数据准备与整理 –数据描述 –相关、回归分析
▪ 第二部分 EXCEL使用技巧
收集数据的一些常用方法
分层抽 样
多阶段 抽样
数据收 集方法
整群抽 样
系统抽 样
分层抽样(Stratified Sampling)
第一层 第二层 第三层
○○○○○ ○○○○ ○○○ XXXXX XXXX X
总体是8×8的方格。
78 15 16
19 20 27 28
37 38 45 46
49 50 57 58
第一阶段抽样,得出 4个2×2的子单元。
7 20 45 58
第二阶段抽样,得出 4个样本。
样本对总体的代表性
收集数据时的错误和误差
抽样误差 (sampling Error)
• 样本的特征不一定和总 体完全一样
自动发现重复记录
• 在大型数据管理工作,或者复杂 的数据变换工作中,重复记录的 发现是经常需要完成的任务
• 各大统计软件中这一功能基本上 都是通过编程完成,但操作较麻 烦,不利于普通用户使用
• SPSS 为之专门提供了简单的操 作界面,可以迅速发现个别变量 值重复,或者所有数值完全重复 的记录
待处理变量
未响应误差(Nonresponse Error)
• 抽样调查中,人们因为 种种原因没有对调查做 出反映,这种误差称为 未响应误差
响应误差 (Response Error)
• 一些人因为各种原因回 答时并没有真实反映他 们的观点,这称为响应 误差
数据收集 过程误差
统计分析要求的数据格式
变量: 记录:
理念
1. 统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单 2. 做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和
结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧 3. 复杂的方法未必是可行的方法 4. 越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价
新旧值
旧值
新变量名和标签
新值 旧新
字符 数字字符 数值
文件管理
合并文件—— 增加变量
合并文件—— 增加记录
数据汇总
数据转置
自动发现重复 记录
Fra Baidu bibliotek
合并文件——增加变量
排除变量 关键表
新文件中包含变量 匹配变量 记录来源
合并文件——增加记录
未匹配变量
已匹配变量
数据汇总
• 按一个分类变量汇总,
如性别
• 按多个分类变量汇总,
值 5. 要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果
统计软件的作用与SPSS软件的特点
统计软件的作用
SPSS软件的特点
帮助人们整理大量的数据
协助人们迅速的对大量数据进 行统计分析
把分析结果以便于理解的方式 展现出来
易用性 企业级统计分析解决方案
结果的权威性
SPSS模块简介
复杂抽 样
SPSS图形
因变量 连续变量
自变量 有序分类变量
线图
• 用线段的升降来表示事物随时间的发展变化 • 实质上和条图没有区别,只是使用习惯不同而已 • 一个分类变量:简单线图 • 两个分类变量:多线图
SPSS图形
因变量 连续变量
自变量 连续变量
散点图
• 以点的密集程度和趋势表示两变量间的数量依存关系 • 两变量间关系:简单散点图 • 快速发现多个变量间主要相关性:散点图矩阵 • 在同一张图中比较各组变量的相关性:重叠散点图 • 三个连续变量间的关系:三维散点图
SPSS图形
Graphs菜单
交互式统计图
能找到什么信息?
SPSS图形
因变量 连续变量
自变量 分类变量
条图
• 以直条长短来表示各指标数值的大小(cover.sav) • 一个分类变量:简单条图(各城市的日销售额) • 两个分类变量:复式条图(销售额先按城市,再按包装类
细分)
– 分组条图:便于个亚组内部比较(不同包装亚组) – 堆积条图:便于大分类整体比较(不同城市间)
抽出A、D
○○○○○○○
×××
△△△△△
○○○○○○○
×××
△△△△△
系统抽样(Systematic Sampling)
多阶段抽样(Multistage Sampling)
12345678 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64
数据分析工具使用
主讲人:牛琨 博士
北京邮电大学软件学院 2008年10月 上海
目录
▪ 第一部分 SPSS使用技巧
–概述 –数据采集 –数据准备与整理 –数据描述 –相关、回归分析
▪ 第二部分 EXCEL使用技巧
数据分析、统计学、统计软件之间的关系
• 背景:拥有一定量的数据
数据分析 • 产生需求:从数据中提取信息
记录1 记录2 记录3 …… 记录n
变量1 …… …… …… …… ……
变量2 …… …… …… …… ……
变量3 …… …… …… …… ……
…… …… …… …… …… ……
变量m …… …… …… …… ……
变量类型
变量测量类型
连续数值变量 离散数值变量
字符串变量
变量类型 Numeric:数值型 Comma:分位符型 Dot:点分位符型 Scientific:科学计数法型 Dollar:货币型(美元)
• 用少量数字概括大量数字的技术
如何用少量的数字来概括数据?
• 数据的“位置”
• 升降序 • 多个变量排序
新变量的生成——Rank
待选变量列表 最小/大值为1
对a排序 按 b 分组对a 排序 编秩类型 相同值
相同值处理
编秩类型
连续变量离散化——Recode
• 按分数规定等级——Recode
• 规则:不重且不漏
• 例:
• 90以上为A,75-89为B,60-74为C,60以下为D
☺ 物理学家务实 ☺ 数学家严谨 ☺ 统计学家实用
什么是统计 数据无处不在,我们每天生活在数据的海洋中。 数据包含的信息很多,但是数据中的信息往往是分散 的,单个数据很难直接被应用起来。
统计学就是把数据转化为信息的科学。
常见的统计学误用(一)
请问A、B两公司的差距大吗?
1250 1200 1150 1100 1050 1000
真相是这样的
图一:绝对不是。统计上的关系通常和因果是 无关的,多数人都以一般中速开车,自 然多数车祸发生于一般车速。
图二:恰恰相反,正因为亚利桑那州的天气有 助于肺炎患者,所以有上千患者去那里 休养,自然就提高了死于肺炎的平均人 数。
图三:当然不是,这个研究包括成长中的儿 童,所以统计数据只是说明年龄较大的 儿童(他的身高当然也比较高)比年龄 小的儿童拼写能力要好。
• 数据分析的依据
统计学 • 统计学:随机性与规律性
• 利用统计学原理
统计工具 • 服务于数据分析
什么是统计——从一个故事说起
• 一辆火车行驶在草原上,遇到一群白色的羊……..
物理学家说,我们看到的羊群是白色的 数学家说,我们看到的羊群朝向我们这面的那部分是白色的 统计学家说,我们看到了103只羊,它们都是白色的,我推断天 下的羊都是白色的
ΔΔΔΔ ΔΔΔ ΔΔ
抽样
○○○○ ○○ XXX XX
ΔΔ ΔΔ
整群抽样(Cluster Sampling)
○○○○○○○
×××
A
△△△△△
○○○○○○○
×××
B
△△△△△
○○○○○○○
×××
C
△△△△△
○○○○○○○
×××
D
△△△△△
○○○○○○○
×××
E
△△△△△
○○○○○○○
×××
F
△△△△△
公司A 公司B
常见的统计学误用(二)
谋杀案发生率上升严重吗?
180
24000
23000 175
22000
170
21000
20000 165
19000
160
18000
17000 155
16000
150
15000
2002 2003 2004 2005 2006 2007
谋杀犯罪 暴力犯罪
如何下结论?
新变量的生成——Compute
• 利用算术符号和函数生成新变量 (Compute): • 举例:
– 销售总额 = 单价×数量×(1 - 折扣) – 平均成绩 = (语文成绩 + 数学成绩 + 英语成绩)÷ 3 – 平均成绩 = average(各科成绩) – 年龄 = 当前年份 – 出生年份 – 姓名 = 姓 + 名
Date:日期型 Custom:自定义型 String:字符串型
目录
▪ 第一部分 SPSS使用技巧
–概述 –数据采集 –数据准备与整理 –数据描述 –相关、回归分析
▪ 第二部分 EXCEL使用技巧
变量级数据整理——新变量的生成
Compute Rank Cases
Recode Automatic Recode
• 例:
• A级人数占总人数的25%,B—25%,C—25%,D—25%
• 例:
• A级—10% B—50%,C—30%,D—10%
如分数转换为等级:A/B/C/D
连续变量离散化——Recode(一)
待选变量
选中变量
条件
新旧值
旧值
新值 旧新
连续变量离散化——Recode(二)
选中变量
待选变量
条件
数据整理——数据记录选择(Select Cases)
选择记录选项
过滤选项
删除选项
写条件式
函数
随机抽样
段选择
观测值
数据整理——数据权重( Weight Cases)
待选变量
不予加权
权重变量
目录
▪ 第一部分 SPSS使用技巧
–概述 –数据采集 –数据准备与整理 –数据描述 –相关、回归分析
▪ 第二部分 EXCEL使用技巧
新变量的生成——Compute
新变量名
新变量类 型标签
表达式
待选变量列表
数学运算符号 数字键盘
函数
条件
标准按钮
新变量的生成——Rank
• 新变量代表名次(Rank Cases) • 举例:
• 对按平均成绩排名,分数最高的为第一名。 • 相同分数的名次处理:同小、同中、同大
• 排序Sort Cases: