第三讲基础使用讲课文档
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
众数
离中趋势
全距 四分位距
方差
标准差
分布形态
偏态
峰度
第26页,共56页。
保留语法-下次再作——研究痕迹
第27页,共56页。
频数分析
变量 分布
用户状况
预销 流失
在网
第28页,共56页。
第29页,共56页。
第30页,共56页。
描述性分析
汇总
统计
第31页,共56页。
正态分布
A B C
第32页,共56页。
Do if . Compute . Else if . Compute . Else . Compute . End if .
• 示例:将所有产品分为三类:耐用、快速变动、其它
第37页,共56页。
图形模块的应用
• 目的:
• 掌握如何新建图形模块文件
• (Templates or Chartlooks)
值
• 覆盖旧变量或生成新变量 • 旧值与新值的对应关系: 两个原则:不重,不漏 • 适用于:
• 将连续变量转换为分类变量 • 将数字字符型变量转换为数值型变量 • 将几个类别合并为一类
第35页,共56页。
字符型变量自动转换为数值型变量
• 菜单:Automatic Recode • 适用于:字符型变量转换为数值型变量
FIELDS
第33页,共56页。
计算新变量
• 菜单:Compute • 方程式:
函数(算术、字符、日期时间、统计量)
变量值 数字 数学与逻辑符号
• 示例:
平均值计算
字符合并 年龄计算
• 条件式计算:
第34页,共56页。
对变量重新赋值
• 菜单:Recode • 与Compute不同之处:Recode利用单个变量值计算生成新
分
What If
析
软
UCINET
件 与
模
ACACBC
块
AMOS/LISREL
Answer Tree
SPSSMR
• 结果发布
SAS
SAS0 SAS0 SAS
SAS
SAS0
Spss0 Spss0 Spss0 Spss0
Spss Spss0 Spss0
Spss0
Spss
0年———————年—————————————————年————————————00年
• 掌握如何应用模版文件
• 了解如何设置图形模版文件为默认外观
第38页,共56页。
表格编辑规则
• 表格要素:行、列、层、数据 • 编辑规则:Table Properties • 对所有单元格、所有行、列或者层进行编辑 • 属性与新纬度一致(列变量移动到行变量时) • Cell Properties • 只对选中的单元格进行编辑 • 属性继承 • 先Table 后Cell • Cell Properties 覆盖Table Properties特性
,也很难正确解释所得到的结果。
• 要想充分发挥数据的价值,必须要对你的目标有一个清晰明确的定义;
• 决定到底想干什么,有效的问题定义还应该包含一个对你的知识发现,以及项目得到结果进行衡
量的标准。
• 还应该有整个项目预算和理性的解释。
比如你说你想提高商业战役的用户响应时,你想做的可能是“提高用户响应率”,也可能 是“提高一次用户响应的价值”,要解决这两个问题而建立的分析方法或模型几乎是完全不同
第15页,共56页。
利用命令Help
• 三种编辑方式生成SPSS命令
1. 通过自己编辑生成 2. 通过“Paste”生成格式再做修改 3. 利用“Help”生成格式再作修改
• 利用Help生成SPSS命令的几步
1. 写入关键字,如“Regression” 2. 点击工具栏以获取语句 3. 选择选项以及变量
第16页,共56页。
各自适用条件
• 如果满足于菜单分析,就用菜单分析 • 如果不经常使用SPSS, 运行菜单,并获取帮助 • 如果只想运行Syntax文件中的命令,又不想显示命令
,用Include命令
• 如果要经常读取某一文本各式或数据库数据,可考虑
用Include命令来定义数据,然后进行分析
• 如果做月报性分析,可以考虑用Production Facility • 如果运行同样的命令,只是在文件名或变量名作小的
第7页,共56页。
SPSS软件功能
• 产品简介
• 窗口简介
• 菜单简介
• 数据分析步骤
• 无处不在的Help系统
• 进行数据分析要求的格式 • 记录、变量等的一般术语
第8页,共56页。
SPSS产品简介
• SPSS是服务器/客户端结构的产品 • SPSS产品由SPSS Base, Advanced
探索数据关系
EXPLORING RELATIONSHIPS
1. 定类变量交互分析
CATEGORICAL DEPENDENT VARIABLES
2. 连续变量趋势图分析 CONTINUOUS DEPENDENT VARIABLES
3. 相关和散点图分析 RELATIONSHIPS BETWEEN INDEPENDENT VARIABLES
• 对话框帮助 • 无处不在的“What’s this?”
第13页,共56页。
SPSS的环境设置
第14页,共56页。
命令语法规则
• 每条命令始于新起一行的第一列
• 其他行至少空一列
• 最后一行以(.)结束 • 变量名必需拼写正确
• 子命令必须以(/)分隔
• 每行不超过256 字符, 推荐限制在80字符内
数据转换
DATA TRANSFORMATIONS
1. 自动编码AUTOMATIC RECODE 2. 分组值GROUPING VALUES 3. 函数转换FUNCTIONAL
TRANSFORMATIONS 4. 修改异常值MODIFYING OUTLIERS 5. 计算新变量DERIVING NEW VARIABLES 6. 改变分析单元CHANGING THE CASE BASE 7. 消减变量REDUCING THE NUMBER OF
原资料的组成。
• 缺值这件事本身可能就是非常有意义的,比如也许只有富有的顾客才经常
忽略“收入”这一项。
• 你可以增加一个新的变量来标识这些缺值的记录,然后用它建立一个模型,然后与按其它方
法建立的模型进行比较,看哪个准确度更高一些。
• 另一种方法是为缺失值计算一个替代值。
• 计算替代值的常用方法包括使用形式值(名词变量),中间值(定序变量),平均值(连续
Categories, Conjoint, Trends, Regression,
Missing Value Analysis, Tables, Exact Test
和Maps等分析模块构成,另外还有专门
查看输出结果的Smart Viewer模块
• SPSS Data Access Pack用于和数据库进行
第41页,共56页。
文件的合并----增加记录和变量
• 增加记录:一种纵向合并,是对不同个体的相同属性进行合并,事先排序,变量
相同。
• 增加变量:是一种横向合并,是对相同个体的不同属性进行合并,事先排
序,关键字且唯一。
• 一对一匹配或一对多匹配。
• 合并两个文件或多个文件。
• 利用菜单一次只能合并两个文件。
秩排序
缺失值处理
秩排序
重新编码 自动分类
第20页,共56页。
数据分析和方法
第21页,共56页。
数据分析和图形分析,展示
第22页,共56页。
有用的工具
第23页,共56页。
数据选择
汇总 数据
一起动手
第24页,共56页。
汇总数据
第25页,共56页。
描述统计测定指标
数据分布性质
集中趋势
算术平均数 中位数
• 其中一个文件必须使SPSS格式,另一个文件必须可以用SPSS打开。
第42页,共56页。
定义商业问题
• 最重要的要求是你的数据和业务问题。
• 没有任何统计方法或算法,无论多么复杂玄妙,无法提供有价值的结果。 • 即使有也难以使人信赖。缺少这些背景知识,无法明确定义要解决的问题,不能为分析准备资料
连接并获取数据
第9页,共56页。
进入SPSS
第10页,共56页。
SPSS窗口简介
Data Edit
Data View
Variable View
第11页,共56页。
SPSS窗口简介
Syntax Output
第12页,共56页。
SPSS的Help系统
• 帮助菜单
• Statistics Coach • Result Coach • Case studies • Tutorial
• 与Recode相比
• 转换原则:
• 字母顺序----顺序或逆序
• 相同字符串相同值,不同字符串不同值 • 值标签----原变量值标签或值
• 示例:Name----Numname, Sex----Gender
第36页,共56页。
Do if … else if Logistic
• 适用于:基于几个变量生成新变量 • 结构:
统计分析方法 多变量分析技术
描 •频数分析
述
•交叉表分析
性
•T检验
统 计
•数据探查分析
•相关分析 •方差分析
•回归分析 •主成分分析
•因子分析 •聚类分析
•判别分析 •对应分析
•多维尺度分析
•结合分析 •离散选择模型
•多维偏好分析 •结构方程式模型 •分类树 •决策与预测模型
市场研究模型技术
•分类
改动,考虑用Production Facility中的宏
第17页,共56页。
SPSS的变量
缺失值
测量尺度
变量名
变标 变量类型
值标
第18页,共56页。
变量和数据整理
排序
转置
数据重 构
数据合 并
插入变量
样本加权
汇总数 据
正交实验 设计
拆分记录
选择样本
第19页,共56页。
变量或数据转换
计算新变
量
随机种子 计数
数
•预测
据
•细分
挖
•关联
掘
•序列
技
术
第5页,共56页。
变量:测量尺度
低 •名称级——定类变量
•顺序级——定序变量 转
换
•间隔级——定距变量
•比例级——定比变量 高
离散型随机变量
定性 非数量型
定量 数量型
连续型随机变量
第6页,共56页。
数据分析项目各阶段
• 数据收集
• 数据录入
• 数据读取
市场调查 DATA WareHouse
第三讲基础使用
第1页,共56页。
优选第三讲基础使用
第2页,共56页。
统计分析的技术思路
?
商业问题
数据问题
!
商业问题
解决方案
统计学方法或者数据挖掘方法
第3页,共56页。
统计分析是正确理解数据的工具 首先:要避免犯统计错误
明确:
统计没有错误,犯错的是人。
理论和方法的错误
理解和解释的错误
第4页,共56页。
的,你必须做出决定。
第43页,共56页。
理解商业问题
性别 父亲的教育程度 被访者教育程度
工作类型 城市
当前收入水平
第44页,共56页。
性别
父亲的教育程度
城市
被访者教育程度
工作类型
当前收入水平
当前财政状况
Time1
未来信用风险
Time2
第45页,共56页。
家庭收入
喜欢流行音乐
销售数量
第46页,共56页。
第39页,共56页。
表属性
• 用于修改整个表的属性 • 主要功能:
• 单元格属性:字体、对齐方式 • 行列宽度、高度 • 空行和空列 • 打印 • 边界 • 脚标
第40页,共56页。
SPSS结果的发布 • 掌握如何将表格、图形、文本等结果转入其他 应用格
式中
• 掌握将SPSS结果导入为静态网页格式或文本格式 • OLE方法 • 将SPSS Pivot Table转入其他应用程序中 • 将SPSS Graph转入其他应用程序中 • 将SPSS结果导出 • 利用SPSS Smart Viewer Web Server来展示结果
数据质量评估
“龙生龙,凤生凤”对数据分析也是同样道理。 存在各种各样的数据质量问题
• 要想得到好的模型必须用好的资料。 • 数据质量评估就是要确定资料中哪些性质会最终影响模型的质量。
• 你不仅要保证资料值的正确性和一致性。
• 还要保证这些值是按同样的方法记录的同一件事情。 • 数据域中可能包含了不正确的值。比如,身份证号码被粗心的资料录入人员录
调研机构 市场营销
管理咨询
数据挖掘技术
Enterprise Miner Clementine
• 数据准备
•
数据理解
调 查
WEB Survey
•
数据分析
手 段
CAPI
• 数据建模
CATI
市场研究模型技术 多变量分析技术
• 模型评估
• 结果报告
PencilPaper
描述性统计
Decision Time
专 用
入了年龄。
• 即使每个单个域中包含的资料都是正确的,但这些域组合起来时可能就出现了错误的
记录,如男性怀孕。
• 有时域中的值为空。
• 当从多个不同的源整合资料时一定要注意不同源之间资料的一致性。
第47页,共56页。Fra bibliotek 资料清理• 缺值是一个非常有害的问题。 • 如果只要有一个数据域缺值就把这个记录删除掉,那么最后可能得到一个很小的数据集。 • 同时你得到的这个数据集很可能已经丢失了实际资料中蕴含的一些信息,因为你已经改变了
离中趋势
全距 四分位距
方差
标准差
分布形态
偏态
峰度
第26页,共56页。
保留语法-下次再作——研究痕迹
第27页,共56页。
频数分析
变量 分布
用户状况
预销 流失
在网
第28页,共56页。
第29页,共56页。
第30页,共56页。
描述性分析
汇总
统计
第31页,共56页。
正态分布
A B C
第32页,共56页。
Do if . Compute . Else if . Compute . Else . Compute . End if .
• 示例:将所有产品分为三类:耐用、快速变动、其它
第37页,共56页。
图形模块的应用
• 目的:
• 掌握如何新建图形模块文件
• (Templates or Chartlooks)
值
• 覆盖旧变量或生成新变量 • 旧值与新值的对应关系: 两个原则:不重,不漏 • 适用于:
• 将连续变量转换为分类变量 • 将数字字符型变量转换为数值型变量 • 将几个类别合并为一类
第35页,共56页。
字符型变量自动转换为数值型变量
• 菜单:Automatic Recode • 适用于:字符型变量转换为数值型变量
FIELDS
第33页,共56页。
计算新变量
• 菜单:Compute • 方程式:
函数(算术、字符、日期时间、统计量)
变量值 数字 数学与逻辑符号
• 示例:
平均值计算
字符合并 年龄计算
• 条件式计算:
第34页,共56页。
对变量重新赋值
• 菜单:Recode • 与Compute不同之处:Recode利用单个变量值计算生成新
分
What If
析
软
UCINET
件 与
模
ACACBC
块
AMOS/LISREL
Answer Tree
SPSSMR
• 结果发布
SAS
SAS0 SAS0 SAS
SAS
SAS0
Spss0 Spss0 Spss0 Spss0
Spss Spss0 Spss0
Spss0
Spss
0年———————年—————————————————年————————————00年
• 掌握如何应用模版文件
• 了解如何设置图形模版文件为默认外观
第38页,共56页。
表格编辑规则
• 表格要素:行、列、层、数据 • 编辑规则:Table Properties • 对所有单元格、所有行、列或者层进行编辑 • 属性与新纬度一致(列变量移动到行变量时) • Cell Properties • 只对选中的单元格进行编辑 • 属性继承 • 先Table 后Cell • Cell Properties 覆盖Table Properties特性
,也很难正确解释所得到的结果。
• 要想充分发挥数据的价值,必须要对你的目标有一个清晰明确的定义;
• 决定到底想干什么,有效的问题定义还应该包含一个对你的知识发现,以及项目得到结果进行衡
量的标准。
• 还应该有整个项目预算和理性的解释。
比如你说你想提高商业战役的用户响应时,你想做的可能是“提高用户响应率”,也可能 是“提高一次用户响应的价值”,要解决这两个问题而建立的分析方法或模型几乎是完全不同
第15页,共56页。
利用命令Help
• 三种编辑方式生成SPSS命令
1. 通过自己编辑生成 2. 通过“Paste”生成格式再做修改 3. 利用“Help”生成格式再作修改
• 利用Help生成SPSS命令的几步
1. 写入关键字,如“Regression” 2. 点击工具栏以获取语句 3. 选择选项以及变量
第16页,共56页。
各自适用条件
• 如果满足于菜单分析,就用菜单分析 • 如果不经常使用SPSS, 运行菜单,并获取帮助 • 如果只想运行Syntax文件中的命令,又不想显示命令
,用Include命令
• 如果要经常读取某一文本各式或数据库数据,可考虑
用Include命令来定义数据,然后进行分析
• 如果做月报性分析,可以考虑用Production Facility • 如果运行同样的命令,只是在文件名或变量名作小的
第7页,共56页。
SPSS软件功能
• 产品简介
• 窗口简介
• 菜单简介
• 数据分析步骤
• 无处不在的Help系统
• 进行数据分析要求的格式 • 记录、变量等的一般术语
第8页,共56页。
SPSS产品简介
• SPSS是服务器/客户端结构的产品 • SPSS产品由SPSS Base, Advanced
探索数据关系
EXPLORING RELATIONSHIPS
1. 定类变量交互分析
CATEGORICAL DEPENDENT VARIABLES
2. 连续变量趋势图分析 CONTINUOUS DEPENDENT VARIABLES
3. 相关和散点图分析 RELATIONSHIPS BETWEEN INDEPENDENT VARIABLES
• 对话框帮助 • 无处不在的“What’s this?”
第13页,共56页。
SPSS的环境设置
第14页,共56页。
命令语法规则
• 每条命令始于新起一行的第一列
• 其他行至少空一列
• 最后一行以(.)结束 • 变量名必需拼写正确
• 子命令必须以(/)分隔
• 每行不超过256 字符, 推荐限制在80字符内
数据转换
DATA TRANSFORMATIONS
1. 自动编码AUTOMATIC RECODE 2. 分组值GROUPING VALUES 3. 函数转换FUNCTIONAL
TRANSFORMATIONS 4. 修改异常值MODIFYING OUTLIERS 5. 计算新变量DERIVING NEW VARIABLES 6. 改变分析单元CHANGING THE CASE BASE 7. 消减变量REDUCING THE NUMBER OF
原资料的组成。
• 缺值这件事本身可能就是非常有意义的,比如也许只有富有的顾客才经常
忽略“收入”这一项。
• 你可以增加一个新的变量来标识这些缺值的记录,然后用它建立一个模型,然后与按其它方
法建立的模型进行比较,看哪个准确度更高一些。
• 另一种方法是为缺失值计算一个替代值。
• 计算替代值的常用方法包括使用形式值(名词变量),中间值(定序变量),平均值(连续
Categories, Conjoint, Trends, Regression,
Missing Value Analysis, Tables, Exact Test
和Maps等分析模块构成,另外还有专门
查看输出结果的Smart Viewer模块
• SPSS Data Access Pack用于和数据库进行
第41页,共56页。
文件的合并----增加记录和变量
• 增加记录:一种纵向合并,是对不同个体的相同属性进行合并,事先排序,变量
相同。
• 增加变量:是一种横向合并,是对相同个体的不同属性进行合并,事先排
序,关键字且唯一。
• 一对一匹配或一对多匹配。
• 合并两个文件或多个文件。
• 利用菜单一次只能合并两个文件。
秩排序
缺失值处理
秩排序
重新编码 自动分类
第20页,共56页。
数据分析和方法
第21页,共56页。
数据分析和图形分析,展示
第22页,共56页。
有用的工具
第23页,共56页。
数据选择
汇总 数据
一起动手
第24页,共56页。
汇总数据
第25页,共56页。
描述统计测定指标
数据分布性质
集中趋势
算术平均数 中位数
• 其中一个文件必须使SPSS格式,另一个文件必须可以用SPSS打开。
第42页,共56页。
定义商业问题
• 最重要的要求是你的数据和业务问题。
• 没有任何统计方法或算法,无论多么复杂玄妙,无法提供有价值的结果。 • 即使有也难以使人信赖。缺少这些背景知识,无法明确定义要解决的问题,不能为分析准备资料
连接并获取数据
第9页,共56页。
进入SPSS
第10页,共56页。
SPSS窗口简介
Data Edit
Data View
Variable View
第11页,共56页。
SPSS窗口简介
Syntax Output
第12页,共56页。
SPSS的Help系统
• 帮助菜单
• Statistics Coach • Result Coach • Case studies • Tutorial
• 与Recode相比
• 转换原则:
• 字母顺序----顺序或逆序
• 相同字符串相同值,不同字符串不同值 • 值标签----原变量值标签或值
• 示例:Name----Numname, Sex----Gender
第36页,共56页。
Do if … else if Logistic
• 适用于:基于几个变量生成新变量 • 结构:
统计分析方法 多变量分析技术
描 •频数分析
述
•交叉表分析
性
•T检验
统 计
•数据探查分析
•相关分析 •方差分析
•回归分析 •主成分分析
•因子分析 •聚类分析
•判别分析 •对应分析
•多维尺度分析
•结合分析 •离散选择模型
•多维偏好分析 •结构方程式模型 •分类树 •决策与预测模型
市场研究模型技术
•分类
改动,考虑用Production Facility中的宏
第17页,共56页。
SPSS的变量
缺失值
测量尺度
变量名
变标 变量类型
值标
第18页,共56页。
变量和数据整理
排序
转置
数据重 构
数据合 并
插入变量
样本加权
汇总数 据
正交实验 设计
拆分记录
选择样本
第19页,共56页。
变量或数据转换
计算新变
量
随机种子 计数
数
•预测
据
•细分
挖
•关联
掘
•序列
技
术
第5页,共56页。
变量:测量尺度
低 •名称级——定类变量
•顺序级——定序变量 转
换
•间隔级——定距变量
•比例级——定比变量 高
离散型随机变量
定性 非数量型
定量 数量型
连续型随机变量
第6页,共56页。
数据分析项目各阶段
• 数据收集
• 数据录入
• 数据读取
市场调查 DATA WareHouse
第三讲基础使用
第1页,共56页。
优选第三讲基础使用
第2页,共56页。
统计分析的技术思路
?
商业问题
数据问题
!
商业问题
解决方案
统计学方法或者数据挖掘方法
第3页,共56页。
统计分析是正确理解数据的工具 首先:要避免犯统计错误
明确:
统计没有错误,犯错的是人。
理论和方法的错误
理解和解释的错误
第4页,共56页。
的,你必须做出决定。
第43页,共56页。
理解商业问题
性别 父亲的教育程度 被访者教育程度
工作类型 城市
当前收入水平
第44页,共56页。
性别
父亲的教育程度
城市
被访者教育程度
工作类型
当前收入水平
当前财政状况
Time1
未来信用风险
Time2
第45页,共56页。
家庭收入
喜欢流行音乐
销售数量
第46页,共56页。
第39页,共56页。
表属性
• 用于修改整个表的属性 • 主要功能:
• 单元格属性:字体、对齐方式 • 行列宽度、高度 • 空行和空列 • 打印 • 边界 • 脚标
第40页,共56页。
SPSS结果的发布 • 掌握如何将表格、图形、文本等结果转入其他 应用格
式中
• 掌握将SPSS结果导入为静态网页格式或文本格式 • OLE方法 • 将SPSS Pivot Table转入其他应用程序中 • 将SPSS Graph转入其他应用程序中 • 将SPSS结果导出 • 利用SPSS Smart Viewer Web Server来展示结果
数据质量评估
“龙生龙,凤生凤”对数据分析也是同样道理。 存在各种各样的数据质量问题
• 要想得到好的模型必须用好的资料。 • 数据质量评估就是要确定资料中哪些性质会最终影响模型的质量。
• 你不仅要保证资料值的正确性和一致性。
• 还要保证这些值是按同样的方法记录的同一件事情。 • 数据域中可能包含了不正确的值。比如,身份证号码被粗心的资料录入人员录
调研机构 市场营销
管理咨询
数据挖掘技术
Enterprise Miner Clementine
• 数据准备
•
数据理解
调 查
WEB Survey
•
数据分析
手 段
CAPI
• 数据建模
CATI
市场研究模型技术 多变量分析技术
• 模型评估
• 结果报告
PencilPaper
描述性统计
Decision Time
专 用
入了年龄。
• 即使每个单个域中包含的资料都是正确的,但这些域组合起来时可能就出现了错误的
记录,如男性怀孕。
• 有时域中的值为空。
• 当从多个不同的源整合资料时一定要注意不同源之间资料的一致性。
第47页,共56页。Fra bibliotek 资料清理• 缺值是一个非常有害的问题。 • 如果只要有一个数据域缺值就把这个记录删除掉,那么最后可能得到一个很小的数据集。 • 同时你得到的这个数据集很可能已经丢失了实际资料中蕴含的一些信息,因为你已经改变了