SPSS-Modeler培训(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
举例说明平衡数据
使用分布图节点生成字段 CHURNED 的分布图
使用分布图自动生成均衡 节点(减少记录)
平衡数据后字段 CHURNED 的分布图
均衡数据.str 17
数据分割
使用导出节点和选择节点分割数据 分割节点可以直接分割数据为训练、测试(和
验证)数据 使用抽样节点分割数据(缓存) SPSS Modeler 所有建模节点都有一个选项可
SPSS Modeler培训(2)
培训内容
▪ 第一章 高级数据准备技术 ▪ 第二章 PASW Modeler预测分类技术
▪ 决策树技术 ▪ Logistics回归 ▪ 神经网络
▪ 第三章 PASW Modeler聚类技术
2
第一章 高级数据准备技术
▪ RFM汇总及RFM分析 ▪ 建模数据准备及优化 ▪ 其他建模前数据处理
14
清洗数据
简评估数据质量:
✓ 使用源节点的类型条目或类型节点实例化数据 ✓ 使用源节点或类型节点指定空白值 ✓ 使用质量节点检查和计数无效数据 ✓ 使用数据审核节点检查数据的分布和统计性质
提高数据质量:
✓ 使用质量报告生成选择节点移除带有缺失字段的记录 ✓ 使用质量节点生成过滤节点移除带有大量缺失的字段 ✓ 使用填充节点替换空白值 ✓ 使用使用源节点的类型条目或类型节点自动检查过程
20
第二章 SPSS Modeler预测分类技术 ▪ 内容
▪ 决策树技术 ▪ Logistics回归 ▪ 神经网络
21
决策树技术
介绍C5.0、CHAID、C&RT 和QUEST 节点 的高级特性
介绍交互树的特点 了解CHAID 和C&RT 在建模中处理数值输出 使用拆分数据测试模型
22
决策树模型比较
3
RFM评分
交易型数据
格式化数据
4
RFM汇总节点
▪ 计算相对于以下内容的近因:指定计算交易 近因的日期。
▪ ID 为连续:如果数据按ID预排序,则可以加 快处理速度。
▪ 丢弃具有以下值的记录:如果指定一个最小 值,凡低于该值的交易详细信息都不再被使 用。
▪ 只包含最近交易:如果分析的是大型数据库 ,则可以指定只使用最近的记录。
以启用分割,自动认可一个字段方向为分割
18
数值数据转换
对于数值数据,不适合使用均衡数据的方法,一般通过 数据转换把有偏数据的分布转换为平坦的分布
可以使用导出节点完成对数据的转换,通常转换为正态 分布或均匀分布常用数字转换公式:
Exp(x) 、Log(x+a) 、Log((x-a)/(b-x)) 、Log10(x+a)、 Sqrt(x) 、1 / Exp(@GLOBAL_AVE (x)-x)
19
标记变量转换成连续变量
使用神经网络预测一个简单的“是/否”标记字段时变 换标记字段为连续字段
使用“是/否”标记字段作为输出时,神经网络内部转 化这两个值为“0/1”,输出仍为“是/否”
使用变换后的连续字段作为输出时,结果是0到1 之间 的数值在接近边界时看成比较强的结果,在接近中间时 看成边界结果
11
11
自动数据准备功能简介
一般数据清理——在可行的情况下修正错误,或者将其筛选出来,以避免错误,增 加生成有效模型的几率,包括:
• 处理缺失值、离散值和极值。 • 筛选出在建模中可能无用的字段。例如,类别太多或太少,缺失值太多等。 • 解决编码和收集错误。 • 规范或重新编码数据以便保持一致。
• 衍生变量或属性,例如输入组合或复合变量。
增强——通过多种方式执行或建议对数据的增强:
• 数值字段的最优离散化以便更好提升(针对目标); • 变量组合(如比率)用于所有数值组合;
性能
• 重要的修正/增强属性的特征选择。
12
自动数据准备——数据处理优化简介
▪ 连续变量处理
▪ 标准化连续自变量
▪ Z-SCORE规范法:基于平均值和标准差标准化处理 ▪ 最小/最大转换:将原始值通过该变量的最小最大值距离标准化在新定义的数值区
▪ 内容
▪ 介绍分析节点 ▪ 介绍使用RFM汇总生成最近交易天数、频度、金额 ▪ 介绍使用RFM分析生成RFM评分
7
建模数据准备及优化
▪ 内容
▪ 介绍分箱节点 ▪ 介绍自动数据准备节点
8
分箱节点——最优
▪ 预分级字段以增强大型数据集的性能:采用简单 的非监督式分级方法将尺度值分组为大量分级, 以均值表示每个分级中的值,并在继续监督式分 级之前对观测值权重进行相应调整。
15
平衡数据
简检查建模中所要使用的关键字段的分布:
✓ 数据审核节点 ✓ 条形图节点(字符字段) ✓ 直方图节点(数值字段)
使用平衡节点来修正数据集中的不均匀性:
✓ 由分布图和直方图自动生成 ✓ 增加或减少记录
建议使用减少记录:
✓ 增加记录扩大了数据中的问题和不规则性 ✓ 小数据集使用减少记录是不可行的
模型准则 字符预测器 拆分类型
连续目标 连续预测器
预测器选择准 则
能否使用缺 失预测器值
先验 修剪准则 交互式建立树
C5.0 多重
CHAID 多重
否
是
是
否
信息度量
卡方检验和F 检验
是,缺失分成 是,缺失成
▪ 保存第二个最近交易的日期
5
RFM分析节点
▪ RFM 得分的计算方法如下:(近因分 值 x 近因权重)+(频数分值 x 频数权 重)+(货币分值 x 货币权重)。
▪ 分级阈:指定在执行节点时是始终重 新计算 RFM 分值和分级分配,还是仅 在需要时进行计算(如在添加了新数 据时)。
6
建模数据准备及优化
间中的值。
▪ 标准化连续因变量:BOX-COX转换
▪ 修正因变量的非正态性
▪ 根据显著性阀值,对连续自变量进行离散化
▪ 分类变量处理
▪ 根据显著性阀值,合并稀疏类别
13
其他建模前数据处理内容
简要讨论建模前的数据准备和清洗 使用条形图和平衡节点平衡数据 使用分割节点分割数据为训练和测试样本 通过分布图节点转换数据 运行神经网络前使用转换到连续变量
▪ 将观测值计数相对较小的分级与较大的相邻分级 进行合并:当该分级大小与相邻分级大小的比值 小于指定的阈值时,将合并分级。
9
分箱节点——其他
▪ 固定宽度 ▪ 分位数 ▪ 等级
▪ 根据取值进行排序,记录每条记录的顺序,所占顺序的百分比
▪ 平均值/标准差
10
自动数据准备
▪ 快速有效地数据准备
▪ 提高新用户的工作效 率
举例说明平衡数据
使用分布图节点生成字段 CHURNED 的分布图
使用分布图自动生成均衡 节点(减少记录)
平衡数据后字段 CHURNED 的分布图
均衡数据.str 17
数据分割
使用导出节点和选择节点分割数据 分割节点可以直接分割数据为训练、测试(和
验证)数据 使用抽样节点分割数据(缓存) SPSS Modeler 所有建模节点都有一个选项可
SPSS Modeler培训(2)
培训内容
▪ 第一章 高级数据准备技术 ▪ 第二章 PASW Modeler预测分类技术
▪ 决策树技术 ▪ Logistics回归 ▪ 神经网络
▪ 第三章 PASW Modeler聚类技术
2
第一章 高级数据准备技术
▪ RFM汇总及RFM分析 ▪ 建模数据准备及优化 ▪ 其他建模前数据处理
14
清洗数据
简评估数据质量:
✓ 使用源节点的类型条目或类型节点实例化数据 ✓ 使用源节点或类型节点指定空白值 ✓ 使用质量节点检查和计数无效数据 ✓ 使用数据审核节点检查数据的分布和统计性质
提高数据质量:
✓ 使用质量报告生成选择节点移除带有缺失字段的记录 ✓ 使用质量节点生成过滤节点移除带有大量缺失的字段 ✓ 使用填充节点替换空白值 ✓ 使用使用源节点的类型条目或类型节点自动检查过程
20
第二章 SPSS Modeler预测分类技术 ▪ 内容
▪ 决策树技术 ▪ Logistics回归 ▪ 神经网络
21
决策树技术
介绍C5.0、CHAID、C&RT 和QUEST 节点 的高级特性
介绍交互树的特点 了解CHAID 和C&RT 在建模中处理数值输出 使用拆分数据测试模型
22
决策树模型比较
3
RFM评分
交易型数据
格式化数据
4
RFM汇总节点
▪ 计算相对于以下内容的近因:指定计算交易 近因的日期。
▪ ID 为连续:如果数据按ID预排序,则可以加 快处理速度。
▪ 丢弃具有以下值的记录:如果指定一个最小 值,凡低于该值的交易详细信息都不再被使 用。
▪ 只包含最近交易:如果分析的是大型数据库 ,则可以指定只使用最近的记录。
以启用分割,自动认可一个字段方向为分割
18
数值数据转换
对于数值数据,不适合使用均衡数据的方法,一般通过 数据转换把有偏数据的分布转换为平坦的分布
可以使用导出节点完成对数据的转换,通常转换为正态 分布或均匀分布常用数字转换公式:
Exp(x) 、Log(x+a) 、Log((x-a)/(b-x)) 、Log10(x+a)、 Sqrt(x) 、1 / Exp(@GLOBAL_AVE (x)-x)
19
标记变量转换成连续变量
使用神经网络预测一个简单的“是/否”标记字段时变 换标记字段为连续字段
使用“是/否”标记字段作为输出时,神经网络内部转 化这两个值为“0/1”,输出仍为“是/否”
使用变换后的连续字段作为输出时,结果是0到1 之间 的数值在接近边界时看成比较强的结果,在接近中间时 看成边界结果
11
11
自动数据准备功能简介
一般数据清理——在可行的情况下修正错误,或者将其筛选出来,以避免错误,增 加生成有效模型的几率,包括:
• 处理缺失值、离散值和极值。 • 筛选出在建模中可能无用的字段。例如,类别太多或太少,缺失值太多等。 • 解决编码和收集错误。 • 规范或重新编码数据以便保持一致。
• 衍生变量或属性,例如输入组合或复合变量。
增强——通过多种方式执行或建议对数据的增强:
• 数值字段的最优离散化以便更好提升(针对目标); • 变量组合(如比率)用于所有数值组合;
性能
• 重要的修正/增强属性的特征选择。
12
自动数据准备——数据处理优化简介
▪ 连续变量处理
▪ 标准化连续自变量
▪ Z-SCORE规范法:基于平均值和标准差标准化处理 ▪ 最小/最大转换:将原始值通过该变量的最小最大值距离标准化在新定义的数值区
▪ 内容
▪ 介绍分析节点 ▪ 介绍使用RFM汇总生成最近交易天数、频度、金额 ▪ 介绍使用RFM分析生成RFM评分
7
建模数据准备及优化
▪ 内容
▪ 介绍分箱节点 ▪ 介绍自动数据准备节点
8
分箱节点——最优
▪ 预分级字段以增强大型数据集的性能:采用简单 的非监督式分级方法将尺度值分组为大量分级, 以均值表示每个分级中的值,并在继续监督式分 级之前对观测值权重进行相应调整。
15
平衡数据
简检查建模中所要使用的关键字段的分布:
✓ 数据审核节点 ✓ 条形图节点(字符字段) ✓ 直方图节点(数值字段)
使用平衡节点来修正数据集中的不均匀性:
✓ 由分布图和直方图自动生成 ✓ 增加或减少记录
建议使用减少记录:
✓ 增加记录扩大了数据中的问题和不规则性 ✓ 小数据集使用减少记录是不可行的
模型准则 字符预测器 拆分类型
连续目标 连续预测器
预测器选择准 则
能否使用缺 失预测器值
先验 修剪准则 交互式建立树
C5.0 多重
CHAID 多重
否
是
是
否
信息度量
卡方检验和F 检验
是,缺失分成 是,缺失成
▪ 保存第二个最近交易的日期
5
RFM分析节点
▪ RFM 得分的计算方法如下:(近因分 值 x 近因权重)+(频数分值 x 频数权 重)+(货币分值 x 货币权重)。
▪ 分级阈:指定在执行节点时是始终重 新计算 RFM 分值和分级分配,还是仅 在需要时进行计算(如在添加了新数 据时)。
6
建模数据准备及优化
间中的值。
▪ 标准化连续因变量:BOX-COX转换
▪ 修正因变量的非正态性
▪ 根据显著性阀值,对连续自变量进行离散化
▪ 分类变量处理
▪ 根据显著性阀值,合并稀疏类别
13
其他建模前数据处理内容
简要讨论建模前的数据准备和清洗 使用条形图和平衡节点平衡数据 使用分割节点分割数据为训练和测试样本 通过分布图节点转换数据 运行神经网络前使用转换到连续变量
▪ 将观测值计数相对较小的分级与较大的相邻分级 进行合并:当该分级大小与相邻分级大小的比值 小于指定的阈值时,将合并分级。
9
分箱节点——其他
▪ 固定宽度 ▪ 分位数 ▪ 等级
▪ 根据取值进行排序,记录每条记录的顺序,所占顺序的百分比
▪ 平均值/标准差
10
自动数据准备
▪ 快速有效地数据准备
▪ 提高新用户的工作效 率