SPSS-Modeler培训(2) - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

16
举例说明平衡数据
使用分布图节点生成字段 CHURNED 的分布图
使用分布图自动生成均衡节点（减少记录）
平衡数据后字段 CHURNED 的分布图

均衡数据.str 17
数据分割
使用导出节点和选择节点分割数据分割节点可以直接分割数据为训练、测试（和
验证）数据使用抽样节点分割数据（缓存） SPSS Modeler 所有建模节点都有一个选项可
SPSS Modeler培训(2)
培训内容
▪ 第一章高级数据准备技术 ▪ 第二章 PASW Modeler预测分类技术
▪ 决策树技术 ▪ Logistics回归 ▪ 神经网络
▪ 第三章 PASW Modeler聚类技术
2
第一章高级数据准备技术
▪ RFM汇总及RFM分析 ▪ 建模数据准备及优化 ▪ 其他建模前数据处理
14
清洗数据
简评估数据质量：
✓ 使用源节点的类型条目或类型节点实例化数据 ✓ 使用源节点或类型节点指定空白值 ✓ 使用质量节点检查和计数无效数据 ✓ 使用数据审核节点检查数据的分布和统计性质
提高数据质量：
✓ 使用质量报告生成选择节点移除带有缺失字段的记录 ✓ 使用质量节点生成过滤节点移除带有大量缺失的字段 ✓ 使用填充节点替换空白值 ✓ 使用使用源节点的类型条目或类型节点自动检查过程
20
第二章 SPSS Modeler预测分类技术 ▪ 内容
▪ 决策树技术 ▪ Logistics回归 ▪ 神经网络
21
决策树技术
介绍C5.0、CHAID、C&RT 和QUEST 节点的高级特性
介绍交互树的特点了解CHAID 和C&RT 在建模中处理数值输出使用拆分数据测试模型
22
决策树模型比较
3
RFM评分
交易型数据
格式化数据
4
RFM汇总节点
▪ 计算相对于以下内容的近因：指定计算交易近因的日期。
▪ ID 为连续：如果数据按ID预排序，则可以加快处理速度。
▪ 丢弃具有以下值的记录：如果指定一个最小值，凡低于该值的交易详细信息都不再被使用。
▪ 只包含最近交易：如果分析的是大型数据库，则可以指定只使用最近的记录。
以启用分割，自动认可一个字段方向为分割
18
数值数据转换
对于数值数据，不适合使用均衡数据的方法，一般通过数据转换把有偏数据的分布转换为平坦的分布
可以使用导出节点完成对数据的转换，通常转换为正态分布或均匀分布常用数字转换公式：
Exp(x) 、Log(x+a) 、Log((x-a)/(b-x)) 、Log10(x+a)、 Sqrt(x) 、1 / Exp(@GLOBAL_AVE (x)-x)
19
标记变量转换成连续变量
使用神经网络预测一个简单的“是/否”标记字段时变换标记字段为连续字段
使用“是/否”标记字段作为输出时，神经网络内部转化这两个值为“0/1”，输出仍为“是/否”
使用变换后的连续字段作为输出时，结果是0到1 之间的数值在接近边界时看成比较强的结果，在接近中间时看成边界结果
11
11
自动数据准备功能简介
一般数据清理——在可行的情况下修正错误，或者将其筛选出来，以避免错误，增加生成有效模型的几率，包括：
• 处理缺失值、离散值和极值。 • 筛选出在建模中可能无用的字段。例如，类别太多或太少，缺失值太多等。 • 解决编码和收集错误。 • 规范或重新编码数据以便保持一致。
• 衍生变量或属性，例如输入组合或复合变量。
增强——通过多种方式执行或建议对数据的增强：
• 数值字段的最优离散化以便更好提升（针对目标）； • 变量组合（如比率）用于所有数值组合；
性能
• 重要的修正/增强属性的特征选择。
12
自动数据准备——数据处理优化简介
▪ 连续变量处理
▪ 标准化连续自变量
▪ Z-SCORE规范法：基于平均值和标准差标准化处理 ▪ 最小/最大转换：将原始值通过该变量的最小最大值距离标准化在新定义的数值区
▪ 内容
▪ 介绍分析节点 ▪ 介绍使用RFM汇总生成最近交易天数、频度、金额 ▪ 介绍使用RFM分析生成RFM评分
7
建模数据准备及优化
▪ 内容
▪ 介绍分箱节点 ▪ 介绍自动数据准备节点
8
分箱节点——最优
▪ 预分级字段以增强大型数据集的性能：采用简单的非监督式分级方法将尺度值分组为大量分级，以均值表示每个分级中的值，并在继续监督式分级之前对观测值权重进行相应调整。
15
平衡数据
简检查建模中所要使用的关键字段的分布：
✓ 数据审核节点 ✓ 条形图节点（字符字段） ✓ 直方图节点（数值字段）
使用平衡节点来修正数据集中的不均匀性：
✓ 由分布图和直方图自动生成 ✓ 增加或减少记录
建议使用减少记录：
✓ 增加记录扩大了数据中的问题和不规则性 ✓ 小数据集使用减少记录是不可行的
模型准则字符预测器拆分类型
连续目标连续预测器
预测器选择准则
能否使用缺失预测器值
先验修剪准则交互式建立树
C5.0 多重
CHAID 多重
否
是
是
否
信息度量
卡方检验和F 检验
是，缺失分成是，缺失成
▪ 保存第二个最近交易的日期
5
RFM分析节点
▪ RFM 得分的计算方法如下：（近因分值 x 近因权重）+（频数分值 x 频数权重）+（货币分值 x 货币权重）。
▪ 分级阈：指定在执行节点时是始终重新计算 RFM 分值和分级分配，还是仅在需要时进行计算（如在添加了新数据时）。
6
建模数据准备及优化
间中的值。
▪ 标准化连续因变量：BOX-COX转换
▪ 修正因变量的非正态性
▪ 根据显著性阀值，对连续自变量进行离散化
▪ 分类变量处理
▪ 根据显著性阀值，合并稀疏类别
13
其他建模前数据处理内容
简要讨论建模前的数据准备和清洗使用条形图和平衡节点平衡数据使用分割节点分割数据为训练和测试样本通过分布图节点转换数据运行神经网络前使用转换到连续变量
▪ 将观测值计数相对较小的分级与较大的相邻分级进行合并：当该分级大小与相邻分级大小的比值小于指定的阈值时，将合并分级。
9
分箱节点——其他
▪ 固定宽度 ▪ 分位数 ▪ 等级
▪ 根据取值进行排序，记录每条记录的顺序，所占顺序的百分比
▪ 平均值/标准差
10
自动数据准备
▪ 快速有效地数据准备
▪ 提高新用户的工作效率