SPSS Clementine节点
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
选择(select) 样本(sample) 平衡(balance) 汇总(aggregate) RFM汇总 排序(sort) 合并(merge) 追加(append)
区分(distinct)
Page 20
选择节点
用户可以使用选择节点根据具体条件从数据流中选择或排 除某一记录子集,如符合Class=‘Drink’条件的记录 子集。 选择节点也用于选择一定比例的记录,用户可以使用选择 节点来创建自己的条件。例如,用户可以创建如下条件: Class="Drink"and random(10)<=4
7
节点参数设置——过滤
指定读数据时不读哪些变量,并可重新修改变量名
Page
8
节点参数设置——类型
指定所读数据的变量类型 对变量的缺省值和取值合理性等进行检查
实例化前的窗口
Page
9
实例化后的窗口
节点参数设置——类型
Clementine中变量的类型
范围型:如年龄 离散型:如家庭人口数 标志型:如性别 集合型:如职业
Clementine支持ODBC 方式访问数据库 两个步骤:
建立数据源
通过该数据源访问数据库
Page
15
读取数据库文件
选择相应的数据源和数据库中的表
Page
16
固定格式文件
使用固定文件节点从 固定字段的文本文件 中读入数据(字段未 被分隔,但是始于相 同的位置,并有固定 长度)。 将数据导入 Clementine,并指定 列的位置和记录长度。
Page
52
Page
53
分布节点
展现在一个数据集中,两个分类变量值的发生情况
Page
54
Page
55
使用分布图
用户可以使用弹出菜单上的选项来选择数据的一个子集, 导出一个标记字段,或对比平衡数据。
Page
56
生成的选择节 点
对应的选择条件
Page
57
生成的导出节点
对应的设置
Page
强制替换离群值/用系统缺失值替代极值
增益: 响应: 提升: 利润 投资回报率
将结合模型讲解
Page 65
输出选项卡
输出选项卡提供各种方式获得关于数据和模型的信息。 包含的节点:
表 矩阵 分析 数据审核 变换 统计量 均值 报告 SPSS输出
Page 66
表节点
以表格的形式显示数据内容
Page 61
Page
62
网络图节点
网络图节点显示的是两个 或两个以上分类字段之间 关系的强弱程度。这种图 像通过使用各种不同类型 的线条指示联系的强度来 显示关系
Page
63
Page
64
评估图节点
评估图节点提供了一种能够很轻松地评估和比较模型、并 从中选择最有利于应用的模型的方法。多个模型在图中被 表示为多条相互独立的线。 一共有五种评估图表,其中每一个都强调了一个不同的评 估准则。
Page
5
节点参数设置——文件
指定所读入数据 的基本格式
Page
6
节点参数设置——数据
指定所读入数据的基本类型等
覆盖:查看目前储存 类型和是否需要重新 储存。 存储:可修改每一字 段存储类型的列表。 Clementine中其他的 存储类型有:实数型 、 字符型、时间型、 日期型。
Page
有序集型:如学历和收入水平
缺省型:未明确的变量类型 无类型:不属于上述类型
Page
10
节点参数设置——注解
给节点命名和添加注释性的文字
Page
11
读取Excel电子表格
Page
12
读取Excel电子表格
Page
13
读取SPSS格式文件
数据文件扩展名为.sav
Page
14
读取数据库文件
SAS 文件——用于导入 SAS 格式的文件。
Excel——用于导入Excel电子表格 用户输入——用于替代已存在的来源节点,也可通过在已存在节 点上点击鼠标右键的方式使用该节点。 企业视图 Dimensions
Page 4
可变文件
特点:
通常一行数据为一个样本 每行数据有相同的列,分别依次对应不同的变量 列之间以逗号等分隔符分隔 变量名一般存储在第一行
数据挖掘技术讲座之——
SPSS Clementine节点
刘喜平
江西财经大学
目录
源选项卡 记录选项卡 字段选项卡 图形选项卡 输出选项卡 导出选项卡
Page
2
源选项卡
Clementine 提供了简单有效的获取不同数据来源的方法
Page
3
资料来源选项板包含以下节点:
数据库——用于通过 ODBC 导入资料。 可变文件——用于无限制字段的 ASCⅡ资料。 固定文件——用于固定字段的 ASCⅡ资料。 SPSS 文件——用于导入 SPSS 文件。
训练类神经网络。使用者应该为训练和测试各保留一个样本。
Page
23
Page
24
平衡节点
用户可以使用平衡节点来修正数据集中的不均匀性,以便 能够符合特定的测试原则。 如:某次健康调查的数据中1%为病患儿童,99%为健康 儿童
Page
25
汇总节点
可以使用汇总节点,把一系列输入记录变换成总括性的、 聚合的输出记录
字段类型:新导出字段的类型
Page 39
填充节点
填充节点用来替换字段值 以及改变存储。用户可以 用一个指定的 CLEM 条 件,比如@BLANK (@FIELD),来替换字 段值。也可以用一个指定 的值替换所有的空缺和无 效值。填充节点通常与类 型节点结合起来替换遗漏 值。
Page
40
Page
Page
28
Page
29
追加节点
追加节点是在数据尾部不断追加样本的过程 追加节点用于合并有相似结构而数据不同的数据集,假定 它们具有同样的数据结构(同样的字段,同样的顺序), 追加节点将会它们合并成一个大的数据集
Page
30
Page
31
区分节点
可以使用区分节点来清除重复性记录。如果想在数据集中 每一项对应一个单一记录,如客户、帐号、产品等,则这 项操作将很有用的。
这一条件将从 Class 为‚Drink‛的记录中,选择大约40 %,并向流程的下游传递这些记录以用于进一步分析
Page
21
Page
22
样本节点
用户可以使用样本节点来选取一定比例的记录。其作用是:
提高数据挖掘工具的性能。 大量削减一个大型的数据集,比如拥有上百万记录的数据集。使 用抽样节点,使用者可以通过随机抽样来生成模型,该模型通常 和从整个数据集中导出的模型一样精确。
丢弃:剔除相应样本数据 警告:给出警告信息 中止:中止流的执行
Page 36
过滤节点
三个功能:
(1)从记录中过滤或剔除 字段
(2)重命名字段
(3)把字段从一个来源节 点映像到另一个
Page
37
导出节点
从原始字段中导出新 字段
Page
38
导出节点
选项
模式:‚单个‛ 还是 ‚多个‛,取决于使用者是否想导出多重字 段。 导出为:选择导出节点的类型。
Page
32
字段选项卡
字段选项卡实现对字段的说明、重新计算、类别调整等目 标 字段选项卡包含以下节点:
类型 过滤 导出 整体 填充 匿名化 重新分类 分箱 分区 设置成标记(Set to Flag) 重新结构化 转置 时间区间 历史 SPSS变换 字段重排
Page
Page
26
排序节点
可以使用排序节点根据一个或多个字段值对记录进行升序 或降序排列。 排序节点经常用于浏览和选择带有最常见资料值的记录, 有助于探索分析资料并作出决策,比如选择前十名最好的 顾客的记录。
Page
27
合并节点
合并节点的功能是接受多重输入记录,并生成包含部分或 全部输入字段的单一输出记录,这一操作在合并来自不同 资料来源的资料时很有用。
33
类型节点
用于指定字段的一系列重要属性
Page
34
类型节点
‚缺失‛选项
开:表示允许相应变量取用 户缺失值 关:不允许相应变量取用户 缺失值
指定:定义变量取值范围、 用户缺失值等信息
指定对变量值的修 正方法 视下列值为空白 此处输入的离散值 当空白处理
Page
系统缺失值$null$ 和空格当空白处理
41
设为标记节点
根据一个类型为集合的字段创建若干个标志类型的字段
Page
42
重新分类节点
用于对类别值进行调整
Page
43
分箱节点
用于将数据离散化
分箱方法:
固定宽度 分位数(同等计数):每个箱的 计数相同 等级:数据样本的等级 平均值/标准差:根据均值的若干 个标准差范围分组 最优:根据最短描述长度原则分 组
图 (散点图) 分布图(条形图) 直方图(柱形图) 集合 多重散点图 网络图 时间散点图 评估图
Page 49
散点图
散点图节点显示出了数值型字段之间的关系
观察这一变 量的取值情 况
Page
50
从图中可以看出什么信息?
Page
51
多重散点图
多点图是一种特殊类型的散点图,它显示的是一个单独的 X 字段对应多个 Y 字段的情况
Page
17
用户输入数据
Page
18
变量的说明
变量说明是对读入数据流中变量取值的有效性进行限定、 检查和修正,同时指明各个变量在未来建模中的角色
Page
19
记录选项卡
记录操作节点用于在记录层次修改资料集。这些操作在数 据挖掘的数据理解和数据准备阶段很重要。 记录选项卡包括以下节点:
Page
67
矩阵节点
矩阵节点允许用户建立一个显示字段之间关系的表。最常 见的使用方式是被用来显示两个分类字段之间的关系,但 是它也能够被用来显示标志字段之间或者数值型字段之间 的关系。
Page
68
分析节点
分析节点允许用户分析预 测模型来评估它们产生精 确预测值的能力。对一个 或更多个产生的模型节点, 分析节点可以进行各种各 样的在预测值和实际值之 间的比较。分析节点也可 以被用来比较不同的预测 模型。
Page
69
数据审核节点
数据审核节点可以用于对数据的探索和数据质量的审核
Page
70
Page
Байду номын сангаас
71
Page
72
数据质量控制
操作:对离群值和极值的处理
强制:用距离离群点或极值最近的正常值替代 丢弃:剔除离群值或者极值 无效:用系统缺失值$null$替代
强制替换离群值/剔除极值
58
直方图节点
直方图节点显示的是数值型字段变量值
Page
59
Page
60
集合节点
集合图显示的是一个数值型字段变量值与另一个字段变 量值相对比结果的分布,而不是显示一个单独字段变量值 的发生率;此外,堆积图与直方图是很相似的。 一个集合图对于阐明变量值随时间变化的变量或字段来说 是十分有用的 收集(Collect):选择一个字段,其变量值被聚集,并 显示在下面给定字段的变量值范围中。 超出(在……上,Over):选择一个字段,其变量值将被 用来显示上面指定的收集字段。 操作(Operation):选择堆积图中的每个条柱都分别代 表什么。
公式:其新字段是任一个 CLEM 表达式的结果。
标志:其新字段是一个标记,显示了指定的条件。
集:其新字段是一个集,即它的元素是一组指定值。 状态:其新字段是两种状态的一种。在两种状态之间的转换 是根据 指定的条件来决定的。 计数:其新字段是基于条件正确的次数。 条件:其新字段是两种表达式之一的值,取决于条件的值。
Page
44
Page
45
分区节点
将样本集分割为训练、检验和验证集
Page
46
分区节点
分区后
Page
47
重新结构化
调整数据集的组织
Page
48
图形选项卡
数据挖掘过程的某些阶段使用图形来对数据作探索性分析。 图形的另一个常见用途是检查新导出字段的分布和关联。 图形选项卡包括以下节点
此处输入的范围值 35 当空白处理
类型节点
‚检查‛项
对超出取值范围的不合理取值或系统缺失值进行修正 修正方式:
无:不进行修正 无效:用系统缺失值($null$)替代
强制:根据下述规则被转化为一个该种类型的合法值:
对于标志型,用‚假‛ 值替代 对于集类型,用集值的第一个元素替代 对于数值型,超过区间上限的数字用上限替代,低于区间下限的数字用 下限替代,其余值用该区间的中位数代替
区分(distinct)
Page 20
选择节点
用户可以使用选择节点根据具体条件从数据流中选择或排 除某一记录子集,如符合Class=‘Drink’条件的记录 子集。 选择节点也用于选择一定比例的记录,用户可以使用选择 节点来创建自己的条件。例如,用户可以创建如下条件: Class="Drink"and random(10)<=4
7
节点参数设置——过滤
指定读数据时不读哪些变量,并可重新修改变量名
Page
8
节点参数设置——类型
指定所读数据的变量类型 对变量的缺省值和取值合理性等进行检查
实例化前的窗口
Page
9
实例化后的窗口
节点参数设置——类型
Clementine中变量的类型
范围型:如年龄 离散型:如家庭人口数 标志型:如性别 集合型:如职业
Clementine支持ODBC 方式访问数据库 两个步骤:
建立数据源
通过该数据源访问数据库
Page
15
读取数据库文件
选择相应的数据源和数据库中的表
Page
16
固定格式文件
使用固定文件节点从 固定字段的文本文件 中读入数据(字段未 被分隔,但是始于相 同的位置,并有固定 长度)。 将数据导入 Clementine,并指定 列的位置和记录长度。
Page
52
Page
53
分布节点
展现在一个数据集中,两个分类变量值的发生情况
Page
54
Page
55
使用分布图
用户可以使用弹出菜单上的选项来选择数据的一个子集, 导出一个标记字段,或对比平衡数据。
Page
56
生成的选择节 点
对应的选择条件
Page
57
生成的导出节点
对应的设置
Page
强制替换离群值/用系统缺失值替代极值
增益: 响应: 提升: 利润 投资回报率
将结合模型讲解
Page 65
输出选项卡
输出选项卡提供各种方式获得关于数据和模型的信息。 包含的节点:
表 矩阵 分析 数据审核 变换 统计量 均值 报告 SPSS输出
Page 66
表节点
以表格的形式显示数据内容
Page 61
Page
62
网络图节点
网络图节点显示的是两个 或两个以上分类字段之间 关系的强弱程度。这种图 像通过使用各种不同类型 的线条指示联系的强度来 显示关系
Page
63
Page
64
评估图节点
评估图节点提供了一种能够很轻松地评估和比较模型、并 从中选择最有利于应用的模型的方法。多个模型在图中被 表示为多条相互独立的线。 一共有五种评估图表,其中每一个都强调了一个不同的评 估准则。
Page
5
节点参数设置——文件
指定所读入数据 的基本格式
Page
6
节点参数设置——数据
指定所读入数据的基本类型等
覆盖:查看目前储存 类型和是否需要重新 储存。 存储:可修改每一字 段存储类型的列表。 Clementine中其他的 存储类型有:实数型 、 字符型、时间型、 日期型。
Page
有序集型:如学历和收入水平
缺省型:未明确的变量类型 无类型:不属于上述类型
Page
10
节点参数设置——注解
给节点命名和添加注释性的文字
Page
11
读取Excel电子表格
Page
12
读取Excel电子表格
Page
13
读取SPSS格式文件
数据文件扩展名为.sav
Page
14
读取数据库文件
SAS 文件——用于导入 SAS 格式的文件。
Excel——用于导入Excel电子表格 用户输入——用于替代已存在的来源节点,也可通过在已存在节 点上点击鼠标右键的方式使用该节点。 企业视图 Dimensions
Page 4
可变文件
特点:
通常一行数据为一个样本 每行数据有相同的列,分别依次对应不同的变量 列之间以逗号等分隔符分隔 变量名一般存储在第一行
数据挖掘技术讲座之——
SPSS Clementine节点
刘喜平
江西财经大学
目录
源选项卡 记录选项卡 字段选项卡 图形选项卡 输出选项卡 导出选项卡
Page
2
源选项卡
Clementine 提供了简单有效的获取不同数据来源的方法
Page
3
资料来源选项板包含以下节点:
数据库——用于通过 ODBC 导入资料。 可变文件——用于无限制字段的 ASCⅡ资料。 固定文件——用于固定字段的 ASCⅡ资料。 SPSS 文件——用于导入 SPSS 文件。
训练类神经网络。使用者应该为训练和测试各保留一个样本。
Page
23
Page
24
平衡节点
用户可以使用平衡节点来修正数据集中的不均匀性,以便 能够符合特定的测试原则。 如:某次健康调查的数据中1%为病患儿童,99%为健康 儿童
Page
25
汇总节点
可以使用汇总节点,把一系列输入记录变换成总括性的、 聚合的输出记录
字段类型:新导出字段的类型
Page 39
填充节点
填充节点用来替换字段值 以及改变存储。用户可以 用一个指定的 CLEM 条 件,比如@BLANK (@FIELD),来替换字 段值。也可以用一个指定 的值替换所有的空缺和无 效值。填充节点通常与类 型节点结合起来替换遗漏 值。
Page
40
Page
Page
28
Page
29
追加节点
追加节点是在数据尾部不断追加样本的过程 追加节点用于合并有相似结构而数据不同的数据集,假定 它们具有同样的数据结构(同样的字段,同样的顺序), 追加节点将会它们合并成一个大的数据集
Page
30
Page
31
区分节点
可以使用区分节点来清除重复性记录。如果想在数据集中 每一项对应一个单一记录,如客户、帐号、产品等,则这 项操作将很有用的。
这一条件将从 Class 为‚Drink‛的记录中,选择大约40 %,并向流程的下游传递这些记录以用于进一步分析
Page
21
Page
22
样本节点
用户可以使用样本节点来选取一定比例的记录。其作用是:
提高数据挖掘工具的性能。 大量削减一个大型的数据集,比如拥有上百万记录的数据集。使 用抽样节点,使用者可以通过随机抽样来生成模型,该模型通常 和从整个数据集中导出的模型一样精确。
丢弃:剔除相应样本数据 警告:给出警告信息 中止:中止流的执行
Page 36
过滤节点
三个功能:
(1)从记录中过滤或剔除 字段
(2)重命名字段
(3)把字段从一个来源节 点映像到另一个
Page
37
导出节点
从原始字段中导出新 字段
Page
38
导出节点
选项
模式:‚单个‛ 还是 ‚多个‛,取决于使用者是否想导出多重字 段。 导出为:选择导出节点的类型。
Page
32
字段选项卡
字段选项卡实现对字段的说明、重新计算、类别调整等目 标 字段选项卡包含以下节点:
类型 过滤 导出 整体 填充 匿名化 重新分类 分箱 分区 设置成标记(Set to Flag) 重新结构化 转置 时间区间 历史 SPSS变换 字段重排
Page
Page
26
排序节点
可以使用排序节点根据一个或多个字段值对记录进行升序 或降序排列。 排序节点经常用于浏览和选择带有最常见资料值的记录, 有助于探索分析资料并作出决策,比如选择前十名最好的 顾客的记录。
Page
27
合并节点
合并节点的功能是接受多重输入记录,并生成包含部分或 全部输入字段的单一输出记录,这一操作在合并来自不同 资料来源的资料时很有用。
33
类型节点
用于指定字段的一系列重要属性
Page
34
类型节点
‚缺失‛选项
开:表示允许相应变量取用 户缺失值 关:不允许相应变量取用户 缺失值
指定:定义变量取值范围、 用户缺失值等信息
指定对变量值的修 正方法 视下列值为空白 此处输入的离散值 当空白处理
Page
系统缺失值$null$ 和空格当空白处理
41
设为标记节点
根据一个类型为集合的字段创建若干个标志类型的字段
Page
42
重新分类节点
用于对类别值进行调整
Page
43
分箱节点
用于将数据离散化
分箱方法:
固定宽度 分位数(同等计数):每个箱的 计数相同 等级:数据样本的等级 平均值/标准差:根据均值的若干 个标准差范围分组 最优:根据最短描述长度原则分 组
图 (散点图) 分布图(条形图) 直方图(柱形图) 集合 多重散点图 网络图 时间散点图 评估图
Page 49
散点图
散点图节点显示出了数值型字段之间的关系
观察这一变 量的取值情 况
Page
50
从图中可以看出什么信息?
Page
51
多重散点图
多点图是一种特殊类型的散点图,它显示的是一个单独的 X 字段对应多个 Y 字段的情况
Page
17
用户输入数据
Page
18
变量的说明
变量说明是对读入数据流中变量取值的有效性进行限定、 检查和修正,同时指明各个变量在未来建模中的角色
Page
19
记录选项卡
记录操作节点用于在记录层次修改资料集。这些操作在数 据挖掘的数据理解和数据准备阶段很重要。 记录选项卡包括以下节点:
Page
67
矩阵节点
矩阵节点允许用户建立一个显示字段之间关系的表。最常 见的使用方式是被用来显示两个分类字段之间的关系,但 是它也能够被用来显示标志字段之间或者数值型字段之间 的关系。
Page
68
分析节点
分析节点允许用户分析预 测模型来评估它们产生精 确预测值的能力。对一个 或更多个产生的模型节点, 分析节点可以进行各种各 样的在预测值和实际值之 间的比较。分析节点也可 以被用来比较不同的预测 模型。
Page
69
数据审核节点
数据审核节点可以用于对数据的探索和数据质量的审核
Page
70
Page
Байду номын сангаас
71
Page
72
数据质量控制
操作:对离群值和极值的处理
强制:用距离离群点或极值最近的正常值替代 丢弃:剔除离群值或者极值 无效:用系统缺失值$null$替代
强制替换离群值/剔除极值
58
直方图节点
直方图节点显示的是数值型字段变量值
Page
59
Page
60
集合节点
集合图显示的是一个数值型字段变量值与另一个字段变 量值相对比结果的分布,而不是显示一个单独字段变量值 的发生率;此外,堆积图与直方图是很相似的。 一个集合图对于阐明变量值随时间变化的变量或字段来说 是十分有用的 收集(Collect):选择一个字段,其变量值被聚集,并 显示在下面给定字段的变量值范围中。 超出(在……上,Over):选择一个字段,其变量值将被 用来显示上面指定的收集字段。 操作(Operation):选择堆积图中的每个条柱都分别代 表什么。
公式:其新字段是任一个 CLEM 表达式的结果。
标志:其新字段是一个标记,显示了指定的条件。
集:其新字段是一个集,即它的元素是一组指定值。 状态:其新字段是两种状态的一种。在两种状态之间的转换 是根据 指定的条件来决定的。 计数:其新字段是基于条件正确的次数。 条件:其新字段是两种表达式之一的值,取决于条件的值。
Page
44
Page
45
分区节点
将样本集分割为训练、检验和验证集
Page
46
分区节点
分区后
Page
47
重新结构化
调整数据集的组织
Page
48
图形选项卡
数据挖掘过程的某些阶段使用图形来对数据作探索性分析。 图形的另一个常见用途是检查新导出字段的分布和关联。 图形选项卡包括以下节点
此处输入的范围值 35 当空白处理
类型节点
‚检查‛项
对超出取值范围的不合理取值或系统缺失值进行修正 修正方式:
无:不进行修正 无效:用系统缺失值($null$)替代
强制:根据下述规则被转化为一个该种类型的合法值:
对于标志型,用‚假‛ 值替代 对于集类型,用集值的第一个元素替代 对于数值型,超过区间上限的数字用上限替代,低于区间下限的数字用 下限替代,其余值用该区间的中位数代替