SPSS Clementine节点 PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

样本节点
用户可以使用样本节点来选取一定比例的记录。其作用是:
提高数据挖掘工具的性能。 大量削减一个大型的数据集,比如拥有上百万记录的数据集。使
用抽样节点,使用者可以通过随机抽样来生成模型,该模型通常 和从整个数据集中导出的模型一样精确。 训练类神经网络。使用者应该为训练和测试各保留一个样本。
类型 过滤 导出 整体 填充 匿名化 重新分类 分箱 分区
设置成标记(Set to Flag) 重新结构化 转置 时间区间 历史 SPSS变换 字段重排
用于指定字段的一系列重要属性
类型节点
“缺失”选项
开:表示允许相应变量取用 户缺失值
关:不允许相应变量取用户 缺失值
指定:定义变量取值范围、 用户缺失值等信息
实例化前的窗口
实例化后的窗口
大家有疑问的,可以询问和交流
可以互相讨论下,但要小声点
节点参数设置——类型
Clementine中变量的类型
范围型:如年龄 离散型:如家庭人口数 标志型:如性别 集合型:如职业 有序集型:如学历和收入水平 缺省型:未明确的变量类型 无类型:不属于上述类型
对于标志型,用“假” 值替代 对于集类型,用集值的第一个元素替代 对于数值型,超过区间上限的数字用上限替代,低于区间下限的数字用
下限替代,其余值用该区间的中位数代替
丢弃:剔除相应样本数据 警告:给出警告信息 中止:中止流的执行
三个功能:
(1)从记录中过滤或剔除 字段
(2)重命名字段 (3)把字段从一个来源节
排序节点经常用于浏览和选择带有最常见资料值的记录, 有助于探索分析资料并作出决策,比如选择前十名最好的 顾客的记录。
合并节点
合并节点的功能是接受多重输入记录,并生成包含部分或 全部输入字段的单一输出记录,这一操作在合并来自不同 资料来源的资料时很有用。
追加节点
追加节点是在数据尾部不断追加样本的过程 追加节点用于合并有相似结构而数据不同的数据集,假定
记录选项卡
记录操作节点用于在记录层次修改资料集。这些操作在数 据挖掘的数据理解和数据准备阶段很重要。
记录选项卡包括以下节点:
选择(select) 样本(sample) 平衡(balance) 汇总(aggregate) RFM汇总 排序(sort) 合并(merge) 追加(append) 区分(distinct)
分箱节点
将样本集分割为训练、检验和验证集
分区节点
分区后
分区节点
调整数据集的组织
重新结构化
图形选项卡
数据挖掘过程的某些阶段使用图形来对数据作探索性分析。 图形的另一个常见用途是检查新导出字段的分布和关联。 图形选项卡包括以下节点
图 (散点图) 分布图(条形图) 直方图(柱形图) 集合 多重散点图 网络图 时间散点图 评估图
点上点击鼠标右键的方式使用该节点。 企业视图 Dimensions
可变文件
特点:
通常一行数据为一个样本 每行数据有相同的列,分别依次对应不同的变量 列之间以逗号等分隔符分隔 变量名一般存储在第一行
指定所读入数据 的基本格式
节点参数设置——文件
节点参数设置——数据
指定所读入数据的基本类型等
生成的选择节 点
对应的选择条件
生成的导出节点 对应的设置
直方图节点
直方图节点显示的是数值型字段变量值
集合节点
集合图显示的是一个数值型字段变量值与另一个字段变 量值相对比结果的分布,而不是显示一个单独字段变量值 的发生率;此外,堆积图与直方图是很相似的。
一个集合图对于阐明变量值随时间变化的变量或字段来说 是十分有用的
指定的条件来决定的。 计数:其新字段是基于条件正确的次数。 条件:其新字段是两种表达式之一的值,取决于条件的值。
字段类型:新导出字段的类型
填充节点用来替换字段值 以及改变存储。用户可以 用一个指定的 CLEM 条 件,比如@BLANK (@FIELD),来替换字 段值。也可以用一个指定 的值替换所有的空缺和无 效值。填充节点通常与类 型节点结合起来替换遗漏 值。
填充节点
设为标记节点
根据一个类型为集合的字段创建若干个标志类型的字段
用于对类别值进行调整
重新分类节点
用于将数据离散化
分箱方法:
固定宽度 分位数(同等计数):每个箱的
计数相同 等级:数据样本的等级 平均值/标准差:根据均值的若干
个标准差范围分组 最优:根据最短描述长度原则分

点映像到另一个
过滤节点
从原始字段中导出新 字段
导出节点
导出节点
选项
模式:“单个” 还是 “多个”,取决于使用者是否想导出多重字 段。
导出为:选择导出节点的类型。
公式:其新字段是任一个 CLEM 表达式的结果。 标志:其新字段是一个标记,显示了指定的条件。 集:其新字段是一个集,即它的元素是一组指定值。 状态:其新字段是两种状态的一种。在两种状态之间的转换 是根据
对变量的缺省值和取值合理性等进行检查实例化后的窗口实例化前的窗口大家有疑问的可以询问和交流大家有疑问的可以询问和交流可以互相讨论下但要小声点可以互相讨论下但要小声点给节点命名和添加注释性的文字excelexcelspssclementine支持odbc方式访问数据库使用固定文件节点从固定字段的文本文件中读入数据字段未被分隔但是始于相同的位置并有固定长度
覆盖:查看目前储存 类型和是否需要重新 储存。
存储:可修改每一字 段存储类型的列表。 Clementine中其他的 存储类型有:实数型 、 字符型、时间型、 日期型。
节点参数设置——过滤
指定读数据时不读哪些变量,并可重新修改变量名
节点参数设置——类型
指定所读数据的变量类型 对变量的缺省值和取值合理性等进行检查
源选项卡 记录选项卡 字段选项卡 图形选项卡 输出选项卡 导出选项卡
目录
源选项卡
Clementine 提供了简单有效的获取不同数据来源的方法
资料来源选项板包含以下节点:
数据库——用于通过 ODBC 导入资料。 可变文件——用于无限制字段的 ASCⅡ资料。 固定文件——用于固定字段的 ASCⅡ资料。 SPSS 文件——用于导入 SPSS 文件。 SAS 文件——用于导入 SAS 格式的文件。 Excel——用于导入Excel电子表格 用户输入——用于替代已存在的来源节点,也可通过在已存在节
网络图节点
评估图节点
评估图节点提供了一种能够很轻松地评估和比较模型、并 从中选择最有利于应用的模型的方法。多个模型在图中被 表示为多条相互独立的线。
一共有五种评估图表,其中每一个都强调了一个不同的评 估准则。
增益: 响应: 提升: 利润 投资回报率
将结合模型讲解
输出选项卡
输出选项卡提供各种方式获得关于数据和模型的信息。 包含的节点:
数据库:这个选项是将记录写 到一个数据库表上。 平面文件:这个选项把记录写到一个定界的文本文件中。 SPSS导出:这个选项把记录写到一个SPSS数据文件中。 SAS导出:这个选项把记录写到一个SAS数据文件中去。 Excel:导出为Excel文件
感谢您的关注
空值:对空白进行替补 无效值:对系统缺失值$null$进行替补 空值与无效值: 条件:对满足指定条件的变量值进行替补 指定:与条件类似
统计量节点
统计量节点给用户关于数值型字段的基本汇总信息。
变换节点
用于对数值进行适当 的变换处理
用于显示并比较不同分组的均值
均值节点
导出选项卡
用于将数据或分析结果导出为其他格式的文件 导出格式:
使用固定文件节点从 固定字段的文本文件 中读入数据(字段未 被分隔,但是始于相 同的位置,并有固定 长度)。
将数据导入 Clementine,并指定 列的位置和记录长度。
固定格式文件
用户输入数据
变量的说明
变量说明是对读入数据流中变量取值的有效性进行限定、 检查和修正,同时指明各个变量在未来建模中的角色
平衡节点
用户可以使用平衡节点来修正数据集中的不均匀性,以便 能够符合特定的测试原则。
如:某次健康调查的数据中1%为病患儿童,99%为健康 儿童
汇总节点
可以使用汇总节点,把一系列输入记录变换成总括性的、 聚合的输出记录
排序节点
可以使用排序节点根据一个或多个字段值对记录进行升序 或降序排列。
分析节点
数据审核节点
数据审核节点可以用于对数据的探索和数据质量的审核
数据质量控制
操作:对离群值和极值的处理
强制:用距离离群点或极值最近的正常值替代 丢弃:剔除离群值或者极值 无效:用系统缺失值$null$替代 强制替换离群值/剔除极值 强制替换离群值/用系统缺失值替代极值
缺失插补:对缺失值的替补处理
节点参数设置——注解
给节点命名和添加注释性的文字
读取Excel电子表格
读取Excel电子表格
读取SPSS格式文件
数据文件扩展名为.sav
Clementine支持ODBC 方式访问数据库
两个步骤:
建立数据源 通过该数据源访问数据库
读取数据库文件
读取数据库文件
选择相应的数据源和数据库中的表
收集(Collect):选择一个字段,其变量值被聚集,并 显示在下面给定字段的变量值范围中。
超出(在……上,Over):选择一个字段,其变量值将被 用来显示上面指定的收集字段。
操作(Operation):选择堆积图中的每个条柱都分别代 表什么。
网络图节点显示的是两个 或两个以上分类字段之间 关系的强弱程度。这种图 像通过使用各种不同类型 的线条指示联系的强度来 显示关系
选择节点
用户可以使用选择节点根据具体条件从数据流中选择或排 除某一记录子集,如符合Class=‘Drink’条件的记录 子集。
选择节点也用于选择一定比例的记录,用户可以使用选择 节点来创建自己的条件。例如,用户可以创建如下条件:
Class="Drink"and random(10)<=4 这一条件将从 Class 为“Drink”的记录中,选择大约40 %,并向流程的下游传递这些记录以用于进一步分析
表 矩阵 分析 数据审核 变换 统计量 均值 报告 SPSS输出
以表格的形式显示数据内容
表节点
矩阵节点
矩阵节点允许用户建立一个显示字段之间关系的表。最常 见的使用方式是被用来显示两个分类字段之间的关系,但 是它也能够被用来显示标志字段之间或者数值型字段之间 的关系。
分析节点允许用户分析预 测模型来评估它们产生精 确预测值的能力。对一个 或更多个产生的模型节点, 分析节点可以进行各种各 样的在预测值和实际值之 间的比较。分析节点也可 以被用来比较不同的预测 模型。
Baidu Nhomakorabea 散点图
散点图节点显示出了数值型字段之间的关系
观察这一变 量的取值情 况
从图中可以看出什么信息?
多重散点图
多点图是一种特殊类型的散点图,它显示的是一个单独的 X 字段对应多个 Y 字段的情况
分布节点
展现在一个数据集中,两个分类变量值的发生情况
使用分布图
用户可以使用弹出菜单上的选项来选择数据的一个子集, 导出一个标记字段,或对比平衡数据。
指定对变量值的修 正方法
视下列值为空白
此处输入的离散值 当空白处理
此处输入的范围值 当空白处理
类型节点
系统缺失值$null$ 和空格当空白处理
类型节点
“检查”项
对超出取值范围的不合理取值或系统缺失值进行修正 修正方式:
无:不进行修正 无效:用系统缺失值($null$)替代 强制:根据下述规则被转化为一个该种类型的合法值:
它们具有同样的数据结构(同样的字段,同样的顺序), 追加节点将会它们合并成一个大的数据集
区分节点
可以使用区分节点来清除重复性记录。如果想在数据集中 每一项对应一个单一记录,如客户、帐号、产品等,则这 项操作将很有用的。
字段选项卡
字段选项卡实现对字段的说明、重新计算、类别调整等目 标
字段选项卡包含以下节点:
相关文档
最新文档