SPSS数据分析与挖掘实战案例精粹第五章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



在网络图中只显示标记字段 (T/F)。这项功能在显示多 个产品(购买产品或非购买产 品)间的关系时非常实用。如 果勾选了‚仅显示真值标志‛ 则只看多个购买产品间的关系 ‘网络’节点显示具有互动性,且可以改变阈值设置(关 联程度低高)、隐藏无关字段、修改布局和生成节点。 存在两种类型的网络图: 在‚网络:中,显示所有选择的分类字段间的关系; 在‛导向网络‚图中,仅显示涉及具体目标字段的关系且 需要设定结束字段且仅显示 true 标记
3.数据挖掘项目管理区
数据挖掘会是一个持续性的项目过程,尤其是在商
业数据挖掘当中。可以看到,这里面的阶段设置就是按照
CRISP-DM方法论进行划分的,通过这个项目管理区,我 们就可以很方便把相应的内容(无论是str文件,结果,模 型乃至于word文档都可以归纳进来)对号入座,在每次开 展或者继续项目的时候就可以很容易进行查看操作,非常 方便分析人员进行管理。
4节点区
节点类型:

(1)起始节点,这类节点是整个数据流的起点,这 类节点之前不能再连接其他节点;

(2)中间节点,这类节点往往是数据挖掘过程的一
个步骤,可以在它之前和之后都可以且必须接其他
节点;

(3)终端节点:这类节点代表了数据流(或数据流
的分支)结束,这类节点后面不能再接其他节点。
起始节点

数据挖掘的目标:找出前10个购买金额最多的客户。

想法:要知道客户的订单总额,降序排序后,输出前
10名客户的信息。

拥有的数据库
画圈圈的三张表是
我们所需要的

从数据库中把客户、订单和订单明细导入 modeler中。 先建立与数据库ODBC连接,【控制面板】--

>【管理工具】-->【数据源】里设置用户DSN,
型)。
(3)终端节点
①图形节点:提供了多种的图形功能,通过图形展示的方式进行 数据探索或者对模型效果评估; ②建模节点:提供各种数据挖掘模型,当该节点运行后会生成 ‚模型节点‛,而该节点就属于中间节点。 ③输出节点:提供数据表,交叉表,报告等,可以帮助我借助统 计分析来进行适当的数据探索以及结果评估; ④导出节点:把数据结果导出到各种格式的文件进行保存,导出 为excel文件; ⑤Statistics节点:调用statistics的功能。
源 记录
中间节点 字段 节点区 图形 建模 终端节点 输出 导出
IBM SPSS
(1)起始节点 源节点:包含各数据源类型,通过该节点,可以读取 不同类型的数据(spss,excel,text) (2)中间节点 ①记录节点:包含对记录进行处理的各种方法(选择、 排序)。
②字段选择:包含对字段进行处理的各种方法(定义类

发布(deployment)将其发现的结果以及过程组织成为可读文本形式
1.数据流构建区

一个完整的数据流至少应该包括一个起始节点和一个终 端节点。

数据流构建区是主要工作区域,我们通过构建和连接一
个个节点帮助我们完成数据探索,数据清洗及数据建模
等工作。

数据流在Modeler中称之为stream,因此modeler保

商业理解(business understanding)从商业的角度了解项目的要求
和最终目的,确定数据挖掘的目标,制定项目计划。

数据理解(data understanding)收集原始数据、探索数据特征、检
验数据质量(完整性、正确性)和缺失值的填补等。

数据准备(data preparation)涵盖了从原始粗糙数据到构建最终数据
存的文件也是以.str结尾的。
2.数据流、结果和模型管理区
(1)流:流管理区,同时构建/编辑多个模型流,这个选
项可以帮助分析员在对多个流进行切换;
(2)结果:将输出/图形的结果保存并进行编辑命名,供 下次查看; (3)模型:在该选项卡下,modeler所建立的所有模型都 将出现在这里,我们可以通过该选项卡随时查看生产的模 型,甚至把模型结果单独保存。

②流参数:在流脚本中或在流属性对话框 中设置,可用于流中的所有节点。菜单栏 【工具】-->【流属性】-->【参数】

③超节点参数:适用于超节点的封装节点。 【超节点】-->【定义参数】
5.3 modeler 功能
数据整理案例
探索性数据分析案例
建立模型、模型检验 与模型应用案例
5.3.1数据整理案例

(2)查看超节点 ①右击超节点并选择‚扩展‛ ②工具栏中选择‚放大‛



③数据流管理区单击相关超节点

2.缓冲
若包含大量数据的数据流,每次从头执行会耗费大量
的时间。缓冲,使数据流的执行不必每次都从头开始。


在选定节点上右击选择‚缓冲‛ 会在节点的右上角出现一个标记
‚启用‛命令,

当第一次执行数据流时,数据流在完成该节点相应计 算后,该标记会变绿, 表示数据结果已存在内存

滚轮:按住此键移动鼠标可以用于节点间
进行连接。
5.2.2 modeler的表达式
相当于SPSS 转换
字段节点的 导出节点
5.2.3modeler的操作技巧

1.超节点 若干个相关节点封装成一个超节点(打包)。 (1)创建:


①选中需要封装的若干节点,右击并选择创建”
创建超节点”
②选中需要封装的若干节点,工具栏中单击
想法:决策树,通过训练数据构建决策树,可以 高效的对未知的数据进行分类。


使用分区数据:如果定义了 分区字段,则此选项可确保 仅训练分区的数据用于构建 模型。

为每个分割构建模型:给指 定为分割字段的输入字段的 每个可能值构建一个单独模 型。

输出类型:在此指定模型输出为决策树或规则集。

组符号:选中则组合属性值输出
5.1.2架构与产品
数据量小时,单机版SPSS modeler


数据量大时,C/S架构运行
5.2modeler相关 操作
基本操作
表达式
技巧
5.2.1 modeler基本操作

左键:用于节点选择,按住此键Βιβλιοθήκη Baidu以将节
点进行随时拖动;

右键:用于挑出菜单,菜单中包含一系列
诸如连接,编辑,复制,删除等功能;
线值为可以选择以下定义:
①绝对值将根据带有成对值的记录数设置阈值。
②总体百分比该成对值的记录占网络图形全部对值的
记录的比例。
③④较小字段/值的百分比和较大字段/值的百分比说
明要使用较小或较大字段/值来估计百分比。
5.3.3建立模型、模型检验与模型应 用案例

商业目的:客户是否对直邮响应

数据挖掘的目标:预测客户对直邮的态度
中,以后再执行数据流,将从该节点执行。

当关闭数据流,缓冲数据也会消失,如果希望
以后使用缓冲数据,应该选择‚缓冲‛
存缓冲‛,使缓冲数据保存到硬盘上。

‚保
下次使用时选择‚缓冲‛
‚下载缓冲‛即可。

3.数据流注解 4.参数设置

①会话参数:可用于当前会话中使用的所
有流。菜单栏【工具】-->【设置会话参数】
多项:多分类变量, 可以指定主效应、全 析因或定制。
进入法:将所有项直 接输入方程中。
向前步进法:一边进 入一边删减,最终模 型便已生成。
向后步进法:与向前 步进法是相反的。

2.引入医生的业务经验改进模型
5.4.7模型发布
3.开发软件应用
5.5 进一步学习

收集原始数据、探索数据特征、检验数据质量(完整
性、正确性)和缺失值的填补等
初步观察病人情
况和身体特征是
否与所选药物关 系明显
5.4.5数据准备
5.4.6模型建立和评估

1.建立最简单的模型并进行初步分析和尝试
字段要求。必 须至少有一个 目标字段和一 个输入字段。 不容易对神经 网络进行解释
二项: 二分类变量。
集(将作为建模工具的分析对象)的全部工作,为适应建模工具而进行的数据清理(数 据变量的选择和转换)等等。

建模(modeling)多种建模方法被加以选择和使用,通过优化模型将其参数
将被校准为最为理想的值。

评估(evaluation)一个关键的评价指标就是看,是否仍然有一些重要的企
业问题还没有被充分地加以注意和考虑。
第五章 modeler操作入门
第五章 modeler操作入门
5.1 5.2 5.3 5.4 5.5

modeler概述 modeler相关操作 modeler功能 案例分析 进一步学习
5.1Modeler概述
Modeler界面
架构与产品
5.1.1Modeler界面
简介:一般认为数据挖掘是持续性的项目过程, 在这个过程中,数据挖掘的各种算法是数据挖掘过 程的核心步骤,但并不是整个项目的全部决定性因 素。 为了数据挖掘过程更标准化,IBM SPSS Modeler使用的就是CRISP-DM(CRoss Industry Standard Process- for Data Mining),跨行业数据挖 掘标准流程),其中一共分为6个步骤:商业理解, 数据理解,数据准备,建模,评估,发布。
5.4案例分析

5.4.1项目背景

数据挖掘的目地:建立一套有效的药物选择决 策支持系统。
5.4.2数据说明
5.4.3商业理解
从商业的角度了解项目的要求和最终目的,确定数据挖 掘的目标,制定项目计划。 这个案例中:我们需要根据病人的个人情况和身体生化 指标来确定何种药物对他更合适。
5.4.4数据理解
添加Northwind节点,文件指向northwind.mdb

从modeler的源中选入数据库节点,导入3张表。
5.3.2探索性数据分析案例

商业目的:设计产品套餐进行营销策划
数据挖掘的目标:找出产品之间的关系 想法:网络节点节点位于‚图形‛ 节点下,通过 绘制网络图展示变量属性之间的强弱程度,一般 用于关联分析以及分类变量之间的关系呈现。
相关文档
最新文档