[计算机软件及应用]spss软件 决策树

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Chapter 2 使用决策树的预测建模
2.1问题和数据探索 ................................................................................... 错误!未定义书签。

2.2建模问题和数据难点 (10)
2.3生成和解释决策树................................................................................ 错误!未定义书签。

2.1问题和数据探索
内容:
问题和数据
初步数据探索
问题和数据
a. 预测建模问题
一家金融服务公司为其客户提供房屋净值信贷额度。

该公司曾把该项贷款扩展给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。

该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。

b. 输入数据源
在对数据进行了分析之后,该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。

输出变量(或目标)变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。

这些变量及其模型角色、测量水平、变量描述列表如下。

表 2.1 SAMPSIO.HMEQ 数据集合的变量
Name Model
Role Measurement
Level
Description
BAD Target Binary 1=defaulted on loan, 0=paid
back loan
REASON Input Binary HomeImp=home
improvement, DebtCon=debt
consolidation
JOB Input Nominal Six occupational categories
LOAN Input Interval Amount of loan request
MORTDUE Input Interval Amount due on existing
mortgage
V ALUE Input Interval Value of current property
DEBTINC Input Interval Debt-to-income ratio
YOJ Input Interval Years at present job
DEROG Input Interval Number of major derogatory
reports
CLNO Input Interval Number of trade lines
DELINQ Input Interval Number of delinquent trade
lines
CLAGE Input Interval Age of oldest trade line in
months
NINQ Input Interval Number of recent credit
inquiries
需要的结果-信用评分模型
该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。

在此要设定一个阈值,欺诈概率超过阈值的那些申请人将建议不批准。

建立项目和数据初步探索
建造简单的过程流(Flow)
1.假定My Project 项目的Project1框图是开着的,通过从工具条上(或Tools标签)
拖动Input Data Source节点到diagram工作区把节点加到Project1框图中。

2.把Multiplot 节点工作区Input Data Source 节点的右边. 你的框图看起来如下图
注意现在选中的是Multiplot 节点(有虚线环绕), 而不是Input Data Source 节点. 如果你在工作区的空白地方点击一下,所有的节点都被放开。

除了把一个节点拖到工作区,另外还有两个方法把节点加入到流中。

(You can right-click in the workspace where you want the node to be placed and select Add node from the pop-up menu, or you can double-click where you want the node to be placed. In either case, a list of nodes appears, enabling you to select the desired node.)
当把光标放在节点上面时,它就像一只小手。

要在工作区内移动节点,
1.把光标放在节点上面直到小手出现
2.压下鼠标左边,把节点拖到期望的位置
3.放开鼠标左边.
连接工作区的两个节点:
1.确保Input Data Source 节点没有被选定. 如果这个起始节点是被选定的,在工作区
的空白区点击一下解除选定。

2.把光标放在表示Input Data Source 节点的图标的边缘(直到十字号出现).
3.按住鼠标左边,立即向Multiplot 节点方向拖动. (如果你按住鼠标左边不立即拖动,
你就会选定这个节点。

拖动一个选定的节点一般就是移动这个节点,即没有连线)
4.在到达终端节点图标后释放鼠标.
5.在线外点击一下,完成的箭头线显示如下
开始时最后
调用输入数据
这个例子使用SAMPSIO文件夹的HMEQ 数据集合.
1.要指定数据集合,双击Input Data Source节点,或右击该节点并选择Open…. Data
标签处于激活状态. 你的窗口如下:
2.点击Select…来选择数据集合. 或者把数据集合的名称键入进来。

3.SASUSER 文件夹是缺省文件夹. 要浏览SAMPSIO文件夹的数据集合, 点击并
从这些文件夹里选择SAMPSIO
4.从SAMPSIO文件夹的数据集合里选择HMEQ然后选OK. 下面的对话框打开:
5.可以看到该数据集合里有5,960 个观测(行)和13个变量(列). SAMPSIO.HMEQ 是
源数据. 注意在右下角指示的是metadata(元数据)样本大小为2,000.
所有分析包必须决定在分析中如何使用变量. EM使用元数据对如何使用每一个变量作一个初步的评估。

按缺省方式,它从感兴趣的数据集合里随机抽取2,000 个观测记录,并使用这里的信息为每一个变量确定其模型中的作用和变量类型。

要抽取一个较大的样本,你得选择对话框右下角Change…按钮.
1.点击Variables标签可看到所有的变量及其相关的指定.
2.点击第一列的标头,Name, 这些变量就按名称的顺序排列。

把窗口拉大你会看到所
有的变量。

下表显示了13 个变量的部分信息.
注意有两列显灰色。

这些列代表这个节点里不能改变的SAS 数据集合的信息。

Type 或者是字符型(char)或者是数值型(num) ,它对一个变量如何被使用有影响。

2,000元数据样本的Type 的值和不重复数值个数用于确定模型以及测量水平.
第一个变量BAD是目标变量.尽管BAD 是数据集合里的一个数值变量,EM把它认作binary(二元变量)因为在元数据样本里它只有两个不同的非缺失值。

所有二元变量的模型角色的缺省设置都是输入变量(input)。

在做分析之前你需要把BAD 的模型角色改为目标变量。

The next five variables (CLAGE through DEROG) have the measurement level interval because they are numeric variables in the SAS data set and have more than 10 distinct levels in the metadata sample. The model role for all interval variables is set to input by default.
The variables JOB and REASON are both character variables in the data set, but they have different measurement levels. REASON is binary because it has only two distinct nonmissing levels in the metadata sample. The model role for JOB, however, is nominal because it is a character variable with more than two levels.
For the purpose of this analysis, treat the remaining variables as interval variables.
At times, variables such as DEROG and DELINQ will be assigned the model role of ordinal. A variable is listed as ordinal when it is a numeric variable with more than two but no more than ten distinct nonmissing levels in the metadata sample. This
often occurs with counting variables, such as a variable for the number of children.
Because this assignment depends on the metadata sample, the measurement level of
DEROG or DELINQ for your analysis might be set to ordinal. All ordinal
variables are set to have the input model role; however, you treat these variables as interval inputs for the purpose of this analysis.
确定目标变量
BAD 是这个分析的反应变量,因此要把BAD的模型作用改为target.
要改变模型作用信息,方法如下:
1.把光标头指向BAD 行的Model Role 一栏并右击。

2.从弹出菜单选择Set Model Role⇨target.
检查分布
你可以检查元数据样本里每一个变量的数值分布。

要查看BAD的分布:
1.把光标头指向BAD 变量Name 栏.
2.右击鼠标,你可以按名称给变量排序、找变量、或者查看BAD的分布.
3.选择View Distribution of BAD查看BAD的分布
To obtain additional information, select the the View Info tool, , from the toolbar at the
top of the window and click on one of the bars. Enterprise Miner displays the level and the proportion of observations represented by the bar. These plots provide an initial overview of the data. For this example, approximately 20% of the observations were loans where the client defaulted. Because the plots are based on the metadata sample, they may vary slightly due to the differences in the sampled observations, but the bar for BAD=1 should represent approximately 20% of the data. Close the Variable Histogram window when you are finished inspecting the plot. You can evaluate the distribution of other variables as desired.
修改变量信息
保证余下变量的模型作用和测量水平信息是正确的。

如果必要,可以把DEROG的测量水平改为interval. 要修改测量水平信息:
1.把光标头指向DEROG行的测量(Measurement)栏,并右击鼠标
2.从弹出菜单选择Set Measurement⇨interval
查看描述统计量
元数据可用来计算描述统计量。

选择Interval Variables标签
你可以查看连续变量的最小值、最大值、均值、标准差、缺失记录的百分数、偏度和峰度。

根据数据的商务知识,查看最小值和最大值指的是有没有异常值。

注意DEBTINC 变量的缺失值百分数很高(21%).
选择类别变量Class Variables标签
查看数据的水平级数、缺失值百分数、以及变量的排序方式。

注意BAD变量是降序,而其它变量是升序。

这是因为它是二元目标变量。

通常对于二元变量当事件发生时编码为1否则为0 。

降序排序使得1 成为第一个水平,是二元变量的目标变量。

在回归模型里把其它类似编码的二元变量按降序排列对于解释参数估计也是有用的。

关闭Input Data Source 节点,并存储这些改变。

其它的数据探索
EM的其它工具可让你进一步探索数据。

工具之一是Multiplot(多图)节点. Multiplot 节点建立一系列的直方图和条形图可使你检查输入变量和二元目标变量的关系。

1.右击Multiplot 节点并选择Run.
2.在出现的弹出框里选Yes浏览结果.
通过使用键盘上的Page Down ,你可以浏览关于该数据的直方图。

从这个直方图你可以知道许多的欺诈贷款是由债务收入比高或者债务收入比未知的购房者造成的。

当EM打开一个项目框图时,在该框图上会放一把锁以避免两个以上的人同时
改变这个框图。

如果EM或SAS不正常终止,锁文件没有被删除,锁仍然对框图起作用。

如果这种情况发生,你必须删除这个锁文件以操作框图。

删除锁文件的步骤:
1.右击工作区diagrams标签的项目名并选择Explore….
2.在打开的explorer 窗口工具条上点击.
3.在Search for files or folders(搜索文件或文件夹)区域, 键入*.lck.
4.选择.
5.一旦找到锁文件,右击该文件名并选择Delete.
这样锁文件就被删除了,项目处于可操作状态。

2.2数据划分
了解Data Partition(数据划分)节点
查看数据划分节点的缺省设置
1.把Data Partition节点放到框图里.
2.把Data Partition 节点和CRSSAMP.HMEQ 节点连起来.
3.打开Data Partition 节点,或者通过双击节点或者右击鼠标并选择Open….
选择标签左上部的划分方法.
∙按缺省方式,EM在输入数据中抽取简单随机样本并划分为训练数据、验证数据和测试数据.
∙如要进行分层抽样,选择Stratified 圆钮并使用Stratified 标签中的选择项建立各个层次.
如要进行用户自定义的抽样,选择User Defined 圆钮并使用User Defined标签中的选择项挑选出数据集合中的某个变量,该变量确定划分.
在启动抽样过程前你可以在标签的左下部分指定一个随机种子。

计算机程序的随机化过程经常始于某种种子。

如果你在不同的挖掘流程使用相同的数据集合和相同的种子,你会得到相同的数据划分。

注意对数据的重新排序会导致数据的不同的顺序,因此导致不同的数据划分,这有可能会产生不同的挖掘结果.
该标签的右边你可以指定数据划分到训练数据、验证数据和测试数据的百分数.
划分HMEQ数据集合用于建模. 根据现有的数据创建训练数据和验证数据集合,忽略测试数据.
4.分布设置Train, Validation, 和Test 为67, 33, 和0.
5.关闭Data Partition节点,选择Yes把所做的改动存起来.
2.3生成和解释决策树
目标:
学习EM可用的决策树模型类型
生成决策树模型
检查模型结果和解释这些结果
理论和实证角度选择决策阈值
要完成第一个框图的第一阶段,需把一个Tree 节点和一个Assessment 节点加到工作区并连接如下:
检查决策树的缺省设置.
1.双击打开Tree节点.
2.查看Variables 标签以确保所有的变量具有适当的状态、模型作用以及测量水平.
✐如果变量的模型角色或者测量水平信息不正确,在这个节点里是不能修改的。

你必须返回到输入数据源(input data source)节点去修正.
3.选择Basic.
以前讨论的生成决策树的选择项均在此标签中.
可用的裂分标准依赖于目标变量的测量水平。

对于二元或者名义目标变量,缺省的裂分标准是chi-square检验,显著性水平为0.2. 如果不用缺省设置,你可以用entropy 减少或者Gini(基尼数)减少的方法作为裂分标准。

对于有序目标变量,只有entropy 或者基尼数方法。

对于连续型目标变量,你有两个裂分标准供选择:缺省 F 检验或者方差减少。

这一标签的其它选择项影响树的生长和大小。

按照缺省,只有二元裂分可用,树的最大深度是6个层次,树叶中最小的观测记录数是1. 然而,还有一个节点裂分所需要的观测记录数的设置。

这个数值的缺省值是训练数据里所有的记录数除以100.
✐There are additional options available in the Advanced tab. All of the options are discussed in greater detail in the Decision Tree Modeling course.
4.关闭Tree 节点.
5.从Tree节点运行框图。

右击Tree节点并选择Run.
6.选择弹出框的Yes查看结果.
当查看树节点的结果时,All 标签处于活动状态,界面展示了后面几个子标签的总结。

从右下角的图形我们知道训练数据集合最初生成的是18个树叶的树,然后根据验证数据集合被修剪成有8个树叶的树。

左下角的表告诉我们这个8个树叶的树在验证数据上的精度是89.02%.
7.通过选择菜单条View Tree查看树.
以下是树的一部分.
尽管这棵树应该有8个树叶,但这些树叶并不都能看到。

根据缺省,决策树浏览器只显示3层.
要修改可浏览的层数,操作如下:
1.选择View⇨Tree Options….
2.在Tree depth down 区域键入6.
3.选择OK.
4.检查一下所有8个树叶是否都能看到.
The colors in the tree ring diagram and the decision tree itself indicate node purity by default. If the node contains all ones or all zeros, the node is colored red. If the node contains an equal mix of ones and zeros, it is colored yellow.
You can change the coloring scheme as follows:
1.Select Tools⇨Define Colors.
2.Select the Proportion of a target value radio button.
3.Select 0 in the Select a target value table. Selecting zero as the target value makes the
leaves with all zeros green and those with no zeros (that is, all ones) red. In other words, leaves that include only individuals who will default on their loan will be red.
4.Select OK.
Inspect the tree diagram to identify the terminal nodes with a high percentage of bad loans (colored red) and those with a high percentage of good loans (colored green).
你还可以改变树节点统计量的显示.
1.选择View⇨Statistics….
2.要关闭Count per class(每类别的数量),右击Count per class 行的Select 列。

在弹
出菜单里选择Set Select⇨No.
3.同样方法关闭N in node, Predicted Value, Training Data, 以及Node ID 行,你的屏幕
上可以看到更多的树叶.
4.选择OK.
注意第一次裂分发生在DEBTINC变量上。

以下步骤可用来决定哪一个分枝包含缺失值:
1.把光标头指在树图根节点下的变量名DEBTINC上.
2.右击并选择View competing splits…. Competing Splits(可选择裂分)窗口打开。

该表列出了按worth的测量值排列的前5个可考虑用于裂分的变量.
3.选择DEBTINC.
4.选择Browse rule. Modify Interval Variable Splitting Rule (修正连续变量裂分法则)
窗口打开.
该表给出了每一个分枝的变量数值范围以及包含缺失值的分枝号。

在目前情况下,包含>45.1848的变量值的分枝包含缺失值.
5.关闭Modify Interval Variable Splitting Rule 窗口,Competing Splits 窗口,以及树图. You can also see splitting information using the Tree Ring tab in the Results-Tree window. Using the View Info tool, you can click on the partitions in the tree ring plot to see the variable and cutoff value used for each split. The sizes of the resulting
nodes are proportional to the size of the segments in the tree ring plot. You can see the split statistics by selecting View⇨Probe tree ring statistics. You can view a path to any node by selecting it and then selecting View⇨Path.
You can also determine the variables that were important in growing the tree in the Score tab.
1.Select the Score tab.
2.Select the Variable Selection subtab.
This subtab gives the relative importance of variables used in growing the tree. It also can be used to export new variable roles, which is discussed later in the course.
3.Close the Results window and save the changes when prompted.
✐New Tree Viewer
A new tree viewer will be available in a future version of Enterprise Miner. To obtain
access to this new viewer,
1.In the command bar, type the statement %let emv4tree=1.
2.Press the return key.
3.Return to the Enterprise Miner window.
4.Right-click on the Tree node and select New view….
使用树选择项
你可以调整缺省树算法以便生成不同的树。

这些改变并不一定改进树的分类性能,但可以改进其可解释性.
Tree 节点按缺省裂分为二分为两个节点(被称为binary splits). 理论上使用多方向裂分的树并不比使用binary splits的树更灵活或者更有效果。

其主要目的是加强最终结果的可解释性.
考虑生成一个可允许4方向裂分的树.
1.点击框图上的树名称,把它改为Default Tree.
2.在工作区加入另一个树节点.
3.连接Data Partition节点和这个Tree 节点.
4.连接这个Tree 节点和Assessment(评价)节点.
5.打开这个新的Tree 节点.
6.选择Basic标签.
7.在Maximum number of branches from a node(一节点最多分叉数)处输入4. 这个选
项允许2,3,4个分叉.
8.关闭这个Tree节点,并在弹出框中同意存储改动.
9.在弹出框中输入DT4way作为模型的名称。

看到它你会想到你指定的是4-方向裂
分树.
10.选择OK.
11.从这个树节点运行挖掘流并浏览结果.
这棵树树叶的数量从8 增加到33. 这棵树是否比二分树更容易为人理解只是个人的偏好而已。

增加的树叶数量可以增加模型较低层次的解释力。

在验证数据上的分类精度只增加了0.25% 虽然模型的复杂度增加了许多.
如果你看树图,你会发现许多节点只包括几个申请人。

你可以使用其它的生成选择去限制这一现象.
12.关闭Results 窗口.
限制树的生长
各种停止或者阻止法则(也被成为预剪枝)可以用来限制决策树的生长。

例如,人们通常会认为一个节点的记录<50就不再裂分、或者要求每一个节点的记录至少为25.
修改最后创建的Tree 节点,并采用这些终止法则以阻止生成太多的终端节点.
1.打开Tree 节点.
2.选择Basic标签.
3.在minimum number of observations in a leaf区域键入25,然后点击
Enter.
4.在number of o bservations required for a split search区域键入50,
然后点击Enter.
The Decision Tree node requires that (Observations required for a split search) ≥2*(Minimum number of observations in a leaf). In this example, the observations
required for a split search must be greater than 2*25=50. A node with fewer than 50
observations cannot be split into two nodes with each having at least 25 observations.
If you specify numbers that violate this requirement, you will not be able to close the
window.
5.关闭Tree节点并存储所做的改动.
✐在关闭时如果Tree节点没有弹出对话框让你存储改动,这说明原有的设置没有被修改,这是你要重新打开这个节点并重新修改设置.
6.重新运行Tree节点并浏览结果.
这个最佳树有8 个树叶。

在验证数据上的精度略有下降,为88.56%.
7.选择View⇨Tree看树图.
注意在DEBTINC上的第一个裂分下面有4个分枝.
8.浏览后关闭树图及节点窗口.
比较模型
Assessment 节点用于比较模型.
1.要从Assessment 节点运行框图, 右击Assessment 节点并选择Run.
2.在弹出的对话框中选Yes查看结果.
3.在Assessment Tool 窗口, 点击并拖拽鼠标把两个模型都选上.
4.选择Tools⇨Lift Chart.
●右击Tool Name框内空白处,选择format,选择model name
缺省给出的是一个Cumulative %Response(累积因变量%)图。

根据缺省,人群按预测的因变量概率划分为10个等分组,然后画出实际的因变量百分数(即Y轴)。

要看实际值,点击View Info 工具然后点击模型对应的折线。

点击靠近图形左上角的Tree-2 线,得到%Response 为82.06, 含义是什么呢?
要解释Cumulative %Response 图,需知道它是如何生成的.
∙就这个例子而言,响应人(responder)被定义为一个欺诈贷款的人(BAD=1). 对每一个人,拟和的模型(在此是一个决策树)给出了此人将来会欺诈贷款的概率预测。

把所有的记录按响应的预测概率从大到小排序.
∙把人分成有序组,每一组包含大约10% 的数据记录.
使用目标变量BAD, 计算每一组实际响应人的百分数c.
如果模型有用,响应者(欺诈者)的比例在响应预测概率高的组将会相对高。

前面给出的累积响应曲线显示了前10%, 20%, 30%等实际响应者的百分数。

在前10%的组里, 80% 多的人是贷款欺诈者;在前10%的组里, 欺诈者的比例下降到只有72%. 水平线代表的是用于比较的基准比率(大约20%), 这个比率是你随机抽样时预期的欺诈者百分数的估计. 上图给出的累积百分数,但你还可以选择图形左边Non-Cumulative旁边的圆钮查看每一个组里响应者的比例.
选择Non-Cumulative 旁边的圆钮并查看图形.
Cumulative %Response Non-Cumulative %Response
Non-Cumulative 图形表明一旦预测概率的值在前20%以外,欺诈率要比你选一个随机样本所期望的欺诈率要低.
选择Cumulative然后选Lift Value. 提升图描画的在不同标度上的相同信息。

记得总体的响应率大约为20%。

提升图可通过把每一个小组的响应率除以总体响应率得到。

因此提升图描绘的是基于基础线的相对改进.
Cumulative %Response Cumulative Lift V alue
我们知道在按预测概率排序的前10% 的组里欺诈者比例为82.06%. 82.06% 除以20% (baseline rate) 得到略大于4的数, 这表明你在这个组里会得到比相同人数的简单随机样本里4 倍多的欺诈者.
你可能会提出这样的问题:"每一个组里响应者占全部响应者的百分数是多少?" 。

这个百分数是用%Captured Response计算的。

要查看计算结果,选择%Captured Response 旁边的圆钮。

用View Info 工具评价模型的性能。

你可以看到如果你拒绝申请者的百分数为
∙20%, 你可能挑出了大约70% 将会欺诈的人(提升比例是3.5!).
∙40%,你可能挑出了大约80% 将会欺诈的人(提升比例大于2!).
关闭Lift Chart 和Assessment Tool窗口.
交互式训练
决策树的裂分是根据分析标准选择的。

有时有必要或者需要根据实际的商业标准选择裂分。

例如,对某一个节点最好的裂分可能是在一个很难于获取或获取代价很贵的输入变量上。

如果一个可用裂分是在另外一个近似等价的变量上,而该变量值的获取要容易且便宜地多,在这个节点上使用这个备择输入变量来裂分是有理由的。

类似地,有的裂分选择在统计上可能是最优的,但可能和目前的商业实践有冲突。

例如,信用部门可能会把没有debt-to-income 比率信息的申请者和有该类信息的申请者区别处理。

使用Tree节点的交互训练你能够把这类商业做法加入到你的决策树模型中。

然后你可以比较以前的树和修改后的树的统计结果。

为此,首先复制Default Tree 节点.
1.用鼠标右边点击Default Tree 节点,并选择Copy.
2.把光标移动到Default Tree 节点上面的空白处, 右击鼠标并选择Paste. 给这个节点
重新起名为Interactive Tree.
3.把Interactive Tree 节点连接到Data Partition 节点和Assessment 如下图.
4.右击Interactive Tree 节点并选择Interactive…. Interactive Training 窗口打开.
5.在菜单条上选择View Tree.
缺省决策树显示如下.
你的目标是改变第一个裂分使得一个分枝包含所有缺少debt-to-income数据的申请人,而另一个分枝包含其余的人。

自这个节点以下,你可以用决策树的分析方法生成树的其余部分.
1.选择工具条上的Create Rule 图标, ,.
2.选择树的根节点。

Create Rule 窗口打开,列出了可能的裂分变量及其对应的价值
测度.
3.选择DEBTINC行.
4.选择Modify Rule. Modify Interval Variable Splitting Rule 窗口打开.
5.选择range 2对应的行.
6.选择Remove range. 现在的裂分法则是所有无DEBTINC 缺失的记录放在节点1,
其余的记录放在节点2.
7.选择OK关闭Modify Interval Variable Splitting Rule 窗口.
8.在Create Rule 窗口选择OK. Create Rule 窗口关闭,树图革新如下.
左节点包括所有DEBTINC变量有值的记录, 右节点只包括DEBTINC 缺失的记录.
9.关闭树图和Interactive Training 窗口.
10.选择Yes把树保存作为后续训练的输入.
11.运行修改后的Interactive Tree 节点并查看结果。

这棵树有11个节点,在验证数据上
的精度为88.71%.
要比较这几个Tree模型:
1.关闭Results 窗口.
2.欲重新命名这个模型, 右击Interactive Tree 节点并选择Model Manager….
3.把名称从Untitled 改成Interactive.
4.关闭Model Manager 窗口. 右击Assessment 节点并选择Results….
5.输入Default作为缺省树模型的名(目前是Untitled).
6.点击并拖动鼠标选择对应于3个树模型的所有行
7.选择Tools⇨Lift Chart.
8.选择Format⇨Model Name.
✐You may have to maximize the window or resize the legend in order to see the entire legend.
The performance of the three tree models is not appreciably different. Close the lift chart when you are finished inspecting the results.
Consequences of a Decision
In order to choose the appropriate threshold to classify observations positively or negatively, the cost of misclassification must be considered. In the home equity line of credit example, you are modeling the probability of a default, which is coded as
a 1. Therefore, Enterprise Miner sets up the profit matrix as shown above.
Example
Assume that every two dollars loaned returns three dollars if the borrower does not default. Rejecting a good loan for two dollars forgoes the expected dollar profit. Accepting a bad loan for two dollars forgoes the two-dollar loan itself (assuming that the default is early in the repayment period).
Consequences of a Decision
The costs of misclassification are shown in the table.
Bayes Rule
One way to determine the appropriate threshold is a theoretical approach. This approach uses the plug in Bayes rule. Using simple decision theory, the optimal threshold is given by θ.
Using the cost structure defined for the home equity example, the optimal threshold is
1/(1+(2/1)) = 1/3. That is, reject all applications whose predicted probability of default exceeds 0.33.
Consequences of a Decision
You can obtain the same result using the Assessment node in Enterprise Miner by using the profit matrix to specify the profit associated with the level of the response being modeled (in this case, a loan default or a 1). As a bonus, you can estimate the fraction of loan applications you must reject when using the selected threshold.
选择决策阈值
首先考虑从理论上决定的决策阈值
1.返回到项目Project1 流程图,打开Default Tree节点,并选择打分(Score)标签
2.选择Training, Validation, and Test旁的选箱,这样预测值被加到数据集合。

3.关闭树节点,并保存改动。

4.在Default Tree 节点后加入一个Insight节点。

5.打开Insight .
6.点击Data 标签, 选择Select…查看前面用过的数据集合。

7.从这个Default Tree节点选择验证数据集合。

8.选择OK.
9.在Insight Settings窗口的Data 标签中,选择Entire Data Set,因此Insight将使用
验证数据集合的所有记录。

10.关闭节点,保存所做的改动。

11.运行Insight 节点并浏览运行结果。

该数据集合的新变量之一是P_BAD1, 它是预测的贷款人目标变量=1(贷款欺诈)的概率。

如果想按这个变量给数据集合排序:
12.点击该数据表左上角的三角形,并选择Sort….
13.在排序Sort 窗口, 选择P_BAD1 Y.
14.在Y栏涂黑P_BAD1并选择Asc/Des以排序
15.选择OK.
16.在数据表中移动鼠标,你可以看到380个观测记录其预测的欺诈概率大于1/3.。

相关文档
最新文档