使用决策树的预测建模

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

使用决策树的预测建模

2.1问题和数据探索

2.2建模问题和数据难点

2.3生成和解释决策树错误！未定义书签。

2.1问题和数据探索

内容：

问题和数据

初步数据探索

问题和数据

a. 预测建模问题

一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款扩展给了数千客户，其中的许多接收者（大约20%）有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈。

b. 输入数据源

在对数据进行了分析之后，该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型。输出变量（或目标）变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动。这些变量及其模型角色、测量水平、变量描述列表如下。

表 2.1 SAMPSIO.HMEQ 数据集合的变量

Name Model

Role Measurement

Level

Description

BAD Target Binary 1=defaulted on loan, 0=paid back

loan

REASON Input Binary HomeImp=home improvement,

DebtCon=debt consolidation

JOB Input Nominal Six occupational categories

LOAN Input Interval Amount of loan request

MORTDUE Input Interval Amount due on existing mortgage

VALUE Input Interval Value of current property

DEBTINC Input Interval Debt-to-income ratio

YOJ Input Interval Years at present job

DEROG Input Interval Number of major derogatory

reports

CLNO Input Interval Number of trade lines

DELINQ Input Interval Number of delinquent trade lines

CLAGE Input Interval Age of oldest trade line in months

NINQ Input Interval Number of recent credit inquiries

需要的结果－信用评分模型

该信用评分模型给每一个贷款申请人计算还贷欺诈的概率。在此要设定一个阈值，欺诈概率超过阈值的那些申请人将建议不批准。

建立项目和数据初步探索

建造简单的过程流（Flow）

1.假定My Project 项目的Project1框图是开着的，通过从工具条上（或Tools标签）拖动Input Data Source

节点到diagram工作区把节点加到Project1框图中。

2.把Multiplot 节点工作区Input Data Source 节点的右边. 你的框图看起来如下图

连接工作区的两个节点:

开始时最后

调用输入数据

这个例子使用SAMPSIO文件夹的HMEQ 数据集合.

1.要指定数据集合，双击Input Data Source节点，或右击该节点并选择Open…. Data 标签处于激活状态. 你

的窗口如下:

2.点击Select…来选择数据集合. 或者把数据集合的名称键入进来。

3.SASUSER 文件夹是缺省文件夹. 要浏览SAMPSIO文件夹的数据集合, 点击并从这些文件夹里选择

SAMPSIO

4.从SAMPSIO文件夹的数据集合里选择HMEQ然后选OK. 下面的对话框打开：

5.可以看到该数据集合里有5,960 个观测（行）和13个变量(列). SAMPSIO.HMEQ 是源数据. 注意在右下

角指示的是metadata（元数据）样本大小为2,000.

所有分析包必须决定在分析中如何使用变量. EM使用元数据对如何使用每一个变量作一个初步的评估。按缺省方式，它从感兴趣的数据集合里随机抽取2,000 个观测记录，并使用这里的信息为每一个变量确定其模型中的作用和变量类型。要抽取一个较大的样本，你得选择对话框右下角Change…按钮.

1.点击Variables标签可看到所有的变量及其相关的指定.

2.点击第一列的标头，Name, 这些变量就按名称的顺序排列。把窗口拉大你会看到所有的变量。下表显示

了13 个变量的部分信息.

注意有两列显灰色。这些列代表这个节点里不能改变的SAS 数据集合的信息。Type 或者是字符型(char)或者是数值型(num) ，它对一个变量如何被使用有影响。2,000元数据样本的Type 的值和不重复数值个数用于确定模型以及测量水平.

第一个变量BAD是目标变量.尽管BAD 是数据集合里的一个数值变量，EM把它认作binary（二元变量）因为在元数据样本里它只有两个不同的非缺失值。所有二元变量的模型角色的缺省设置都是输入变量（input）。在做分析之前你需要把BAD 的模型角色改为目标变量。

The next five variables (CLAGE through DEROG) have the measurement level interval because they are numeric variables in the SAS data set and have more than 10 distinct levels in the metadata sample. The model role for all interval variables is set to input by default.

The variables JOB and REASON are both character variables in the data set, but they have different measurement levels. REASON is binary because it has only two distinct nonmissing levels in the metadata sample. The model role for JOB, however, is nominal because it is a character variable with more than two levels.

For the purpose of this analysis, treat the remaining variables as interval variables.