深度学习-决策树-人工智能
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
THANK YOU
根据表中的数据统计可知,在15个是否有自己的房子中,6个数据为是(贷款 都为是),9个数据为否(贷款3个为是,6个为否)。
=
特征选择
信息增益
信息增益比(HA(D),特征A本身的混乱程度)
对于是否有工作,有9个实例为是, 6个实例为否,对于是否有工作的 混乱程度
决策树生成
决策树生成
决策树生成 CART算法
特征选择
熵
根据此公式计算经验熵H(D),n是分类的数目。分析贷款申请样本数据表中的 数据。最终分类结果只有两类,即放贷和不放贷。根据表中的数据统计可知, 在15个数据中,9个数据的结果为放贷,6个数据的结果为不放贷。所以数据集 D的经验熵H(D)为:
特征选择
条件熵
条件熵H(Y|X)表示在已wenku.baidu.com随机变量X的条件下随机变量Y的不确定性,随 机变量X给定的条件下随机变量Y的条件熵
决策树
Decision Tree
CONTENTS
01 决策树定义 02 特征选择 03 决策树生成 04 ID3,C4.5,CART的区别
决策树定义
决策树是一种分而治之(Divide and Conquer)的决策过程。一个 困难的预测问题, 通过树的分支节点, 被划分成两个或多个较为 简单的子集,从结构上划分为不同的子问题。将依规则分割数 据集的过程不断递归下去(Recursive Partitioning)。随着树的深 度不断增加,分支节点的子集越来越小,所需要提的问题数也 逐渐简化。当分支节点的深度或者问题的简单程度满足一定的 停止规则时, 该分支节点会停止劈分,此为自上而下的停止阈值 法;有些决策树也使用自下而上的剪枝(Pruning)法。
实例
希望通过所给的训练数 据学习一个贷款申请的 决策树,用以对未来的 贷款申请进行分类,即 当新的客户提出贷款申 请时,根据申请人的特 征利用决策树决定是否 批准贷款申请。
特征选择
特征选择就是决定用哪个特征来划分 特征空间。比如,我们通过上述数据 表得到两个可能的决策树,分别由两 个不同特征的根结点构成。
ID3,C4.5,CART的区别
ID3:根据“最大信息增益”原则选择划分当前数据集 最好的特征,按照特征的所有取值进行划分。一旦按 照某种特征进行切分后,该特征在之后的计算中就不 再起作用。 C4.5:ID3的划分原则有个缺点,它一般会选择属性 值较多的特征,C4.5使用“信息增益率”来作为特征切 分的准则,同时C4.5还弥补了ID3不能处理特征属性 值连续的问题。 CART:它是一棵树,采用二元切分法将数据切成两 份分别进入左子树和右子树,采用Gini系数作为切分 标准,主要反映切分后数据的不纯度。回归树采用方 差缩减作为切分标准。