数据挖掘决策树自己制作

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
每分钟的时间里,YouTube用户会上传48小时的新视频, 全球电子邮件用户共计发出2.04亿封电子邮件
Twitter平均每天产生3.4亿条消息,而Facebook每天则 有40亿的信息扩散。
沃尔玛每小时从顾客交易获得数据为100万G,印出来 可装2000万个文件柜。
世界上访问量最大的网站google,每天能处理的数据量 高达20PB。
3. 决策树是怎么样发展而来的?
决策树的起源是CLS(Concept Learning System),CLS是由Hunt、 Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该模型 为很多决策树算法的发展奠定了很好的基础。
1984年,L.Breiman等人提出了CART(Classification and Regression Tree) 算法。
➢ 通过把实例从根节点排列到某个叶子节点来分 类实例; ➢ 叶子节点即为实例所属的分类; ➢ 树上每个节点说明了对实例的某个属性的测试 节点的每个后继分支对应于该属性的一个可能值。
内部结点
恒温
体温
胎生


哺乳动物
非哺乳动 物
冷血
非哺乳动 物
根结点
叶结点
决 策 树 构 造 流 程
2. 决策树的背景是什么?
生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大 量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、 医疗卫生等方面有着广泛的运用。 决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模 型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。
1、决策树构造的分类器容易理解; 2、决策树算法的运算速度要快于其他分类方法; 3、决策树分类方法得到的结果的准确率要优于其他算法。
在影视领域,大数据运用的成功案例当数美剧《纸 牌屋》。该剧的制作方既不是电视台,也不是传统的电影 公司,而是一家视频播放网站。2012年,视频网站Netflix 开始准备推出自制剧。在决定拍什么、怎么拍时,Netflix 抛开了传统的制作方式,启用大数据。通过在该网站上 3000多万订阅用户每天的点击操作,如收藏、推荐、回放、 暂停、搜索请求等,Netflix进行精准分析,将这些数据用 于倒推前台的影片生产。
决策树
演讲:李伟能 单位:云南大学(数学与统计学院) 导师:孟捷
1. 什么是决策树? 2. 决策树的背景是什么? 3. 决策树是怎么样发展而来的? 4. 现在国内外关于决策树的研究现状是什么? 5. 决策树可以做什么?
1. 什么是决策树?
决策树(Decision Tree),又称为判定树,是数据挖掘技术中的 一种重要的分类方法,它是一种以树结构(包括二叉树和多叉 树)形式来表达的预测分析模型。
ID3 算法本身并未给出处理连续数据的方法。
ID3 算法不能处理带有缺失值的数据集,故在进行算法挖掘之前需要对 数据集中的缺失值进行预处理。
C4.5算法
C4.5 算法同样是由Quinlan 提出,它在ID3 算法的基础上演变而来。C4.5 算法 除了拥有前述的ID3 算法基本功能外,在其算法中还加入了连续值处理、属性 空缺处理等方法。总结来说,C4.5 算法在以下几个方面做出了改进:
1986年,Quinlan提出了ID3算法。
1993年,J.R.Quinlan又提出了C4.5算法,克服了ID3算法的一些不足。
1996年,M.Mehta和R.Agrawal等人提出了一种高速可伸缩的有监督的寻 找学习分类方法SLIQ(Supervised Learning In Quest)。
同年,J.Shafer和R.Agrawal等人提出可伸缩并行归纳决策树分类方法 SPRINT(Scalable PaRallelizable Induction of Decision Trees)
1998年,R.Rastogi等人提出一种将建树和修剪相结合的分类算法 PUBLIC(A Decision Tree that Integrates Building and Pruning)
熵:
分 裂 属 基尼指数: 性 标 准 分类误差:
c 1
Entropy(t) p(i | t) log2 p(i | t) i0
log
S 2
2) 处理含有带缺失值属性的样本
C4.5 算法在处理缺失数据时最常用 的方法是,将这些值并入最常见的 某一类中或是以最常用的值代替之。
C4.5


3) 处理连续值属性

源自文库



以每个数据作为
值 属
阈值划分数据集,

代价是否过大?
过 程
4) 规则的产生
决策树每条根节点到叶节点的路径都对应一个分类规则,可将所有这 些路径综合转换为一个规则集。规则集存储于一个二维数组中,每一 行代表决策树的一个规则。
通过对大数据的分析、挖掘,Netflix发现,其用户 中有很多人仍在点播1990年BBC经典老片《纸牌屋》。这些 观众中,又有许多人喜欢导演大卫・芬奇,大多爱看演员 凯文・史派西出演的电影。Netflix大胆预测,一部影片如 果同时满足这几个要素,就可能大卖。于是,《纸牌屋》 出现了,并大获成功。整部剧集一次性在Netflix网站发布, 供订阅者观看,完全颠覆了传统的每周一集的播出模式。
1) 使用信息增益比例而非信息增益作为分裂标准。 信息增益比例计算公式如下:
GainRatio( A) Gain( A) SplitInf (K )
在上式中,SplitInf (K) 称为分裂信息,它反映了属性分裂数据的 延展度与平衡性,计算公式如下:
SplitInf (K )
i 1
Si S
Si
c 1
Gini(t) 1 [ p(i | t)]2 i0
Classif ication _ error(t) 1 max[ p(i | t)] i
其中c是类的个数,并且在计算熵时,O log 2 0 0
ID3算法实例
ID3算法缺点
ID3 算法选用最大信息增益的属性作为决策树分裂属性。在算法实际应 用中,这种方法偏向于选择多值属性,但属性取值数目的多少与属性的匹 配并无真正关联。这样在使用ID3算法构建时,若出现各属性值取值数分布 偏差大的情况,分类精度会大打折扣。
相关文档
最新文档