实验二.天气决策树

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

各属性Information Gain的比较
• Gain(C, “天况”) = M(C)-B(C,“天况”) =0. 940 -0. 694 =0. 247 bits • Gain(C, “温度”) = M(C)-B(C,"温度") =0. 940 -0. 911 =0. 029 bits • Gain(C, “湿度”) = M(C)-B(C,"湿度") =0. 940 -0. 788 =0.152 bits • Gain(C, “风况”) = M(C)-B(C,"风况") =0. 940 -0. 892=0. 048 bits
生成的决策树
i 1 c
Sv S
Entropy (Sv )
原始数据的熵
• 本题中物体集C有十四个例子,9个正例,5 个反例。于是: M(C)=-9/14 * log2 (9/14) -5/14 * log2 (5/14) =0. 940 bits
选取属性“天况”的Information Gain
• 计算各分支的熵

有 有 无 无 无 有 有 无 有
P
N P N P P P P P N
生成ห้องสมุดไป่ตู้决策树
算法
• 选择一个属性,把数据分割为K份。 • 选择的准则:Information Gain
Gain( S , A) Entropy ( S ) vValues( A) Entropy ( S ) pi log2 pi
生成的决策树
继续划分“晴”的分支
• Gain(C晴, “温度”) = M(天况为晴)-B(天况为晴,“温度”) =0.571 • Gain(C晴, “湿度”) = M(天况为晴)-B(天况为晴,“湿度”) =0.971 • Gain(C晴, “风况”) = M(天况为晴)-B(天况为晴,"风况") =0.420
实验二:天气决策树的构造
输入数据
例子编号 属性 天况 温度 湿度 风况 分类
1
2 3 4
晴 晴 多云 雨
热 热 热 中
大 大 大 大
无 有 无 无
N N P P
5
6 7 8 9 10 11 12 13 14

雨 多云 晴 晴 雨 晴 多云 多云 雨

冷 冷 中 冷 中 中 中 热 中
正常
正常 正常 大 正常 正常 正常 大 正常 大
继续划分“多云 ”的分支
• 全部为正例,无须划分。
继续划分“雨 ”的分支
• Gain(C雨, “温度”) = M(天况为雨)-B(天况为雨,“温度”) =0.020 • Gain(C雨, “湿度”) = M(天况为雨)-B(天况为雨,“湿度”) =0.020 • Gain(C雨, “风况”) = M(天况为雨)-B(天况为雨,"风况") =0.971
– “晴”的分支含2个正例3个反例,所需期望信息量为: M(天况为晴)=-2/5 * log2 (2/5)-3/5 * log2 (3/5) = 0. 971 bits – “多云”的分支,含4个正例0个反例: M(天况为多云)=0 – “雨”的分支,含3个正例2个反例: M(天况为雨)=-3/5 * log2 (3/5)-2/5 * log2 (2/5) = 0. 971 bits
• 则以“天况”作划分后,对应决策树的信息量为:
B(C,“天况”)=5/14 * 0. 971 +4/14 * 0 +5/14 * 0. 971 =0. 694 bits
• 选择天况做为判别条件的Information Gain
Gain(C, “天况”) = M(C)-B(C,“天况”) =0. 940 -0. 694 =0. 247 bits
相关文档
最新文档