第二章 示例学习1 机器学习 教学课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 示例学习
一. 示例学习的问题描述(见表2.1,表2.2)
二. 二. 决策树学习(ID3算法)
1. 学习效果的衡量标准(示例学习的优化问题) 2. ID3算法: 3. 输入:例子集(正例、反例); 4. 输出:决策树 5. 从树的根结点开始,每次都用“最好的属性”划分结点,
直到所有结点只含一类例子为止。 6. 3. 信息增益 7. 结点nodei 例子集C, p个正例 n个反例 结点nodei的“信
息熵”
10 Rain
Mild
11 Sunny Mild
12 Overcast Mild
13 Overcast Hot
14 rain
Mild
Normal False P Normal True P High True P Normal False P High True N
I(p ,n )plop gnlon g
temperature
cool
ຫໍສະໝຸດ Baidu
mild
hot
outlook
sunny
rain
over
outlook
sunny over
rain
windy true false
p
p windy windy p humidity N humidity
true
true
false
false high normal
high norm
定其义中2AJ。j选{1D择, j…;子公,是n式}形; (规为或则[x项是j=)A公j是]式的选的关择析系子取语的式句合,,取即其式中l,xLj即为i,第j其jJ个中[x属jL=i性A为j,],
公式。
i 1
一个例子e=<V1, …Vn>满足选择子[xj=Aj]当且仅当Vj是Aj的 元素,即Vj Aj; e满足一个公式当且仅当它满足该公式的每 一个选择子;e满足一条规则当且仅当e满足该规则的至少一 个公式。
正例,ni个反例。 “期望信息熵”为
v
E(A)
i1
ppi n ni I(pi,ni)
属性outlook,有三个值,{sunny,overcast,rain},用outlook扩展根
结点得到三个子集{C1,C2,C3}。C1={1-,2-,8,9+,11+},C2={3+,7+,12+,13+}, C3={4+,5+,6-,10+,14-}
例子满足选择子(公式、规则)也称做选择子(公式、规 则)覆盖该例子。
例如: 例子e=<矮,淡黄,兰> 满足选择子[头发=淡黄∨红 色]和 [眼睛=蓝色] ;满足公式[头发=淡黄∨红色] [眼睛=蓝 色] 。
sunny
rain
overcast
{1-,2-,8-,9+,11+} humidity
{3+,7+,12+,13+} p
{4+,5+,6-,10+,14-} windy
high
{1-,2-,8-} N
normal
{9+,11+} P
true
{6-,14-} N
false
{4+,5+,10+} P
则“信息增益” Gain(A)=I(p,n)-E(A) Gain(outlook)=0.940-E(outlook)=0.246bits
3. 决策树学习的常见问题 1)不合适属性(Inadequate attributes) 两类例子具有相同属性值。没有任何属性可进一步扩展决策 树。
哪类例子多,叶结点标为哪类。 3)未知属性 ① “最通常值”办法 ② 按比例将未知属性例子分配到各子集中: 属性A有值{A1,…,Av}, A值等于Ai的例子数pi和ni,未知属性 值例子数分别为pu和nu, 在生成决策树时Ai的例子数 Pi+pu·ratio
N
pp N
windy p outlook p
三. 聚集算法 1. 基本概念:
定义1 (例子). 设E=D1×D2 ×… ×Dn 是n维有穷向量空间, 其中 Dj是有穷离散符号集。E中的元素e=(V1,V2, …,Vn)简 记为<Vj>叫做例子。其中Vj∈Dj。
例如:对表2.1 D1={高,矮};D2={淡黄,红,黑};D3={兰,褐} E=D1 × D2 × D3 例子 e=(矮,淡黄,兰)
p n 2p np n 2p n
根结点:P=9,n=4
I(9 ,5 ) 9lo9 g 5lo5 g 0 .9b 4i0ts 14214 14214
A是例子的一个属性,有V个值{a1, …av}, 用A扩展nodei结点
把C分成V个子集{C1, …Cv}, Ci对应ai (i=1,2, …V)。 Ci含有pi个
P1=2, n1=3 I(2,3)=0.971 P2=4, n2=0 I(4,0)=0 P3=3, n3=2 I(3,2)=0.971
E (out) l1 5 oI4 (o p 1,n k 1)1 4I4 (p 2,n 2)1 5I4 (p 3,n 3) 0 .69 b4 its
{1…14} outlook
相关文档
最新文档