机器学习-7-fuxi

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

11
of
P Pw* ( y | x)
*
w* arg max ( w)
w
机器学习基础-总结
48
一、决策树
D x1 , y1 , x2 , y2 ,
已知-数据集合(D)：
根结点
, xm , ym
样本全集D 色泽=青绿
V1 1 2 x A { a , a , , a i1 x1 1 1 1 } xi1 x A {a1 , a 2 , , aV2 } xi 2 i 2 x2 2 2 2 where : xi ; Vd 1 2 x A { a , a , , a xid xd d d d } id yi Y {1 , 2 , ,N }
机器学习基础-总结
14
of
48
局部优选，学习的关键步骤
递归
当前结点包含的样本集合为空，不能划分③
算法的结果
机器学习基础-总结
15
of
48
三、决策树属性选择准则：
概率分布的平均信息量(信息熵)为：
ID3决策树学习算法(Quinlan 1986)。
Ent ( D) i 1 P i log 2 P i
012mmmtiiiiiiijjijiiijmiiiiilyxxstcim?????????????????????????????????????????????????????贝叶斯决策机器学习基础总结of5贝叶斯决策4827条件独立性假设
机器学习基础
总结
智能科学与技术系
刘冀伟
1
机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E的改进后，它在任务T上由性能度量P衡量的性能有所提升。学习任务T：定义为系统如何处理样本，样本是指收集到的已经量化的特征。常见任务：分类、回归、输入缺失分类、机器翻译、结构化输出、转录、异常检测、合成采样。性能度量P：针对系统执行的特定任务T、为了评估机器学习算法能力而提出。

P( y 1| x)=
e(W
) x
1+e
(W * )T x
; P( y 0 | x)
1
1+e
(W * )T x
机器学习基础-总结
10
of
48
2
五、多分类问题
一对一OvO 一对多OvR 多对多-(MvM)：纠错输出编码(ErrorCorrecting Output Codes，ECOC) 为一种多类分解框架
d
此时： x R ;W w1
w2
wd ; b R
T
为了方便引入符号：
x11 x 21 X xm1
x12 x22 xm 2
x1d x2 d xmd
T 1 x1 1 T 1 x2 1 = T 1 xm 1
根蒂=卷缩内部结点
敲声=浊响
分支：属性取值
假设空间(H)：树的集合-逻辑规则的合取求决策树：T 叶结点
一个非叶结点： ={样本集，属性集
13
of
机器学习基础-总结
48
二、决策树生成算法：
已知条件
当前结点包含的样本全属于同一类别，无需划分①
当前属性集为空或所有样本在所有属性上取值相同，无法划分②
六、性能度量方法
误差(error ) ：学习器的预测输出与样例的真实输出间的差异称为误差，在训练集上的误差称为训练误差(training error)或经验误差(empirical error)，在新样本上的误差称为泛化误差(generalizatiuon error) 。
机器学习基础-总结
5
of
6
of
48
2
一、单变量线性回归
f ( xi ) Wxi b f ( xi ) yi
性能评价-均方误差
W
*
, b Arg min f ( xi ) yi
*
m
2
w ,b
i 1 m
yi ( xi x ) W m m 1 2 i 1 xi m i 1 xi 1 m b i 1 yi Wxi m
一、特征空间
机器学习基础-总结
4
of
48
三、学习的任务-y=f(x)
回归：Y (0 1)，是连续值集合，预测。聚类：没有Y的信息。
有监督学习无监督学习
强化学习 Y的信息不完全泛化能力：学习的结果对新样本的适应能力，对样本空间的描述能力。
四、假设空间(H) 五、归纳偏好（奥卡姆剃刀、没有免费午餐）
N
Gain( D, v) Ent ( D) v 1
V
Dv D
Ent D v
C4.5决策树算法【Quinlan，1993】： Step1：从候选属性中提取信息增益高定义数据集的基尼值：于平均水平的属性构成待选属性集合A； N N 2 Gini ( D ) p p 1 p Step2：从待选属性集合A中选取增益 k 1 k ' k k k ' k 1 k 率最高的属性作为划分属性。定义属性的基尼指数： v v v D D D V V Gini _ index( D, a) v 1 Gini D v IV (a) v 1 log 2 D D D
基于损失函数的剪枝算法：输入：生成算法产生的树T，参数α；输出：修剪后的树Tα ； Step1：计算每个叶节点的经验熵; Step2：递归从叶节点向上回缩，设一组叶节点回缩到其父节点之前与之后的整体树分别为TB和TA，对应的损失函数有：Cα(TA)≤ Cα(TB),则进行剪枝，将其父节点变为新的叶节点。 Step3：返回Step2，直至不能继续为止，得到损失函数最小的树Tα
ln y w x b
T
ye
联系函数
wT x b
xi Rd ; y 0 1
g:Y→Y’ ↓ y ↓ y’
概率模型：求条件分布P(Y|X)
取：p
1 1 e
W T x b

xi h x
T
y ' g ( y) w x b
W T xi T l (W ) i 1 lnP( yi | xi ;W )=i 1 yW xi ln 1 e i * T m m
i 1, 2,
,n
xi1 xi 2 where : xi X Rd ; xid yi {1 ,2 , ,k }

P( y | x) 1 y
假设空间(H)：H={满足问题约束的条件概率分布} 求：P(y=ωi|X=x) ； i=1,2,┄,k)
w1 W W wd b b
* T
y1 y2 y ym
1
w X X XT y y w
* T
均方误差： E (W ) y XW

T
y XW
W

六、最大熵模型多分类问题
已知-数据集合(D)：
D x1 , y1 , x2 , y2 , , xm , ym
min H P x , y P( x) P( y | x) log P( y | x)
PC
s.t.
EP ( f i ) EP ( f i )
48
过拟合(overfitting)与欠拟合(underfitting) ：导致学习器泛化功能下降的现象称为过拟合，相对的为欠拟合。查准率、查全率和F1： TP 混淆矩阵(Confusion Matrix) P 查准率(precision) TP FP 查全率(recall)
TP R TP FN
机器学习基础-总结
3
of
48
选择一组变量描述问题性质，称为特征变量（属性），特征变量组成的向量称为特征向量，变量张成的空间称为特征空间（样本空间），变量的取值称为属性值。特征变量（属性）记为：xi，i=1、、d x1 特征空间记为：G x 特征向量记为： x 二、数据集合 d 样本：特征空间（样本空间）中的一组示例。记为：D={x1、x2 、、xm } 标记空间：标签变量或预测变量的取值集合，记为：Y 样例集合：特征向量与标签变量对集合，D={(x1、y1) 、(x2、y2) 、、 (xm、ym) } 学习(训练)数据：在训练过程中使用的数据称为训练数据，每一个样例称为训练样本，全体训练样本集合称为训练集(training set)。测试数据(testing data)：用于检测学习得到模型的数据称为检测数据，每一个样例称为检测样本，全体检测样本集合称为检测集(testing set)。
机器学习基础-总结
17
of
48
五、连续值处理
前面我们讨论的是属性值为离散的情况，但属性值是连续时，决策树方法就不能使用。-------二分法
六、缺失值处理
实际问题中，经常会遇到缺失值问题即某些样本缺失某些属性值。放弃这些样本-可惜! 希望有方法能充分利用这些数据！要解决的问题-决策树 1、如何选择划分属性？ 2、选择划分属性后，如何划分样本集合？
七、模型评估方法七、模型评估方法
留出法(hold-out) ：交叉验证法(cross validation)
2 P R F1 PR
自助法(bootstrapping)：调参与最终模型：
(1+ 2 ) P R F (1+ 2 ) P R
机器学习基础-总结
七、多变量决策树
能实现斜划分或更复杂的划分的决策树。此时多变量决策树的非叶节点就不能仅仅是一个属性，而是一个线性判别器或非线性判别器。
机器学习基础-总结
18
of
48
八、回归树
最小二乘回归树生成算法：输入：训练数据集D，属性集X，停止条件ε； Step1：选择最优划分变量xj 和划分点s，求解如下优化问题，得到{xj ， s }
R1 ( j , s ) {x | x s }; R2 ( j , s ) {x | x s} ck ave( yi | xi Rk ( j , s )); k 1, 2
Step3：继续对每个子区域执行Step1和Step2，直至满足停止条件。 Step4：生成决策树： f ( x)
i 1

m

2
;
Arg min Βιβλιοθήκη W xi b yi T
2
w ,b
y f ( x) Wx b
1 m 其中： x i 1 xi m
i 1
E (W , b) f ( xi ) yi
i 1
m
2
机器学习基础-总结
8
of
48
2
二、多元线性回归
T

x
问题描述： W * arg min E (W ) arg min y XW
W
y XW
9
of
机器学习基础-总结
48
2
三、广义线性模型四、Logistic回归
问题：已知D={(x1,y1), (x2,y2),…, (xm,ym)}，其中求y=f(x)；其中 f 的值域为{0 1}
c m1 m I x Rm M
输入：决策树T，f(x)。
机器学习基础-总结
19
of
48
4支持向量机
2 2 min min yi c1 min yi c2 j ,s c c2 xi R2 ( j , s ) 1 xi R1 ( j , s )
j j
j , s
Step2：确定划分后各个划分区域的输出值：
CART决策树算法

of
机器学习基础-总结
16
48
四、剪枝
基于测试集剪枝的基本策略预剪枝(prepruning)：在决策树生成过程中，对每一个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化性能的提升，则停止划分，并标记当前节点为叶节点。后剪枝(post-pruning) ：先生成一颗完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点。