机器学习-7-fuxi
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11
of
P Pw* ( y | x)
*
w* arg max ( w)
w
机器学习基础-总结
48
一、决策树
D x1 , y1 , x2 , y2 ,
已知-数据集合(D):
根结点
, xm , ym
样本全集D 色泽=青绿
V1 1 2 x A { a , a , , a i1 x1 1 1 1 } xi1 x A {a1 , a 2 , , aV2 } xi 2 i 2 x2 2 2 2 where : xi ; Vd 1 2 x A { a , a , , a xid xd d d d } id yi Y {1 , 2 , ,N }
机器学习基础-总结
14
of
48
局部优选,学习的关键步骤
递归
当前结点包含的样 本集合为空,不能 划分③
算法的结果
机器学习基础-总结
15
of
48
三、决策树属性选择准则:
概率分布的平均信息量(信息熵)为:
ID3决策树学习算法(Quinlan 1986)。
Ent ( D) i 1 P i log 2 P i
012mmmtiiiiiiijjijiiijmiiiiilyxxstcim?????????????????????????????????????????????????????贝叶斯决策机器学习基础总结of5贝叶斯决策4827条件独立性假设
机器学习基础
总结
智能科学与技术系
刘冀伟
1
机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。 对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经 验E的改进后,它在任务T上由性能度量P衡量的性能有所提升。 学习任务T:定义为系统如何处理样本,样本是指收集到的已经量化的特征。常见任务: 分类、回归、输入缺失分类、机器翻译、结构化输出、转录、异常检测、合成采样。 性能度量P:针对系统执行的特定任务T、为了评估机器学习算法能力而提出。
P( y 1| x)=
e(W
) x
1+e
(W * )T x
; P( y 0 | x)
1
1+e
(W * )T x
机器学习基础-总结
10
of
48
2
五、多分类问题
一对一OvO 一对多OvR 多对多-(MvM):纠错输出编码(ErrorCorrecting Output Codes,ECOC) 为 一种多类分解框架
d
此时: x R ;W w1
w2
wd ; b R
T
为了方便引入符号:
x11 x 21 X xm1
x12 x22 xm 2
x1d x2 d xmd
T 1 x1 1 T 1 x2 1 = T 1 xm 1
根蒂=卷缩 内部结点
敲声=浊响
分支:属性取值
假设空间(H):树的集合-逻辑规则的合取 求决策树:T 叶结点
一个非叶结点: ={样本集,属性集
13
of
机器学习基础-总结
48
二、决策树生成算法:
已知条件
当前结点包含的样本全属于同 一类别,无需划分①
当前属性集为空或所有样本在所有属性上取值相同,无法划分②
六、性能度量方法
误差(error ) :学习器的预测输出与样例的真实输出间的差异称为误差,在训练集上的 误差称为训练误差(training error)或经验误差(empirical error),在新样本上的误差称为 泛化误差(generalizatiuon error) 。
机器学习基础-总结
5
of
6
of
48
2
一、单变量线性回归
f ( xi ) Wxi b f ( xi ) yi
性能评价-均方误差
W
*
, b Arg min f ( xi ) yi
*
m
2
w ,b
i 1 m
yi ( xi x ) W m m 1 2 i 1 xi m i 1 xi 1 m b i 1 yi Wxi m
一、特征空间
机器学习基础-总结
4
of
48
三、学习的任务-y=f(x)
回归:Y (0 1),是连续值集合,预测。 聚类:没有Y的信息。
有监督学习 无监督学习
强化学习 Y的信息不完全 泛化能力:学习的结果对新样本的适应能力,对样本空间的描述能力。
四、假设空间(H) 五、归纳偏好(奥卡姆剃刀、没有免费午餐)
N
Gain( D, v) Ent ( D) v 1
V
Dv D
Ent D v
C4.5决策树算法【Quinlan,1993】: Step1:从候选属性中提取信息增益高 定义数据集的基尼值: 于平均水平的属性构成待选属性集合A; N N 2 Gini ( D ) p p 1 p Step2:从待选属性集合A中选取增益 k 1 k ' k k k ' k 1 k 率最高的属性作为划分属性。 定义属性的基尼指数: v v v D D D V V Gini _ index( D, a) v 1 Gini D v IV (a) v 1 log 2 D D D
基于损失函数的剪枝算法: 输入:生成算法产生的树T,参数α; 输出:修剪后的树Tα ; Step1:计算每个叶节点的经验熵; Step2:递归从叶节点向上回缩,设一组叶节点回缩 到其父节点之前与之后的整体树分别为TB和TA,对 应的损失函数有:Cα(TA)≤ Cα(TB),则进行剪枝,将其 父节点变为新的叶节点。 Step3:返回Step2,直至不能继续为止,得到损失 函数最小的树Tα
ln y w x b
T
ye
联系函数
wT x b
xi Rd ; y 0 1
g:Y→Y’ ↓ y ↓ y’
概率模型:求条件分布P(Y|X)
取:p
1 1 e
W T x b
xi h x
T
y ' g ( y) w x b
W T xi T l (W ) i 1 lnP( yi | xi ;W )=i 1 yW xi ln 1 e i * T m m
i 1, 2,
,n
xi1 xi 2 where : xi X Rd ; xid yi {1 ,2 , ,k }
P( y | x) 1 y
假设空间(H):H={满足问题约束的 条件概率分布} 求:P(y=ωi|X=x) ; i=1,2,┄,k)
w1 W W wd b b
* T
y1 y2 y ym
1
w X X XT y y w
* T
均方误差: E (W ) y XW
T
y XW
W
六、最大熵模型多分类问题
已知-数据集合(D):
D x1 , y1 , x2 , y2 , , xm , ym
min H P x , y P( x) P( y | x) log P( y | x)
PC
s.t.
EP ( f i ) EP ( f i )
48
过拟合(overfitting)与欠拟合(underfitting) :导致学习器泛化功能下降的现象称为过拟合, 相对的为欠拟合。 查准率、查全率和F1: TP 混淆矩阵(Confusion Matrix) P 查准率(precision) TP FP 查全率(recall)
TP R TP FN
机器学习基础-总结
3
of
48
选择一组变量描述问题性质,称为特征变量(属性),特征变量组成的向量称为 特征向量,变量张成的空间称为特征空间(样本空间), 变量的取值称为属性值。 特征变量(属性)记为:xi,i=1、、d x1 特征空间记为:G x 特征向量记为: x 二、数据集合 d 样本:特征空间(样本空间)中的一组示例。记为:D={x1、x2 、、xm } 标记空间:标签变量或预测变量的取值集合,记为:Y 样例集合:特征向量与标签变量对集合,D={(x1、y1) 、(x2、y2) 、 、 (xm、ym) } 学习(训练)数据:在训练过程中使用的数据称为训练数据,每一个样例称为训练样本, 全体训练样本集合称为训练集(training set)。 测试数据(testing data):用于检测学习得到模型的数据称为检测数据,每一个样例称 为检测样本,全体检测样本集合称为检测集(testing set)。
机器学习基础-总结
17
of
48
五、连续值处理
前面我们讨论的是属性值为离散的情况, 但属性值是连续时,决策树方法就不能 使用。-------二分法
六、缺失值处理
实际问题中,经常会遇到缺失值问题即某些样本缺失某些属性值。 放弃这些样本-可惜! 希望有方法能充分利用这些数据! 要解决的问题-决策树 1、如何选择划分属性? 2、选择划分属性后,如何划分样本集 合?
七、模型评估方法 七、模型评估方法
留出法(hold-out) : 交叉验证法(cross validation)
2 P R F1 PR
自助法(bootstrapping): 调参与最终模型:
(1+ 2 ) P R F (1+ 2 ) P R
机器学习基础-总结
七、多变量决策树
能实现斜划分或更复杂的划分的决策树。 此时多变量决策树的非叶节点就不能仅 仅是一个属性,而是一个线性判别器或 非线性判别器。
机器学习基础-总结
18
of
48
八、回归树
最小二乘回归树生成算法: 输入:训练数据集D,属性集X,停止条件ε; Step1:选择最优划分变量xj 和划分点s,求解如下优化问题,得到{xj , s }
R1 ( j , s ) {x | x s }; R2 ( j , s ) {x | x s} ck ave( yi | xi Rk ( j , s )); k 1, 2
Step3:继续对每个子区域执行Step1和Step2,直至满足停止条件。 Step4:生成决策树: f ( x)
i 1
m
2
;
Arg min Βιβλιοθήκη W xi b yi T
2
w ,b
y f ( x) Wx b
1 m 其中: x i 1 xi m
i 1
E (W , b) f ( xi ) yi
i 1
m
2
机器学习基础-总结
8
of
48
2
二、多元线性回归
T
x
问题描述: W * arg min E (W ) arg min y XW
W
y XW
9
of
机器学习基础-总结
48
2
三、广义线性模型 四、Logistic回归
问题:已知D={(x1,y1), (x2,y2),…, (xm,ym)},其中 求y=f(x);其中 f 的值域为{0 1}
c m1 m I x Rm M
输入:决策树T,f(x)。
机器学习基础-总结
19
of
48
4支持向量机
2 2 min min yi c1 min yi c2 j ,s c c2 xi R2 ( j , s ) 1 xi R1 ( j , s )
j j
j , s
Step2:确定划分后各个划分区域的输出值:
CART决策树算法
of
机器学习基础-总结
16
48
四、剪枝
基于测试集剪枝的基本策略 预剪枝(prepruning):在决策树 生成过程中,对每一个节点在划 分前先进行估计,若当前节点的 划分不能带来决策树泛化性能的 提升,则停止划分,并标记当前 节点为叶节点。 后剪枝(post-pruning) :先生成 一颗完整的决策树,然后自底向 上对非叶节点进行考察,若将该 节点对应的子树替换为叶节点能 带来决策树泛化性能提升,则将 该子树替换为叶节点。
of
P Pw* ( y | x)
*
w* arg max ( w)
w
机器学习基础-总结
48
一、决策树
D x1 , y1 , x2 , y2 ,
已知-数据集合(D):
根结点
, xm , ym
样本全集D 色泽=青绿
V1 1 2 x A { a , a , , a i1 x1 1 1 1 } xi1 x A {a1 , a 2 , , aV2 } xi 2 i 2 x2 2 2 2 where : xi ; Vd 1 2 x A { a , a , , a xid xd d d d } id yi Y {1 , 2 , ,N }
机器学习基础-总结
14
of
48
局部优选,学习的关键步骤
递归
当前结点包含的样 本集合为空,不能 划分③
算法的结果
机器学习基础-总结
15
of
48
三、决策树属性选择准则:
概率分布的平均信息量(信息熵)为:
ID3决策树学习算法(Quinlan 1986)。
Ent ( D) i 1 P i log 2 P i
012mmmtiiiiiiijjijiiijmiiiiilyxxstcim?????????????????????????????????????????????????????贝叶斯决策机器学习基础总结of5贝叶斯决策4827条件独立性假设
机器学习基础
总结
智能科学与技术系
刘冀伟
1
机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。 对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经 验E的改进后,它在任务T上由性能度量P衡量的性能有所提升。 学习任务T:定义为系统如何处理样本,样本是指收集到的已经量化的特征。常见任务: 分类、回归、输入缺失分类、机器翻译、结构化输出、转录、异常检测、合成采样。 性能度量P:针对系统执行的特定任务T、为了评估机器学习算法能力而提出。
P( y 1| x)=
e(W
) x
1+e
(W * )T x
; P( y 0 | x)
1
1+e
(W * )T x
机器学习基础-总结
10
of
48
2
五、多分类问题
一对一OvO 一对多OvR 多对多-(MvM):纠错输出编码(ErrorCorrecting Output Codes,ECOC) 为 一种多类分解框架
d
此时: x R ;W w1
w2
wd ; b R
T
为了方便引入符号:
x11 x 21 X xm1
x12 x22 xm 2
x1d x2 d xmd
T 1 x1 1 T 1 x2 1 = T 1 xm 1
根蒂=卷缩 内部结点
敲声=浊响
分支:属性取值
假设空间(H):树的集合-逻辑规则的合取 求决策树:T 叶结点
一个非叶结点: ={样本集,属性集
13
of
机器学习基础-总结
48
二、决策树生成算法:
已知条件
当前结点包含的样本全属于同 一类别,无需划分①
当前属性集为空或所有样本在所有属性上取值相同,无法划分②
六、性能度量方法
误差(error ) :学习器的预测输出与样例的真实输出间的差异称为误差,在训练集上的 误差称为训练误差(training error)或经验误差(empirical error),在新样本上的误差称为 泛化误差(generalizatiuon error) 。
机器学习基础-总结
5
of
6
of
48
2
一、单变量线性回归
f ( xi ) Wxi b f ( xi ) yi
性能评价-均方误差
W
*
, b Arg min f ( xi ) yi
*
m
2
w ,b
i 1 m
yi ( xi x ) W m m 1 2 i 1 xi m i 1 xi 1 m b i 1 yi Wxi m
一、特征空间
机器学习基础-总结
4
of
48
三、学习的任务-y=f(x)
回归:Y (0 1),是连续值集合,预测。 聚类:没有Y的信息。
有监督学习 无监督学习
强化学习 Y的信息不完全 泛化能力:学习的结果对新样本的适应能力,对样本空间的描述能力。
四、假设空间(H) 五、归纳偏好(奥卡姆剃刀、没有免费午餐)
N
Gain( D, v) Ent ( D) v 1
V
Dv D
Ent D v
C4.5决策树算法【Quinlan,1993】: Step1:从候选属性中提取信息增益高 定义数据集的基尼值: 于平均水平的属性构成待选属性集合A; N N 2 Gini ( D ) p p 1 p Step2:从待选属性集合A中选取增益 k 1 k ' k k k ' k 1 k 率最高的属性作为划分属性。 定义属性的基尼指数: v v v D D D V V Gini _ index( D, a) v 1 Gini D v IV (a) v 1 log 2 D D D
基于损失函数的剪枝算法: 输入:生成算法产生的树T,参数α; 输出:修剪后的树Tα ; Step1:计算每个叶节点的经验熵; Step2:递归从叶节点向上回缩,设一组叶节点回缩 到其父节点之前与之后的整体树分别为TB和TA,对 应的损失函数有:Cα(TA)≤ Cα(TB),则进行剪枝,将其 父节点变为新的叶节点。 Step3:返回Step2,直至不能继续为止,得到损失 函数最小的树Tα
ln y w x b
T
ye
联系函数
wT x b
xi Rd ; y 0 1
g:Y→Y’ ↓ y ↓ y’
概率模型:求条件分布P(Y|X)
取:p
1 1 e
W T x b
xi h x
T
y ' g ( y) w x b
W T xi T l (W ) i 1 lnP( yi | xi ;W )=i 1 yW xi ln 1 e i * T m m
i 1, 2,
,n
xi1 xi 2 where : xi X Rd ; xid yi {1 ,2 , ,k }
P( y | x) 1 y
假设空间(H):H={满足问题约束的 条件概率分布} 求:P(y=ωi|X=x) ; i=1,2,┄,k)
w1 W W wd b b
* T
y1 y2 y ym
1
w X X XT y y w
* T
均方误差: E (W ) y XW
T
y XW
W
六、最大熵模型多分类问题
已知-数据集合(D):
D x1 , y1 , x2 , y2 , , xm , ym
min H P x , y P( x) P( y | x) log P( y | x)
PC
s.t.
EP ( f i ) EP ( f i )
48
过拟合(overfitting)与欠拟合(underfitting) :导致学习器泛化功能下降的现象称为过拟合, 相对的为欠拟合。 查准率、查全率和F1: TP 混淆矩阵(Confusion Matrix) P 查准率(precision) TP FP 查全率(recall)
TP R TP FN
机器学习基础-总结
3
of
48
选择一组变量描述问题性质,称为特征变量(属性),特征变量组成的向量称为 特征向量,变量张成的空间称为特征空间(样本空间), 变量的取值称为属性值。 特征变量(属性)记为:xi,i=1、、d x1 特征空间记为:G x 特征向量记为: x 二、数据集合 d 样本:特征空间(样本空间)中的一组示例。记为:D={x1、x2 、、xm } 标记空间:标签变量或预测变量的取值集合,记为:Y 样例集合:特征向量与标签变量对集合,D={(x1、y1) 、(x2、y2) 、 、 (xm、ym) } 学习(训练)数据:在训练过程中使用的数据称为训练数据,每一个样例称为训练样本, 全体训练样本集合称为训练集(training set)。 测试数据(testing data):用于检测学习得到模型的数据称为检测数据,每一个样例称 为检测样本,全体检测样本集合称为检测集(testing set)。
机器学习基础-总结
17
of
48
五、连续值处理
前面我们讨论的是属性值为离散的情况, 但属性值是连续时,决策树方法就不能 使用。-------二分法
六、缺失值处理
实际问题中,经常会遇到缺失值问题即某些样本缺失某些属性值。 放弃这些样本-可惜! 希望有方法能充分利用这些数据! 要解决的问题-决策树 1、如何选择划分属性? 2、选择划分属性后,如何划分样本集 合?
七、模型评估方法 七、模型评估方法
留出法(hold-out) : 交叉验证法(cross validation)
2 P R F1 PR
自助法(bootstrapping): 调参与最终模型:
(1+ 2 ) P R F (1+ 2 ) P R
机器学习基础-总结
七、多变量决策树
能实现斜划分或更复杂的划分的决策树。 此时多变量决策树的非叶节点就不能仅 仅是一个属性,而是一个线性判别器或 非线性判别器。
机器学习基础-总结
18
of
48
八、回归树
最小二乘回归树生成算法: 输入:训练数据集D,属性集X,停止条件ε; Step1:选择最优划分变量xj 和划分点s,求解如下优化问题,得到{xj , s }
R1 ( j , s ) {x | x s }; R2 ( j , s ) {x | x s} ck ave( yi | xi Rk ( j , s )); k 1, 2
Step3:继续对每个子区域执行Step1和Step2,直至满足停止条件。 Step4:生成决策树: f ( x)
i 1
m
2
;
Arg min Βιβλιοθήκη W xi b yi T
2
w ,b
y f ( x) Wx b
1 m 其中: x i 1 xi m
i 1
E (W , b) f ( xi ) yi
i 1
m
2
机器学习基础-总结
8
of
48
2
二、多元线性回归
T
x
问题描述: W * arg min E (W ) arg min y XW
W
y XW
9
of
机器学习基础-总结
48
2
三、广义线性模型 四、Logistic回归
问题:已知D={(x1,y1), (x2,y2),…, (xm,ym)},其中 求y=f(x);其中 f 的值域为{0 1}
c m1 m I x Rm M
输入:决策树T,f(x)。
机器学习基础-总结
19
of
48
4支持向量机
2 2 min min yi c1 min yi c2 j ,s c c2 xi R2 ( j , s ) 1 xi R1 ( j , s )
j j
j , s
Step2:确定划分后各个划分区域的输出值:
CART决策树算法
of
机器学习基础-总结
16
48
四、剪枝
基于测试集剪枝的基本策略 预剪枝(prepruning):在决策树 生成过程中,对每一个节点在划 分前先进行估计,若当前节点的 划分不能带来决策树泛化性能的 提升,则停止划分,并标记当前 节点为叶节点。 后剪枝(post-pruning) :先生成 一颗完整的决策树,然后自底向 上对非叶节点进行考察,若将该 节点对应的子树替换为叶节点能 带来决策树泛化性能提升,则将 该子树替换为叶节点。