机器学习-2-线性模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
w X X XT y
* TBiblioteka Baidu1
讨论 X T X 的情况:
X X
T
1
存在 不存在
X X
T
1
y w
* T

x
机器学习基础-第二章线性模型
10
of
48
2.2
三、广义线性模型
ln y w x b
T
ye
wT x b
联系函数 g:Y→Y’ ↓ ↓ y y’
xi h x




机器学习基础-第二章线性模型
18
of
48
多项Logistic回归:前面介绍的是二项分类模型,用于二分类问题。我们可以将其推 广到用于多分类问题的多项对数几率回归。问题的概率模型为:
P ( y k | x ;W )
eWk x 1 k 1 e 1 1 k 1 e
K 1 W x k K 1 W x k
y ' g ( y) wT x b
机器学习基础-第二章线性模型
11
of
48
线性回归完成的任务是预测,能否使用回归的方法完成分类的任务? 问题:已知D={(x1,y1), (x2,y2),…, (xm,ym)}, 其中 xi Rd ; y 0 1 求y=f(x);其中 f 的值域为{0 1} 判别函数模型
w1 x1 w x 2 2 where : W ;x ;b R wd xd
机器学习基础-第二章线性模型
5
of
48
2.2
已知-数据集合(D):
一、单变量线性回归
, xm , ym
D x1 , y1 , x2 , y2 ,
机器学习基础-第二章线性模型
17
of
48
W arg max l (W )
* W
l (W ) i 1 lnP( yi | xi ;W )=i 1 yW xi ln 1 e i
m m T

W T xi

牛顿法:
W k 1 W k Hk1gk
( l W) m gk i 1 xi yi p1 ( xi ;W ) W 2 ( l W) m T Hk x x p1 ( xi ;W ) 1 p1 ( xi ;W ) T i 1 i i W W
机器学习基础
第二章线性模型
智能科学与技术系
刘冀伟
1
目录 CONTENT
1 2 3 4 5 6
基本形式 线性回归 对数几率回归
线性判别分析
多分类学习
最大熵模型
邮箱:jqxxbkd@sina.com Pass:jqxxbkd2017
给定由d个属性描述的对象x=(x1,x2, …, xd) 及我们感兴趣的对象输出属性y 假设y与x相关,求y与x的关系: 即:y=f(x)

牛顿法: 输入:目标函数 f(x),梯度函数g(x),汉森矩 阵H(x),精度ε; 输出: f(x)的极小值点x*; (1)取初始值x(0),置k=0; (2)计算梯度gk=g(x(k)) ; (3) 当|gk|< ε时,停止迭代,近似解x*=x(k); (4)计算Hk=H(x(k)),解方程Hkpk=-gk (5)置 x(k+1)= x(k) + pk (6)置k=k+1,转(2)
线性模型:
例:转炉炼钢,已知: 铁水 x1=23t 废钢 x2=5t 吹氧量 x3=235l 吹氧时间 x4=595s
出钢温度 T?
f ( x) w1 x1 w2 x2 w3 x3 +w4 x4 b WT x b
T=f(x1,x2, x3,x4)
w1 x1 w x2 2 where : W ;x w3 x3 w4 x4
1 y f ( x) 0
1 y 1+e z
x D1 x D0
机器学习基础-第二章线性模型
13
of
48
概率模型:求条件分布P(Y|X)
p P( y 1| x) 1 p P( y 0 | x)
事件的几率:事件发生的概率与 事件不发生的概率之比。 1 取: p W T x b 1 e
1、数据整理和问题分解 (1)样本集合分类
D1 xi | xi , yi D y 1 D2 Z1 Z2
i i i
x | x , y D y 0 w x | x , y D y 1 w x | x , y D y 0
y1 y2 y ym
问题描述: W arg min E (W ) arg min y XW
W

y XW
T
9
of
机器学习基础-第二章线性模型
48
2.2
E ( w) T y Xw y Xw w w T ( y y y T Xw wT X T y wT X T Xw) w 2X T y 2X T Xw 2X T ( Xw y )=0
0
x arg min f ( x)
* xRn
当目标函数是凸函数时,梯度下降 法的解是全局最优解,一般情况不 能保证全局最优。
(4)置 x(k+1)= x(k)+ λkpk,计算 f(x(k+1)) | f(x(k+1)) - f(x(k)) |< ε 或| x(k+1) -x(k) |< ε 停止迭代,令 x*=x(k+1); (5)否则置k=k+1,转(3)


yi ( xi x ) W m m 1 2 i 1 xi m i 1 xi 1 m b i 1 yi Wxi m
i 1

m


2
;

y f ( x) Wx b
1 m 其中: x i 1 xi m
机器学习基础-第二章线性模型
8
, k 1, 2,
, K 1
P ( y K | x ;W )
机器学习基础-第二章线性模型
19
of
48
2.4线性判别分析
一、基本思路
图中w1方向之所以比w2方向优越,可以 把X 空间各点投影到X 空间的一直线上(Z), 归纳出这样一个准则,即向量w的方向 维数降为一维。若适当选择w的方向,可以 选择应能使两类样本投影的均值之差尽 使二类分开。下面我们从数学上寻找最好的 可能大些,而使类内样本的离散程度尽 投影方向,即寻找最好的变换向量w的问题。 可能小。这就是Fisher准则函数的基本 思路。
Fisher准则的基本原理, 就是要找到一个最合适的投 影轴,使两类样本在该轴上 投影的交迭部分最少,从而 使分类效果为最佳。
机器学习基础-第二章线性模型
of
48
2.4线性判别分析
二、问题的形式化
已知-数据集合(D):
D x1 , y1 , x2 , y2 , , xm , ym xi1 xi 2 where : xi R d ; yi {0, 1} xid
f ( xi ) Wxi b f ( xi ) yi
性能评价-均方误差
xi1 xi 2 where : xi R d ; yi R xid 假设空间(H):
H f f ( x) W x b,W , x R , b R
m
WT x b
= i 1 P( yi 1| xi ;W , b)
m
yi
W T x b

P( yi 0 | xi ;W , b)
1 yi
机器学习基础-第二章线性模型
14
of
48
取 W , x 如多元回归。
P( y 1| x;W )=
m
e
WT x WT x
1+e
; P( y 0 | x ; W )
m
1 1+e
WT x
W T xi T 对数似然函数为: l (W ) lnP( yi | xi ;W )= yW xi ln 1 e i 1 i 1 i
* W arg max l (W ) 梯度下降法、牛顿法等数值算法求解 求解优化问题,得到解: W


概率模型:
P( y 1| x)=
e
(W * )T x (W )
* T
1+e
; P ( y 0 | x ) x
1 1+e
(W * )T x
机器学习基础-第二章线性模型
15
of
48
梯度下降法(gradient descent): 是一种求解无约束优化问题的常用 方法,其基本思想是对于最小化问 题,沿目标函数下降最快的方向, 逐步搜索直到最小值点。 问题:f 是Rn上具有一阶连续偏导 数的函数。
梯度下降法: 输入:目标函数 f(x),梯度函数g(x),精度ε; 输出: f(x)的极小值点x*; (1)取初始值x(0),置k=0; (2)计算 f(x(k)); (3)计算梯度gk=g(x(k)),当|gk|< ε时,停止迭代 x*=x(k);否则令pk=-g(x(k))求λk使:
f ( x k k pk ) min f ( x k pk )
7
of
48
2.2
参数估计-最小二乘法
E W , b E W , b 由: 0; 0 W b
得:
E (W , b) m m 2 2 W i 1 xi i 1 ( yi b) xi 0; W E (W , b) m 2 mb i 1 yi Wxi 0 b
P( y 1| x;W , b)=
e
W T x b W T x b
1+e
P( y 0 | x;W , b)
1 1+e
W T x b
用极大似然法估计参数W,b。
p ln ln 1 e 1 1 p 1
1 e
1
W T x b

L(W , b) i 1 P( yi | xi ;W , b)
16
of
机器学习基础-第二章线性模型
48
牛顿法:
问题:f 是Rn上具有二阶连续偏导 数的函数。
x* arg min f ( x)
xRn
k
T f ( x) f ( x ) g k x x

k

1 k x x 2


T
H k x x

k

f ( x)=g k H k x x k f ( x) 0 x k 1 x k H k1 g k
of
48
2.2
二、多元线性回归
d 此时: x R ;W w1
w2
wd ; b R
T
为了方便引入符号:
x11 x21 X xm1
x12 x22 xm 2
x1d x2 d xmd
均方误差: E (W ) y XW
*

y XW
T W
T 1 x1 w1 1 T W 1 x2 1 W = wd b T 1 xm 1 b
T d
W

*
, b Arg min f ( xi ) yi
*
m
2
w ,b
i 1 m

Arg min W xi b yi
T
2
w ,b
i 1
求:W 和 b
E (W , b) f ( xi ) yi
i 1
m
2
机器学习基础-第二章线性模型
4
of
机器学习基础-第二章线性模型
48
线性模型:
f ( x) w1 x1 w2 x2 W x b
T
wd xd b
只要求得参数W,b,就可以完成有数据 (经验)获得预测模型的工作 如何求W,b 线性模型: 1、成分的组合; 2、预测变量与属性变量之间有相关关系; 3、线性回归是基本形式,由此可以获得 许多其他有用的学习算法。
相关文档
最新文档