第三章线性模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中 x = [1, x1 , · · · , xd ]T 和 w = [b, w1 , · · · , wd ]T 分别为 d + 1 维的增广特征向 量和增广权重向量。 在线性回归问题中,可以直接用 f (x, w) 来预测输出目标。但在分类问题 中,由于输出目标是一些离散的标签或者是这些标签的后验概率(在 (0, 1) 之 间) ,而 f (x, w) 的值域为实数,因此无法直接用 f (x, w) 来进行预测,需要引入
邱锡鹏:《神经网络与深度学习》 https://nndl.github.io/
44
2017 年 10 月 12 日
第三章
线性模型
x1
w
T
x
+
b
=
0
w
x2
b ∥ ∥w
图 3.2: 两类分类线性判别函数。样本特征向量 x = [x1 , x2 ],权重向量 w = [w1 , w2 ]。 对于分类问题,使用线性回归算法来求解是不合适的。一是线性函数的输 出值域和目标标签的值域不相同,二是损失函数很难定义。如果使用平方损失 会导致比较大的误差。图3.3a给出了使用线性回归算法来解决一维的两类分类 问题示例。 为了解决连续的线性函数不适合进行分类的问题, 我们引入非线性的 logistic 函数作为激活函数,来预测目标标签 y = 1 的后验概率。 p(y = 1|x) = σ (wT x)
第三章
线性模型
线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本 特征的线性组合来进行预测的模型。上一章中介绍的线性回归就是典型的线性 模型。给定一个 d 维样本 [x1 , · · · , xd ]T ,其线性组合函数为 f (x, w) = w1 x1 + w2 x2 + · · · + wd xd + b = wT x , (3.1) (3.2)
Logistic 函 数 相 当 于 把 线性函数的值域从实数 区间“挤压”到了 (0, 1) 之间,可以用来表示概 率。
1 , 1 + exp(−wT x)
(3.6)
其中 σ (·) 为 logistic sigmoid 函数,其值域为 (0, 1)。 这样,标签 y = 0 的后验概率为 p(y = 0|x) = 1 − p(y = 1|x) = 将公式 (3.6) 进行变换后得到 wT x = log P (y = 1|x) 1 − P (y = 1|x) (3.9)
(3.5)
公式 (3.5) 定义了一个典型的两类分类问题的线性决策函数, 其结构如图3.1所 示。在高维的特征空间中,所有满足 f (x, w) = 0 的点组成用一个分割超平面 (Hyperplane)。这个超平面将特征空间一分为二,划分成两个区域,每个区域
3.1Logistic 回归
2017 年 10 月 12 日
https://nndl.github.io/
(3.7) (3.8)
exp(−w x) . 1 + exp(−wT x)
T
邱锡鹏:《神经网络与深度学习》
3.1Logistic 回归
2017 年 10 月 12 日
45
1.5
2 y = 0.50·x+0.53
1 w = 6, b = 9 0.5 w = 10, b = 15 y
43
1 x1 x2 . . . xn
输入
b w1 w2 wn
权重
∑
激活函数
0/1
图 3.1: 两类分类的线性模型。
对应一个类别。因此,这个分割超平面也称为决策边界(Decision Boundary) 或决策平面(Decision Surface)。在二维空间中,决策边界为一个直线。在三 维空间中,分类界面为一个平面。在高维空间中,分类界面为一个超平面。 对于分类问题,如果一个分类模型的决策边界是由样本特征 x 的线性函数 f (x, w) 构成, 我们就称这个模型为线性分类模型, 也叫线性分类器 (Linear Classifier) 。 线性函数 f (x, w) 也称为线性判别函数 (Linear Discriminant Function) 。图3.2中给了一个两维数据的线性判别函数以及对应的决策边界。对于线性判 别函数来说,其权重向量与决策平面正交。 对于线性分类模型来说,一个关键的问题是如何学习参数 w,也就是如何 定义损失函数以及优化方法。 在本章, 我们主要介绍几种不同线性分类模型, 包 括 Logistic 回归,Softmax 回归,感知器和支持向量机。这些模型的参数学习方 式也都不尽相同。
在 统 计 文 献 中,g −1 (·) 也称为联系函数(Link Function)。
一个非线性的激活函数(Activation Function)g (·) 来预测输出目标。 g (x, w) = g (f (x, w)) = g (wT x). 对于简单的两类分类问题,g (·) 可以为阶跃函数: +1 当wT x > 0 g (x, w) = −1 当 w T x < 0 (3.3) (3.4)
数称为对数几率(log odds, 或 logit)。而公式 (3.9) 的左边是线性函数, logistic 回归可以看作是预测值为“标签的对数几率”的线性回归模型。因此,logistic 回归也称为对数几率回归(Logit Regression)。
1
y 0
0
−1 −1.5 −1 −0.5 0 x 0.5 1 1.5
−0.5 −3
−2
−1 x
0
1
(a) 线性回归
(b) Logistic 回归
图 3.3: 一维两类问题示例 P (y = 1|x) , P (y = 0|x)
= log
(3.10)
(y =1|x) 其中 P P (y =0|x) 为样本 x 为正反例后验概率的比值,称为几率(odds),几率的对
超平面就是三维空间中 的平面在更高维空间的 推广。在 d 维空间中的超 平面是 d − 1 维的。
3.1
Logistic 回归
我们先来介绍一个两类分类问题的线性模型:Logistic 回归(Logistic Regression)。两类分类问题中, 预测的目标标签 y 只有两种取值, 一般为 {0, 1} 或 者 {−1, +1}。为了符合 logistic 回归的描述习惯,在本节中我们采用 y ∈ {0, 1}。