第三章线性模型 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

其中 x = [1, x1 , · · · , xd ]T 和 w = [b, w1 , · · · , wd ]T 分别为 d + 1 维的增广特征向量和增广权重向量。在线性回归问题中，可以直接用 f (x, w) 来预测输出目标。但在分类问题中，由于输出目标是一些离散的标签或者是这些标签的后验概率（在 (0, 1) 之间），而 f (x, w) 的值域为实数，因此无法直接用 f (x, w) 来进行预测，需要引入
邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/
44
2017 年 10 月 12 日
第三章
线性模型
x1
w
T
x
+
b
=
0
w
x2
b ∥ ∥w
图 3.2: 两类分类线性判别函数。样本特征向量 x = [x1 , x2 ]，权重向量 w = [w1 , w2 ]。对于分类问题，使用线性回归算法来求解是不合适的。一是线性函数的输出值域和目标标签的值域不相同，二是损失函数很难定义。如果使用平方损失会导致比较大的误差。图3.3a给出了使用线性回归算法来解决一维的两类分类问题示例。为了解决连续的线性函数不适合进行分类的问题，我们引入非线性的 logistic 函数作为激活函数，来预测目标标签 y = 1 的后验概率。 p(y = 1|x) = σ (wT x)
第三章
线性模型
线性模型（Linear Model）是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型。上一章中介绍的线性回归就是典型的线性模型。给定一个 d 维样本 [x1 , · · · , xd ]T ，其线性组合函数为 f (x, w) = w1 x1 + w2 x2 + · · · + wd xd + b = wT x , (3.1) (3.2)
Logistic 函数相当于把线性函数的值域从实数区间“挤压”到了 (0, 1) 之间，可以用来表示概率。
1 , 1 + exp(−wT x)
(3.6)
其中 σ (·) 为 logistic sigmoid 函数，其值域为 (0, 1)。这样，标签 y = 0 的后验概率为 p(y = 0|x) = 1 − p(y = 1|x) = 将公式 (3.6) 进行变换后得到 wT x = log P (y = 1|x) 1 − P (y = 1|x) (3.9)
(3.5)
公式 (3.5) 定义了一个典型的两类分类问题的线性决策函数，其结构如图3.1所示。在高维的特征空间中，所有满足 f (x, w) = 0 的点组成用一个分割超平面（Hyperplane）。这个超平面将特征空间一分为二，划分成两个区域，每个区域
3.1Logistic 回归
2017 年 10 月 12 日
https://nndl.github.io/
(3.7) (3.8)
exp(−w x) . 1 + exp(−wT x)
T
邱锡鹏：《神经网络与深度学习》
3.1Logistic 回归
2017 年 10 月 12 日
45
1.5
2 y = 0.50·x+0.53
1 w = 6, b = 9 0.5 w = 10, b = 15 y
43
1 x1 x2 . . . xn
输入
b w1 w2 wn
权重
∑
激活函数
0/1
图 3.1: 两类分类的线性模型。
对应一个类别。因此，这个分割超平面也称为决策边界（Decision Boundary）或决策平面（Decision Surface）。在二维空间中，决策边界为一个直线。在三维空间中，分类界面为一个平面。在高维空间中，分类界面为一个超平面。对于分类问题，如果一个分类模型的决策边界是由样本特征 x 的线性函数 f (x, w) 构成，我们就称这个模型为线性分类模型，也叫线性分类器（Linear Classiﬁer）。线性函数 f (x, w) 也称为线性判别函数（Linear Discriminant Function）。图3.2中给了一个两维数据的线性判别函数以及对应的决策边界。对于线性判别函数来说，其权重向量与决策平面正交。对于线性分类模型来说，一个关键的问题是如何学习参数 w，也就是如何定义损失函数以及优化方法。在本章，我们主要介绍几种不同线性分类模型，包括 Logistic 回归，Softmax 回归，感知器和支持向量机。这些模型的参数学习方式也都不尽相同。
在统计文献中，g −1 (·) 也称为联系函数（Link Function）。
一个非线性的激活函数（Activation Function）g (·) 来预测输出目标。 g (x, w) = g (f (x, w)) = g (wT x). 对于简单的两类分类问题，g (·) 可以为阶跃函数： +1 当wT x > 0 g (x, w) = −1 当 w T x < 0 (3.3) (3.4)
数称为对数几率（log odds，或 logit）。而公式 (3.9) 的左边是线性函数， logistic 回归可以看作是预测值为“标签的对数几率”的线性回归模型。因此，logistic 回归也称为对数几率回归（Logit Regression）。
1
y 0
0
−1 −1.5 −1 −0.5 0 x 0.5 1 1.5
−0.5 −3
−2
−1 x
0
1
(a) 线性回归
(b) Logistic 回归
图 3.3: 一维两类问题示例 P (y = 1|x) , P (y = 0|x)
= log
(3.10)
(y =1|x) 其中 P P (y =0|x) 为样本 x 为正反例后验概率的比值，称为几率（odds），几率的对
超平面就是三维空间中的平面在更高维空间的推广。在 d 维空间中的超平面是 d − 1 维的。
3.1
Logistic 回归
我们先来介绍一个两类分类问题的线性模型：Logistic 回归（Logistic Regression）。两类分类问题中，预测的目标标签 y 只有两种取值，一般为 {0, 1} 或者 {−1, +1}。为了符合 logistic 回归的描述习惯，在本节中我们采用 y ∈ {0, 1}。