最小二乘法原理的几何解释
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
3
y = 0.5x + 1.8333
2
1
0
0
1
图 8
2
3
Macer
MCR
7
图 8 既不是行的角度, 也不是列的角度, 它只是问题的来源, 那如果从行的角度看方程(4), 是什么样子的,方程的每一行都是一条直线,三条直线不相交于一点,我们的解是图 9 中的 圆点,是中间三角形的重心?质心?不知道呀看起来有点像。
MCR
5
e
b
P
S
图 6
原来的方程为 Ax b 是无解的,我们用 P 代替 b 后, P 在 a1和 a2 所在的平面上,所以现在方程 ˆ P 就一定是有解的啦。 Ax
ˆ? 接下来到了最关键的时候了,怎么解出 x
我们知道, P 与 b 之间的误差为:
ˆ e b P b Ax
(5)
一但化成列的形式,我们就很自然想到把向量 a1 a2和b 画到图上。
Macer
MCR
4
bБайду номын сангаас
a1
a2
图 4
要找到解,就要找到 a1和 a2 的一个线性组合,使得组合后的向量刚好等于 b 。可惜的是任何的 只可能出现在 a1和 a2 所在的平面 S 上 (这个平面 S 就是传说中的向量空间) , a1和 a2 线性组合, 但是向量 b 不在平面 S 上,如图 5。不可能找到解,怎么办呢?
(2)
a1 a2
得到(3)式。
从列的方向看矩阵, 可以看到 a1 a2 b 三个列向量, 这样看还不是很明显, 干脆把(2)式再拆开,
Macer
MCR
1 1 3 -1 x1 1 x2 1 a1 x1 a2 x2 b
1 0 2
1 2 x1 1 2 x2 3 1 A x b
从列的角度看:
1 1 2 0 x 1 x 2 1 2 2 1 3 a1 x1 a2 x2 b
图 2
很神奇对不对,向量 a1 的 1 倍加上向量 a2 的 2 倍刚好等于向量 b ,而倍数 1 和 2,就是我们要求 的 x1 和 x2 。 那么从列的角度看线性方程组 Ax b 的解,就是为系数矩阵 A 里的每一列都寻找一个合适 的倍数,使每一列乘上这个倍数后再相加刚好等于向量 b ,这个倍数就是解。官方语言就是找 到 A 里的列向量的一个线性组合。只要学会了从列的角度看待一个线性方程组,接下的推导就 很简单了。
图 9
这里只是举了一个简单的不能再简单的例子来说明做小二乘法的原理。 它简单到可以画出列向 量的图,对于更高维的向量,列向量的图就画不出来了,但它任然存在于一个高维的空间里。
ˆ AT A AT b 任然适用。 公式 x
1
Macer
2
(3)
怎么拆的?矩阵乘法好像不是这个样子的!放心吧,矩阵乘法就是这个样子的,只是这种写法 我们在代几课上不常见, 但矩阵乘法的意义就是这个样子的。 表示向量 a1 的 x1 倍加上向量 a2 的
x2 倍等于向量 b 。 x1 和 x2 我们在看行图像的时候已经求出来了, x1 1, x2 2 。于是我们把向量 a1 ,向量 a2 和向量 b 画到图 2 上。
x2
x1
图 1
没什么大不了的,这谁都知道。但是怎么从列的角度看待线性方程组呢?我相信大部分人对从 列的角度看线性方程组是感到陌生的。 从列的角度看 先把方程(1)写成矩阵的形式,得到(2)式。
1 -1
1 x1 3 1 x2 1 b
1 1 0 2 ˆ x 0 1 1 1 2
1 1 2 1 1 0 2 5 3 8 1 1 1 1 2 3 3 7 3 1
为了从几何的角度解释最小二乘法,我们必须先回顾一下线性方程组的几何意义。线性方 程组可以从行和列两个角度看。我们先看行的角度。 从行的角度看 从这种角度看线性方程组是高中老师教我们的。请看以下方程组,它表示平面上的两条直 线。 x1 x2 3 直线 a (1) x1 x2 1 直线b 线性方程组的解就是这两条直线的交点, x1 1, x2 2 。
1 1 2 2 8 1 11 1 5 7 2 6 2 6
Macer
MCR
6
P
a2
11 6
a1
1 2
图 7
解出了最近似的解为(1/2,11/6)。从列的角度,我们就可以用 a1 和 a2 的线性组合来表示 P ,如 图 7 所示。 那么最优的直线的斜率和截距就是我们解出的 k=1/2,b=11/6=1.8333。如图 8。
b
S
a1
a2
图 5
找不到完美的解,就只能找到一个最接近的解。所以我们想在平面 S 上找一个最接近向量 b 的 向量来代替向量 b ,记这个替代品向量为 P 。就是过向量 b 的终点做平面 S 的垂线(也就是做 投影),垂足就是代替向量 P 的终点。 P 与 b 之间的误差 e b P 。
Macer
AT e 0
(6)
ˆ AT b ,这就是传说的超 ˆ 0 ,化简一下就是 AT Ax 把(5)带入(6)中,结果出来了, AT b Ax
ˆ AT A AT b 。 定方程的解法,这么简单就推出来了!所以最佳的近似解就是 x
1
这里你是否担心 AT A 不可逆?不会的, 只要 A 的每一列是线性无关的, 那么 AT A 就是一个可逆 的对称的方阵。这样,按公式解出的
MCR
1
最小二乘法原理的几何解释
这篇文章用通俗易懂的语言,从几何的角度解释了最小二乘法的解为什么是
ˆ AT A AT b , x 只要高中生的知识水平就可以了, 彻底颠覆代几老师那种枯燥的上课方式 !
1
请在安静的时候花上 10 多分钟看看,你的线性代数水平会上一个档次的,这是真的。
线性方程组的几何意义
要想使 P 与 b 之间的差距最小,那么 e 一定是垂直于平面 S 的,也就是要垂直于 a1 和 a2 。想一 想在高中时是怎么表示两个向量垂直的?只要他们的点乘等于 0 就行了。也就是 e a1 0, e a2 0 ,用矩阵表示出来就是 a1T e 0, a2T e 0 。即:
讲完了列的角度,终于要进入最小二乘法了!
Macer
MCR
最小二乘法的几何解释
我们从一个最简单的例子开始,已知平面上有 3 个点(1,2),(0,2),(2,3),
4 3 2 1 0 0 1 图 3 2 3
3
我们想用一条直线去拟合它。像高中时一样,设这条直线的方程为 y kx b 。我们希望这条直 线可以同时通过这三个点,也就是这条直线的参数要满足:
1 k b 2 0 k b 2 2 k b 3
从图 3 直观的看,没有一条直线可以同时过这三个点,所以这个方程是无解的。怎么解一个 无解的方程组呢?下面好戏开始了。为了表述方便,我们换一下符号,用 x1 表示 k ,用 x2 表 示 b 。即: 1 x1 x2 2 (4) 0 x1 x2 2 2 x x 3 1 2 写成矩阵的形式:
3
y = 0.5x + 1.8333
2
1
0
0
1
图 8
2
3
Macer
MCR
7
图 8 既不是行的角度, 也不是列的角度, 它只是问题的来源, 那如果从行的角度看方程(4), 是什么样子的,方程的每一行都是一条直线,三条直线不相交于一点,我们的解是图 9 中的 圆点,是中间三角形的重心?质心?不知道呀看起来有点像。
MCR
5
e
b
P
S
图 6
原来的方程为 Ax b 是无解的,我们用 P 代替 b 后, P 在 a1和 a2 所在的平面上,所以现在方程 ˆ P 就一定是有解的啦。 Ax
ˆ? 接下来到了最关键的时候了,怎么解出 x
我们知道, P 与 b 之间的误差为:
ˆ e b P b Ax
(5)
一但化成列的形式,我们就很自然想到把向量 a1 a2和b 画到图上。
Macer
MCR
4
bБайду номын сангаас
a1
a2
图 4
要找到解,就要找到 a1和 a2 的一个线性组合,使得组合后的向量刚好等于 b 。可惜的是任何的 只可能出现在 a1和 a2 所在的平面 S 上 (这个平面 S 就是传说中的向量空间) , a1和 a2 线性组合, 但是向量 b 不在平面 S 上,如图 5。不可能找到解,怎么办呢?
(2)
a1 a2
得到(3)式。
从列的方向看矩阵, 可以看到 a1 a2 b 三个列向量, 这样看还不是很明显, 干脆把(2)式再拆开,
Macer
MCR
1 1 3 -1 x1 1 x2 1 a1 x1 a2 x2 b
1 0 2
1 2 x1 1 2 x2 3 1 A x b
从列的角度看:
1 1 2 0 x 1 x 2 1 2 2 1 3 a1 x1 a2 x2 b
图 2
很神奇对不对,向量 a1 的 1 倍加上向量 a2 的 2 倍刚好等于向量 b ,而倍数 1 和 2,就是我们要求 的 x1 和 x2 。 那么从列的角度看线性方程组 Ax b 的解,就是为系数矩阵 A 里的每一列都寻找一个合适 的倍数,使每一列乘上这个倍数后再相加刚好等于向量 b ,这个倍数就是解。官方语言就是找 到 A 里的列向量的一个线性组合。只要学会了从列的角度看待一个线性方程组,接下的推导就 很简单了。
图 9
这里只是举了一个简单的不能再简单的例子来说明做小二乘法的原理。 它简单到可以画出列向 量的图,对于更高维的向量,列向量的图就画不出来了,但它任然存在于一个高维的空间里。
ˆ AT A AT b 任然适用。 公式 x
1
Macer
2
(3)
怎么拆的?矩阵乘法好像不是这个样子的!放心吧,矩阵乘法就是这个样子的,只是这种写法 我们在代几课上不常见, 但矩阵乘法的意义就是这个样子的。 表示向量 a1 的 x1 倍加上向量 a2 的
x2 倍等于向量 b 。 x1 和 x2 我们在看行图像的时候已经求出来了, x1 1, x2 2 。于是我们把向量 a1 ,向量 a2 和向量 b 画到图 2 上。
x2
x1
图 1
没什么大不了的,这谁都知道。但是怎么从列的角度看待线性方程组呢?我相信大部分人对从 列的角度看线性方程组是感到陌生的。 从列的角度看 先把方程(1)写成矩阵的形式,得到(2)式。
1 -1
1 x1 3 1 x2 1 b
1 1 0 2 ˆ x 0 1 1 1 2
1 1 2 1 1 0 2 5 3 8 1 1 1 1 2 3 3 7 3 1
为了从几何的角度解释最小二乘法,我们必须先回顾一下线性方程组的几何意义。线性方 程组可以从行和列两个角度看。我们先看行的角度。 从行的角度看 从这种角度看线性方程组是高中老师教我们的。请看以下方程组,它表示平面上的两条直 线。 x1 x2 3 直线 a (1) x1 x2 1 直线b 线性方程组的解就是这两条直线的交点, x1 1, x2 2 。
1 1 2 2 8 1 11 1 5 7 2 6 2 6
Macer
MCR
6
P
a2
11 6
a1
1 2
图 7
解出了最近似的解为(1/2,11/6)。从列的角度,我们就可以用 a1 和 a2 的线性组合来表示 P ,如 图 7 所示。 那么最优的直线的斜率和截距就是我们解出的 k=1/2,b=11/6=1.8333。如图 8。
b
S
a1
a2
图 5
找不到完美的解,就只能找到一个最接近的解。所以我们想在平面 S 上找一个最接近向量 b 的 向量来代替向量 b ,记这个替代品向量为 P 。就是过向量 b 的终点做平面 S 的垂线(也就是做 投影),垂足就是代替向量 P 的终点。 P 与 b 之间的误差 e b P 。
Macer
AT e 0
(6)
ˆ AT b ,这就是传说的超 ˆ 0 ,化简一下就是 AT Ax 把(5)带入(6)中,结果出来了, AT b Ax
ˆ AT A AT b 。 定方程的解法,这么简单就推出来了!所以最佳的近似解就是 x
1
这里你是否担心 AT A 不可逆?不会的, 只要 A 的每一列是线性无关的, 那么 AT A 就是一个可逆 的对称的方阵。这样,按公式解出的
MCR
1
最小二乘法原理的几何解释
这篇文章用通俗易懂的语言,从几何的角度解释了最小二乘法的解为什么是
ˆ AT A AT b , x 只要高中生的知识水平就可以了, 彻底颠覆代几老师那种枯燥的上课方式 !
1
请在安静的时候花上 10 多分钟看看,你的线性代数水平会上一个档次的,这是真的。
线性方程组的几何意义
要想使 P 与 b 之间的差距最小,那么 e 一定是垂直于平面 S 的,也就是要垂直于 a1 和 a2 。想一 想在高中时是怎么表示两个向量垂直的?只要他们的点乘等于 0 就行了。也就是 e a1 0, e a2 0 ,用矩阵表示出来就是 a1T e 0, a2T e 0 。即:
讲完了列的角度,终于要进入最小二乘法了!
Macer
MCR
最小二乘法的几何解释
我们从一个最简单的例子开始,已知平面上有 3 个点(1,2),(0,2),(2,3),
4 3 2 1 0 0 1 图 3 2 3
3
我们想用一条直线去拟合它。像高中时一样,设这条直线的方程为 y kx b 。我们希望这条直 线可以同时通过这三个点,也就是这条直线的参数要满足:
1 k b 2 0 k b 2 2 k b 3
从图 3 直观的看,没有一条直线可以同时过这三个点,所以这个方程是无解的。怎么解一个 无解的方程组呢?下面好戏开始了。为了表述方便,我们换一下符号,用 x1 表示 k ,用 x2 表 示 b 。即: 1 x1 x2 2 (4) 0 x1 x2 2 2 x x 3 1 2 写成矩阵的形式: