“Aha!”,用几何思维理解矩阵的“逆”和向量的“点积”

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

这是《机器学习中的数学基础》系列的第5篇。

人的一生总是需要许多“Aha!”(啊哈!)时刻,也就是让你顿悟的时刻。面对线性代数中

复杂的概念和公式,如果我们从几何的角度去审视它们,就好比我们拥有了上帝视角,可以

从大局上掌控它们,也可以更深入的理解它们的内涵。

先来看矩阵的逆。这里我们不会引入复杂的公式去介绍如何求矩阵的逆,我们要做的是,先

深入理解它,然后再去计算它。

我们已经知道,给定一个矩阵A,让它作用于向量x(矩阵乘以向量),得到一个新向量b,这是一个线性变换。现在我们反过来想,如果有一个向量b,需要构造一个矩阵,让b变成x,这当然也是一个线性变换。那么很明显,后面这个变换是前面的反向操作。我们就把这个反

向变换叫做矩阵A的逆。

说到这里,我们自然会有一个疑问,任何一个矩阵,都存在逆吗?

答案是否定的,有的矩阵是没有逆的。上一篇我们知道,矩阵的行列式表示经过线性变换后,基向量所围成面积的缩放倍数。那现在有一种情况是,矩阵的行列式为0,也就是说,经过

线性变换后,基向量所围成的面积是0。这又是一种什么情况呢?假设原来的基向量是二维的,那么一个矩阵的行列式是0,它的线性变换的作用,就是把原来二维的空间压缩为一维的。换句话说,就是把原来的平面压缩成了一条直线。我们可以把空间压缩,但是没办法把

空间扩大。也就是说,给你一个平面,你可以抛弃一些信息,把它压缩成一条直线。但是给

你一条直线,你却没办法把它再还原成一个平面,因为你的信息有限。

因此,当一个矩阵的行列式为0时,相当于空间进行了压缩(降维),而且没有办法进行逆

向操作(还原),此时该矩阵是没有逆的。

了解了逆的存在性,我们再来看下面这个式子:

左边是矩阵A的逆,右边是矩阵A,二者相乘,代表什么呢?之前我们说过,两个矩阵相乘,表示依次进行2个线性变换。对于上式,我们看到,先是矩阵A进行了一次线性变换,然后

A的逆又进行了一次变换,相当于变过来又变回去,等于没有进行任何变换。我们还知道,

从基的角度看,矩阵其实就是线性变换后的基。那对于上式来说,没有进行变换说明什么呢?说明基还是原来的基,基也没有发生变换。那原来的基是啥呢?对于二维矩阵来说,原来的

基就是向量(10)和向量(01)。那也就是说,我们可以用一个复合矩阵来代替上式两个矩

阵的积,来表达什么也没有做的变换。这个矩阵就是[10;01],表示如下:

我们把类似矩阵[10;01]这种,对角线为1,其余元素为0的矩阵叫做单位矩阵,记作I。因此,上式又可以表示为:

单位矩阵的作用其实就是表达了什么也不做的一种线性变换。

点积

接下来,我们来看向量的点积。先放个公式,看看两个向量的点积是啥意思:

一看式子就明白了,两个向量的点积,就是把各自对应的元素相乘,然后再求和。好像很容

易理解,也很好计算。那我们再看下面这个矩阵:

这也算矩阵吗?是的,只不过它只有1行,是一个1*2的矩阵。它其实就是向量(a,b)“放倒”之后的样子,我们给它起个学名叫“转置”。然后,用矩阵[a b]再乘以向量(c,d),等于

以矩阵的各列构造线性组合,其中权(系数)是向量的元素,即:

我们发现什么?我们发现它的结果和上面两个向量点积的结果一模一样啊。别忘了,矩阵是

一种线性变换,它可以被看做是基的变换。那这个矩阵[a b]代表什么?它就表示变换后的基

向量,只不过这里的基不再是向量,而是两个点。这又说明啥呢?这表明矩阵[a b]的线性变换,相当于把原来的一个向量变成了一个点,也就是说,相当于把一个向量投影到了数轴上。好,现在假定我们有一个向量w=(x,y),想把它投影到一个数轴上,那投影的长度怎么

算呢?这个投影作用的线性变换矩阵又是什么呢?我们画个图来解释下:

图1

如上图,现在我们需要求一个矩阵,它所产生的线性变换是把向量w投影到数轴上,也就是

投影到OP上。从基的角度看,我们要求的是原来的基向量投影到数轴上后,产生的新的基,如下图所示:

图2

如上图,i、j分别是原来的基向量,我们要求的新的基就是它们投影到数轴上的长度OM、ON。那到底怎么求呢?我们先把数轴也用单位向量来表示:

图3

如图3所示,向量k是数轴上的单位向量。我们分别作向量i到数轴的投影和向量k到x轴的投影,很容易看出来,这俩投影是相等的(向量i、j、k的长度都是1,都是单位向量)。也就是说,向量i到数轴的投影,竟然就是向量k的横坐标。同理,向量j到数轴的投影,就是向量k的纵坐标(大家可以自行画图哈)。这表明,产生投影这种线性变换的矩阵,就是数轴上单位向量k的横纵坐标!也就是说,任意一个向量w点乘数轴上的单位向量k,就会得到向量w在数轴上的投影!用公式表示就是w·k。那如果我们是任意两个向量点乘呢?比如w·p,注意到,其中任意一个向量总可以写成单位向量的倍数形式。例如把P写成λk,k 是单位向量,λ是p的长度(单位向量的长度总是1)。因此,w·p可以表示为λ(w·k),λ是向量p的长度,w·k是w在向量p方向上的投影。这也就是向量点积的几何意义。

我们再用图来说明一下:

图4

任意给定两个向量w和p,则w·p的几何意义就是w在p方向上的投影ON的长度乘以p的长度。用公式表示就是:

其中,α是两个向量的夹角。注意到,根据α的大小,向量的点积也有正负之分。当α<90°时,点积为正;当α>90°时,点积为负;当两个向量垂直时(α=90°),点积为0。

好了,这就是今天的全部内容。你“Aha!”了吗?

相关文档
最新文档