线性回归与线性分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
线性回归与线性分类
1.线性回归
在温洲的一个房产网()我弄到了下面的一些数据:
现在我们以横轴表示房子面积,纵轴表示房子价格,画到坐标轴上:
现在问题来了,我想要一套200平方米的房子价格大概是多少呢?这时在数
据表中我又找不到到对应的数据。那么这时就要做线性回归分析了。如下图找到下面这样的一条直线,使图中的所有点到直线的距离最小(即使误差最小)。
下面我们用数学语言来表达“使图中的所有点到直线的距离最小”这句话。图中的(面积,价格)可以用坐标点(Xi,Yi)表示。数学中的直线方程解析式为:y=kx+b,现在我们用机器学习里的表达方式如下:
y=b+wx (在机器学习中b叫偏至,w叫超越平面参数)
这样的表达还不够统一,不方便计算,写成下式:
y’=w’x’,(w’=[1,w] x’=[1,x]).
现在我们继续把上面改写成向量形式,以便于推广到N维形式,改写成正式:
“使图中的所有点到直线的距离最小”用数学的语言描述如下:
上式叫误差平方和式,写成向量形式如下:
我们的目标是使J(W)最小,上式对W求导得:
W就是我们要求的结果了。把200平方米的代入式(1)就得到我们的估计房价了
这里的解有一个陷阱,不知道大家知道了没有。在分类问题中,我会提出一种要求更低的解决算法,即著名的感知机算法。
2.线性分类
什么是分类呢?下面我列出一些实际的分类任务如下:
1.识别图像中的人脸,非人脸。
2.识别正常邮件,垃圾邮件。
3.识别信贷中的正常行为,欺诈行为。
4.入侵检测中的系统的的正常访问跟非法访问。
5.……
一些符号说明如下:
以下图的两类分类问题为例,样本点的类别是已知的,并且两类样本点是线性可分的,
定义映谢:
求分类平面
使得:
为了便于计算,对(2)式进行扩展,定义:
所以式(2)式又可以简化为:
分类平面应该尽可能的把两类点集分开,即,使下式的平方误差最小:
依照回归的例子,我们有同样的结论:
上面的解要求
是正定的,也就是可逆的。现中的数据往往会不满足这一条件。
还好有个万金有的方法,梯度下降算法,梯度下降算法能得到局部最优解。我们先看一下,一元二次函数:
通过对上式求一阶导数,得到一下最优解:
X=-b/(2a)处是方程的一个最优解
现在我们随机给定一个初始的x,要经过怎么样的过程,或没什么方向才能靠近-b/(2a)这个解?答案就是没着,曲线y的梯度下降方向。
函数:
那么梯度定义如下:
算法的迭代式如下:
回到我们的问题也就是:
n是学习速率,n一般取0.01~0.2,一般我们会设定一个最大的迭次系数。
n过大会过快收敛,不利于达到局部的最优解,太小又会收敛太慢。
下面看一元二次函数应用的例子:
move1.gif
二值分类例子:
move2.gif
代码说明:
regression.m回归例子
movedemo1.m一元二次函数例子
lineperce.m二值分类例子