线性回归与线性分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

线性回归与线性分类

1.线性回归

在温洲的一个房产网()我弄到了下面的一些数据:

现在我们以横轴表示房子面积,纵轴表示房子价格,画到坐标轴上:

现在问题来了,我想要一套200平方米的房子价格大概是多少呢?这时在数

据表中我又找不到到对应的数据。那么这时就要做线性回归分析了。如下图找到下面这样的一条直线,使图中的所有点到直线的距离最小(即使误差最小)。

下面我们用数学语言来表达“使图中的所有点到直线的距离最小”这句话。图中的(面积,价格)可以用坐标点(Xi,Yi)表示。数学中的直线方程解析式为:y=kx+b,现在我们用机器学习里的表达方式如下:

y=b+wx (在机器学习中b叫偏至,w叫超越平面参数)

这样的表达还不够统一,不方便计算,写成下式:

y’=w’x’,(w’=[1,w] x’=[1,x]).

现在我们继续把上面改写成向量形式,以便于推广到N维形式,改写成正式:

“使图中的所有点到直线的距离最小”用数学的语言描述如下:

上式叫误差平方和式,写成向量形式如下:

我们的目标是使J(W)最小,上式对W求导得:

W就是我们要求的结果了。把200平方米的代入式(1)就得到我们的估计房价了

这里的解有一个陷阱,不知道大家知道了没有。在分类问题中,我会提出一种要求更低的解决算法,即著名的感知机算法。

2.线性分类

什么是分类呢?下面我列出一些实际的分类任务如下:

1.识别图像中的人脸,非人脸。

2.识别正常邮件,垃圾邮件。

3.识别信贷中的正常行为,欺诈行为。

4.入侵检测中的系统的的正常访问跟非法访问。

5.……

一些符号说明如下:

以下图的两类分类问题为例,样本点的类别是已知的,并且两类样本点是线性可分的,

定义映谢:

求分类平面

使得:

为了便于计算,对(2)式进行扩展,定义:

所以式(2)式又可以简化为:

分类平面应该尽可能的把两类点集分开,即,使下式的平方误差最小:

依照回归的例子,我们有同样的结论:

上面的解要求

是正定的,也就是可逆的。现中的数据往往会不满足这一条件。

还好有个万金有的方法,梯度下降算法,梯度下降算法能得到局部最优解。我们先看一下,一元二次函数:

通过对上式求一阶导数,得到一下最优解:

X=-b/(2a)处是方程的一个最优解

现在我们随机给定一个初始的x,要经过怎么样的过程,或没什么方向才能靠近-b/(2a)这个解?答案就是没着,曲线y的梯度下降方向。

函数:

那么梯度定义如下:

算法的迭代式如下:

回到我们的问题也就是:

n是学习速率,n一般取0.01~0.2,一般我们会设定一个最大的迭次系数。

n过大会过快收敛,不利于达到局部的最优解,太小又会收敛太慢。

下面看一元二次函数应用的例子:

move1.gif

二值分类例子:

move2.gif

代码说明:

regression.m回归例子

movedemo1.m一元二次函数例子

lineperce.m二值分类例子

相关文档
最新文档