第5讲回归分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
回归分类
逻辑回归
2线性回归
1支持向量机
3朴素贝叶斯
4案例演示
5目 录CONTENTS
1chapter 线性回归
1chapter 1
chapter
单击此处编辑母版标题样式线性回归-定义与问题引入
线性回归(Linear regression )是线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
其表达形式为y = w'x+e ,e 为误差服从均值为0的正态分布。
只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
举例:房价预测-给出房价和房子面积,训练出模型,将来基于面积预测房子售价。
学习算法
模型新面积新房价
训练集
单击此处编辑母版标题样式
线性回归-模型定义
假设给定具有n个属性的属性向量的数据 ,我们利用属性的线性组合来进行预测,即
我们可以将其写成向量形式
其中 ,w和b就是该模型中我们要求的参数,确定w和b,该模型就得以确定。
我们将这样的模型称为线性模型。
我们的目标是,求得适当的w和b,使得S最小,其中S是预测值和真值的差距平方和,亦称为代价函数:
一般情况下,我们有两种方法来求解这个模型:最小二乘法和
梯度下降法
最小二乘法使用参数估计,将S看做一个关于w和b的函数,分别对w和b求偏导数,使得偏导数为0,由微积分知识知道,在此次可以取得S的最小值。
由这两个方程即可求得w和b的值。
梯度下降法的相当于我们下山的过程,每次我们要走一步下山,寻找最低的地方,那么最可靠的方法便是环顾四周,寻找能一步到达的最低点,持续该过程,最后得到的便是最低点。
对于函数而言,便是求得该函数对所有参数(变量)的偏导,每次更新这些参数,直到到达最低点为止,注意这些参数必须在每一轮一起更新,而不是一个一个更新。
局部最优
其中α是学习速率,可以控制收敛的速度,需要选择合适大小的,否者导致结果不收敛(α过大)或收敛过慢(α过小)
学习率α的影响
a为学习率,学习率决定了学习的速度:
- 如果a过小,那么学习的时间就会很长,导致
算法的低效,不如直接使用最小二乘法。
- 如果a过大,那么由于每一步更新过大,可能
无法收敛到最低点。
由于越偏离最低点函数的导数越大,如果a过大,某一次更新直接跨越了最低点,来到了比更新
之前更高的地方。
那么下一步更新步会更大,
如此反复震荡,离最佳点越来越远。
以上两种
情况如右图所示
单击此处编辑母版标题样式线性回归-数据属性转换
在进行建模之前,我们要先对数据集进行处理,使得其适合进行建模。
我们注意到,在线性模型中,属性值都是实数,那么会出现以下两种需要进行转化的情况
-属性离散,但是有序关系(可以比较)。
例如身材的过轻,正常,肥胖,过于肥胖,可以被编码为-1,0,1,2,从而转化为实数进行处理。
- 属性离散,但是无序关系(不可比较)。
例如国籍的中国人,美国人,日本人。
我们可以将取值有k种的值转化为k维向量,如上例,可以编码为
(1,0,0),(0,1,0),(0,0,1) 。
损失函数与模型评估
单击此处编辑母版标题样式
过拟合与欠拟合
过拟合是因为采用的模型过分在乎数据中的细节反而失去了对问题更一般本质的把握,导致模型的推广或泛化(generalization)能力比较差,如下右所示:单击此处编辑母版标题样式
欠拟合,高偏差比较合适过拟合,高方差与此对应,欠拟合是因为选择的模型过于简单,无法刻画出问题的本质,或者说只是找到了问题的部分本质,模型偏差太大,无法描绘问题的全貌,如上左所示。
偏差bias-方差variance权衡
•欠拟合,高偏差
•比较合适
•过拟合,高方差
单击此处编辑母版标题样式
欠拟合,高偏差比较合适过拟合,高方差
过拟合与正则化
单击此处编辑母版标题样式
1chapter 逻辑回归
1chapter 2
chapter
单击此处编辑母版标题样式对于连续值结果进行预测(线性回归),比如预测房价、预测寿命。
但是对于生活中常见的分类问题,比如判断病人是否患癌症、判断一封邮件是否是垃圾邮件等,能否使用线性回归来做呢?
逻辑回归(Logistic regression ): 是一种广义线性回归,实际上是一种分类器,能预测分类问题的类标号,使用一种特殊的函数将线性回归输出的连续值限定成在(0,1)之间的一个概率值,从而将回归问题转换为分类问题。
相比较于线性回归的连续型返回值,分类问题的标签Y 通常会有两个或者几个特定的类别。
逻辑回归-定义与问题引入
问:分类问题可以用线性回归来做吗?
单击此处编辑母版标题样式
右图问题:根据肿瘤大小判读肿瘤是良性还是恶性。
如采用线性回归的办法(Y 大于0.5恶性,反之良性),
会出现很多问题:线性回归的值很大,在整个实数域
上敏感度一样,但分类问题结果范围需要在[0,1]之间。
逻
辑回归是要减小预测值的范围,将预测值限定在
0-1之
间的一种回归模型。
Sigmoid 函数是一种非线性转换,可以实现实数域到
(0,1
)之间的转换。
举例
Sigmoid函数
单击此处编辑母版标题样式
单击此处编辑母版标题样式逻辑回归多分类
普通的logistic回归只能作用于二分类(Binary Classification)问题,怎么让其适应多分类问题呢?一般情况下,有两种方法可以做到:
第一种方式是直接根据每个类别,都建立一个二分类器,带有这个类别的样本标记为1,带有其他类别的样本标记为0。
假如是有限个类别,最后我们就得到了个针对不同标记的普通的logistic分类器。
第二种方式是修改logistic回归的损失函数,让其适应多分类问题。
这个损失函数不再笼统地只考虑二分类非1就0的损失,而是具体考虑每个样本标记的损失。
这种方法叫做softmax回归,即logistic回归的多分类版本(不在此处详细讨论)。
单击此处编辑母版标题样式
逻辑回归总结
logistic 回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)作为假设函数来预测。
g(z)可以将连续值映射到0和1上。
它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间。
当然了,把大值压缩到这个范围还有个很好的好处,就是可以消除特别明显的变量的影响。
逻辑回归支持二分类和多分类问题,支持连续和类别特征,但类别特征在字符串索引后需要进行one-hot 算子处理。
1chapter 支持向量机
1chapter 3
chapter
单击此处编辑母版标题样式
在机器学习中,支持向量机(SVM :Support Vector Machine )是一种二分类模型,其基本思想是:对于给定的数据集D 在样本空间中找到一个划分超平面,从而将不同类别的样本分开。
SVM 模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。
然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
除了进行线性分类(线性可分和线性不可分)之外,SVM 还可以使用所谓的核技巧有效地进行非线性分类
,将其输入隐式映射到高维特征空间中。
单击此处编辑母版标题样式
超平面 (hyperplane)
支持向量(support vector)
线性可分 (linearly separable)
线性不可分 (linearly inseparable )
单击此处编辑母版标题样式带核的SVM
对于线性不可分的数据集svm 该怎么做,在逻辑回归中,我们是采用高阶多项式来解决,但显然对于大量特征的数据集这显得有点力不从心,所以核函数就出现了,它的作用就是隐含着从低维空间到高维空间的映射,而这个映射可以将低维空间中的线性不可分的两类点变成线性可分。
本质上我们可以理解为解决了更复杂的数据分割问题。
这样做的好处在于:现在我们得到的新特征是
建立在原有特征与训练集中所有其他特征之间距
离的基础之上的,不会出现维灾难的问题。
单击此处编辑母版标题样式SVM优缺点及适用场景
SVM 优点:
1.SVM 在解决小样本,非线性以及高维特征中表现出许多特有的优势。
2.SVM 基于有限的样本信息在模型的复杂度和模型准确性之间寻求最佳折中,以获得最好的预测效果。
SVM 缺点:
1.在数据量大的情况下运算复杂度高,不适合处理过大的数据
2.模型稳定性低,输入的微小变化会使得模型难以收敛。
3.SVM 仅直接适用于二分类任务。
因此,必须应用将多类任务减少到几个二元问题的算法。
适用场景:
目前支持向量机主要应用在模式识别领域中的文本识别,中文分类,人脸识别等,同时也应用到信息过滤等方面。
1chapter 朴素贝叶斯
1chapter 4
chapter
单击此处编辑母版标题样式
贝叶斯公式
贝叶斯定理(Bayes' theorem )是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。
在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。
其中P(A|B)是在B 发生的情况下A 发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
P(A|B)是已知B 发生后A 的条件概率,也由于得自B 的取值而被称作A 的后验概率(posterior )。
P(B|A)是已知A 发生后B 的条件概率(likelihood),也由于得自A 的取值而被称作B 的后验概率。
P(A)是A 的先验概率(prior)(或边缘概率)。
之所以称为"先验"是因为它不考虑任何B 方面的因素。
P(B)是B 的先验概率或边缘概率(margin)。
按这些术语,贝叶斯定理可表述为:
后验概率 = (条件概率*先验概率)/
边缘概率
朴素贝叶斯算法
顾名思义,朴素贝叶斯是基于上文贝叶斯公式/理论建立的一种用于简单分类的算法,
前置模型:特征值条件独立
基本思想:对于给定的待分类项,求解在此项出现的条件下,统计计算各个类别出现的概率,取出现最大概率的作为此待分类项类别。
单击此处编辑母版标题样式
举例:比如你在大街上看到一个黑人,需要判断他是来自哪里?他可能是欧洲,美国,或者非洲,但我们的大脑潜意识根据“朴素贝叶斯”快速判断他最有可能来自非洲,为什么?因为黑人中非
洲的比例最高,概率最大,当然人家也有可能是来自美国美洲的黑人,但在没有其他信息情况下,我们选择当前条件概率最大的。
朴素贝叶斯工作流程
单击此处编辑母版标题样式
单击此处编辑母版标题样式
贝叶斯优缺点及适用场景
优点:
1.算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式即可!)
2.分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)
3.对缺失数据不太敏感,算法也比较简单,常用于文本分类,欺诈检测。
缺点:1.理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。
但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
而在属性相关性较小时,朴素贝叶斯性能最为良好。
1chapter 案例演示
1chapter 5
chapter
单击此处编辑母版标题样式
单击此处编辑母版标题样式
Q&A。