逻辑斯蒂回归(LogisticRegression)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逻辑斯蒂回归(LogisticRegression)
展开全文
本文是结合书来作出自己的理解和总结的,主要的参考书目是《统计学习方法》,后期的修改中,我会加入相关的其他书籍进来。
欢迎批评和指正~~
本文的思路是根据《统计学习方法》第一章所提到的:统计学习方法 = 模型+策略+算法的思路来讲的,所以,如果对于这个思路有疑问,自行看第一章。
本文主要介绍的是逻辑斯蒂模型的模型、策略和算法,至于最大熵模型,这里不予介绍。
首先会介绍逻辑斯蒂模型的基本模型,然后会介绍极大似然估计的基本原理和逻辑回归的策略并求出逻辑回归的目标函数,最后介绍梯度上升算法和逻辑回归目标函数的最优化。
1、逻辑斯蒂模型
1.1、逻辑斯蒂分布
为什么先讲逻辑斯蒂分布呢?因为我们的逻辑斯蒂模型就是根据逻辑斯蒂分布得到的,所以说逻辑斯蒂方法是属于判别方法,即知道了P(Y|X)的形式(当然,我们是不知道P(X,Y)的,要不然机器学习也就没有意义了。
),通过参数估计方法直接估计出参数,从而得到P(Y|X)。
下面给出《统计学习方法》上逻辑斯蒂分布的定义:
1.2、二项逻辑斯蒂回归模型
知道分布的定义之后,就是给出我们的逻辑斯蒂模型了:
这里需要注意的有两点:(1)最终的结果是通过比较P(Y=1|X)和P(Y=0|X)的大小来确定类别的;(2)b在这里其实可以看做是
w0x0,其中x0 = 1;(3)其实本质上这个就是一个二项分布,所以遵循二项分布的分布律。
1.3、事件的对数几率(log odds)
废话不说,还是看看统计学习方法上面的定义:
1.4、第一个结论
根据之前,我们就得到了两个定义:(1)逻辑回归模型;(2)事件的对数几率。
那么从这两个定义,我们可以得到什么推论呢?
也就是说,如果我的模型是逻辑回归模型,那么事件{Y=1|X}发生的对数几率就是输入X的线性函数(模型)。
所以只要知道了这个推论,我们是可以反推出逻辑斯蒂模型的形式的:
1.5、比较逻辑斯蒂模型和感知机
首先,很显然,这里的逻辑斯蒂模型可以看成是f(wx),也就是wx的函数:sigmoid函数,感知机则是sign函数。
2、逻辑斯蒂回归的策略
2.1、极大似然估计的基本思想
这部分请参考百度百科,我觉得百度百科上面已经讲的很好了。
2.2、通过极大似然估计推导逻辑回归的目标函数
这里我给出手写的推导:
3、目标函数的最优化算法:梯度上升
这部分的内容我会结合相关的代码来实现。
3.1、梯度的推导
还是给出手写的推导
3.2、逻辑回归代码的实现。