Logistic模型及建模流程概述PDF.pdf
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Logistic 模型及建模流程概述
1. Logistic 模型介绍
1.1 问题的提出
在商业及金融领域中,存在这么一类问题,问题中需要被解释的目标量通常可以用YES 或者NO 两种取值来表示,如:
卖出了商品为YES ,未卖出商品为NO ;
顾客对超市的本次宣传活动做了响应为YES ,没有任何响应为NO ; 信用卡持卡人本月逾期付款为YES ,按时还款了为NO ; 等等;
对于这类问题的分析,我们不可以采用标准的线性回归对其进行建模分析,是因为 目标变量的二元分布违背了线性回归的重要假设
模型的目标是给出一个(0,1)之间的概率,而标准的线性回归模型产生的值是在这个范围之外 1.2 Logistic 模型
对于上述问题,我们提出了logistic 模型:
∑+=−i
i
i x P P βα)1ln(
∑+=−i i i x e P
P
βα1
∑+∑++=
i
i i i
i
i x x e
e
P βαβα1
Logistic 模型可以保证:
i x 值在- ∞和+ ∞之间;
估计出来的概率值在0和1之间;
与事件odds ()1/(p p odds −=)直接相关;
可以很好地将问题转化为数学问题,并且模型结果容易解释;
1.3 Logistics 回归的假设
概率是自变量的logistics 函数
)
exp(1)
exp(110110n n n n x x x x p ββββββ+⋅⋅⋅++++⋅⋅⋅++=
这样得到的概率似乎没有实际意义,只是反映一种趋势,x x n βββ+⋅⋅⋅++110比较大时p 就会比较大 取log 值得到:
logodds
这样可以线性化,我们把这模型称为‘linear in the log-odds ’
模型假设:
1) 没有重要变量被忽略,不包含使得系数有偏的相关变量
2) 不包含外来变量,包含的不相关变量会增加参数估计的标准误差,但是却不会
使得系数有偏。 观测值独立
自变量的观测值没有误差
1.4 最大似然准则
抛一枚硬币10次,结果如下:
T H T T T H T T T H
假设结果独立,考虑得到的结果的概率,P(T H T T T H T T T H) =
P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 [1-P(H)]7
,如果我们能计算出参数P(H)的值,就能得到掷硬币结果的概率的数值。
如果我们已知掷硬币的结果,如何得到P(H)的值呢? 假设P=P(H),y=硬币头像一面朝上的次数,n=掷硬币的次数 似然函数给出了掷硬币结果的似然值,它是P 的函数;
最大似然估计指出P 的最佳估计值是使得似然函数最大的值。
为了简化计算,代替最大化L(P),我们对L(P)取log 值,然后取最大值,log 是单调递增函数,这样使得L(P)最大的P 的值也是使得log (L(P))最大的值。
最大化log 似然函数,使: 解出P 值:
1.5 将最大似然估计用于logistics 回归
n n x x p p βββ+⋅⋅⋅++=⎪⎪⎭⎫
⎝⎛−1101log y
n y P P y P L −−=)1()|(y n y P P Y P L −−=)1()|(n y P
=ˆ
令Y=(y 1,y 2,y 3,…,y n )是随机变量(Y 1,Y 2,Y 3,…..Y n )的一组样本值, 然
后
似
然
函
数
可
以
写
成
∏=−−=
n
i y i y i i
i Y L 1
1)
1()(ππ
where
i I
Y P π=
=)1(,但是假如样本值不独立的话,此步骤就存在
问题。
对似然函数取log 值,得:
∏=−−=n
i y i y i
i
i Y l 1
1)
)
1(log()(ππ
∑=−−=n
i i y i y
i i
i
1
))1()1(log(πππ
∑∑==−+−=n
i n
i i i
i
i y 11)1log()1log(πππ 令
i i
i x 10)1log(ββππ+=−
Logistics 回归的似然等式
对上式的参数取导数:
()()
∑∑==++−+=n
i i n i i i x x y Y l 1
101
101
0)exp(1 )|,( ββββββ∑∑∑∑
====+++−=∂∂+++−=∂∂n i n
i i i i
i i n i n
i i i i x x x y x Y l x x y Y l 111010110111010010)
exp(1)
exp()|,()
exp(1)
exp()|,(ββββββββββββββ