ALogistic回归中的加权最小二乘估计_何秀丽

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

参考文献:
[ 1] 陈希孺. 广义线性回归模型[ J] . 数理统计与管理, 2002, 21( 5) : 55~ 63. [ 2] 何晓群, 刘文卿. 应用回归分析[ M] . 北京: 中国人民大学出 版社, 2001. [ 3] 张尧庭等. 定性资料的统计分析[ M] . 桂林: 广西师范大学出版社, 1991. [ 4] 何其祥, 郑明. 一元线性模型异方差的 局部多 项式回 归[ J] . 系统 工程 理论方 法应 用, 2003, 12( 2) : 153~
为在xi 水平下的样本数) .

记y =
ln
p 1-
p
,0<
p<
1,
则 yc =
1 p( 1-
p ) , yci =
1 p i( 1-
pi ) ,
由引理可知, 当 { ni
B i = 1, 2, ,, N } 的每一个 ni 足够大时, 我们可把 yi 看作渐进正态分布. 即 ni y ] 时, ln
120. 768
5
25
500
406
0. 812
1. 463058
76. 328
6
30
500
449
0. 898
2. 175197
45. 798
在给定的水平下, 观测值重复的数目较大( 任意给定的 x i , ni = 500 ) , 所以 logistic 回归函 数能够描述瓶子回收时押金额和回收率之间的关系. 分析上表观测值, 我们用加权最小二乘拟
0 11 22
pp
( 4)
回归函数有两条渐近线 E ( y ) = 0 和 E( y ) = 1, 它保证 E ( y ) I [ 0, 1] , logistic 回归方程为
pi =
B0+ B1x i1+ B2x i2+ ,+ Bpx ip
1 +e e , i = B0+ B1x i1+ B2x i2+ ,+ Bpx ip
w
XN
加权离差平方和为
N
E Q =
Xi ( y i - B0 - B1xi 1 - ,- Bpx ip ) 2
( 8)
i= 1
加权最小二乘估计的矩阵可表示为 ^B= ( XcWX ) - 1XcWY. 利用估计的参数代入原 logistic 方程
作控制和预测: yi = ^B0 + ^B1xi 1 + ^B2x i2 + ,+ ^Bpxipm 则
pi 1- pi
~
AN
ln
p 1-
i
p
i
,
1 nip i ( 1 -
pi)
.
其 中 Var( yi )
=
1 nip i ( 1-
pi ) .
由 于 yi
的方 差为
1 nipi ( 1 -
pi) ,
Leabharlann Baidu
故可选权函数
Xi
=
1 Var( yi )
=
nip^ i ( 1- p^ i ) . 则权矩阵为
X1
W=
X2
Abstract:This paper introduces the logistic regression models. First it extends a kind of models that the dependent variable is dichotomous. Then estimates it through logistic function. But there are some shortcomings when predicting. We give the weighted least estimation based on the heteroscedasticity.
设因变量 y 是只取 0, 1 两值的虚拟变量, 考虑如下线性回归模型
yi = B0 + B1xi 1 + B2xi 2 + ,+ Bpxip + Ei
( 1)
其中 y i 为相互独立的随机变量且 p ( yi = 1) = Pi , p ( y i = 0) = 1- Pi . 因变量期望为
E( yi ) = B0 + B1x i1 + B2xi 2 + ,+ Bpx ip = Pi
^B0+ ^B1x i1+ ^B2x i2+ ,+ ^Bpx ip
p = 1+e e i
^B0+ ^B1x i1+ ^B2x i2+ ,+ ^Bpx ip
当 X 为列满秩阵时, ^B是 B的 BLUE. 下面我们给出 ^B是 B相合估计的充分条件.
定理
设 K是 W 的最大特征根,
X 是列满秩阵, 当 lim K( XcX )- 1 = ny ]
15 时, p =
e1+
2. 073+ 0. 135@ 15
e- 2. 073+ 0. 135@ 15
=
48. 8% , 即押金额为 15 美分时, 瓶子的回收率为 48.
8% .
增刊
何秀丽等: Logistic 回归中的加权最小二乘估计
147
Mo de l
表 2 Model Summary
R
R Square
应用数学 MATHEMATICA APPLICATA 2004, 17( 增) : 144~ 147
X Logistic 回归中的加权最小二乘估计
何秀丽, 刘次华
( 华中科技大学数学系, 湖北 武汉 430074)
摘要: 本文引入因变量是虚拟变量的回归模型, 并通过 logistic 函数拟合这种模型, 分
Adjusted R
1
. 992
. 984
. 981
a Predictiors: ( Constant) , X
Std. Error of t he Est imate
1. 7477613 574
Coefficients
Unst andardized Coeff icient s
Standardized
w
,
KcN 显然 Xici [ Kci y 0( n y ] ) . 即 X - 1 WXc- 1 y 0( n y ] ) , 故 ^Bn 为 B的相合估计.
根据问题的性质可将连续型随机变量变成二值的 y , 如可靠性统计中元件的寿命分布; y
还可取 1, 2, ,, g 多个值, 在心理学和医学上很常见, 如态度的/ 反对、中立、支持0等, 这时候要 通过条件 logistic 回归模型处理.
145
进行 logistic 变换
ln
pi 1 - pi
=
B0 +
B1x i1 +
B2xi 2 +
,+ Bpx ip
( 6)
将 yi 看作因变量, 则变换后的回归方程如下:
yi = B0 + B1xi 1 + B2xi 2 + ,+ Bpxip + Ei
( 7)
变换后的( 7) 为一普通线性回归模型. 上述回归方程可成功拟合因变量为虚拟变量的回归模
( 2) 当 ac2a = 0 时, n( T n - f ( L) ) 依概率收敛于 0, 且 n ( T n - f ( L) ) 的渐进分布与
1/ 2 LcWL 相同, L ~ N ( 0, 2) . 证明见文献[ 3] .
引理 2
在大样本下,
yi
的方差近似为
1 nipi ( 1 -
pi)
(
ni
t
Sig .
Co efficients
Model
B
St d. Error
Beta
1
( Constant )
- 2. 073
. 148
X
. 135
. 008
- 14. 0 . 000
35
15. 93
. 992
. 000
5
a Dependent Variable: Y b Weighted Least Squares Regression-weighted by
1, 2, ,, N
( 5)
N 有限, 为分组样本的组数. n = n1+ n2+ ,+ nN , ni 为第 i 组样本的容量. 下面对上述方程
X 收稿日期: 2004-05- 13 作者简介: 何秀丽 , 女, 华中 科技大学数学系硕士, 研究方向: 应用概率统计.
增刊
何秀丽等: Logistic 回归中的加权最小二乘估计
析它在控制和预测方面的不足之处. 在此基础上提出用加权最小二乘估计回归方程.
模拟结果表明, 此方法是可行的.
关键词: 虚拟变量; Logist ic 函数; 异方差性; 加权最小二乘法
中图分类号: O212. 1
AMS( 2000) 主题分类: 62J02; 62G05
文献标识码: A
文章编号: 1001- 9847( 2004) 增-0144-04
0 时, ^Bn 是 B的相合估
1 46
应用数学
2 004
计( ^Bn 仍然是p 维列向量, n 为样本容量) .

由于 ^Bn 是 B 的无偏估计,
X
为列满秩阵, 为证 lim P( | ny ]
^Bn -
B| \ E) = 0, 只须证
cov( ^Bn ) =
X - 1 WXc- 1 y 0 ( 当 n
=
5f 5t
i
,
,,
5f 5 tp
, a=
E 5f
5t
t=
;
L
52f 5 t 5 tc
=
52f 5 ti 5tj
,W=
52f 5 ti 5tj
; Tn = f
t= L
1 n
n
xi
i= 1
=
f ( xn ) .

( 1) 当 ac2a X 0 时, n( T n - f ( L) ) ~ AN ( 0, ac2a) ;
为得到模型的参数估计, 我们采用 logist ic 函数分析模型. 用 y i = 1 的概率代替 yi 本身作
为因变量, 构造一个满足上述限制的 logistic 函数[ 2] .
E( y) =
eB+ B x + B x + ,+ Bx
0 11 22
pp
1 + eB+ B x + B x + ,+ Bx
为了研究押金额对一种软饮料瓶子回收的效应, 进行了一次仔细控制的试验. 瓶子回收就
记为 1, 不回收就记为 0. 下面列出了按每一押金额( x ; 美分) 出售的 500 瓶( n; ) 中回收的数 目( m; ) :
表1
序号 押金额 xi ( 美分) 出售数 ni 回收数 mi
回收率 pi = mi/ ni
y
]
时) [ 4] . 由于 K=
max(
iI N
X1,
,,
XN ) ,
X1
X1 c1
X- 1WXc- 1 = X - 1
w
Xc- 1 =
w
,
XN
XNcN
其中 ci =
p
E b2ij , i = 1, 2, ,, N , bij 是X- 1 的第 i 行第j 列. 而
j= 1
Kc1
KX- 1Xc- 1 =
参数, 估计参数前先看下面引理.
引理 1 设 x 1, x 2, ,, xn , , 是 i. i. d, 均为 p @ 1 随机向量序列 E( xi ) = L, Var( x i ) = 2 ,
f(t)
=
f ( t1,
,, t2)

t ( p @ 1)
的函数,
有一、二、三阶连续偏导,
其中
5f 5t
型, 与一般线性回归模型不同的是具有异方差性. 通常情况下用两阶段法解决 logistic 回归中
的异方差性. 但是当 0 [ E( yi ) [ 0. 2 或 0. 8 [ E ( y i ) [ 1 时, 误差方差改变较多, 用加权最小 二乘更有意义; 且加权最小二乘增加阶段时, 权数得到进一步修正. 下面用加权最小二乘估计
156 . [ 5] 约翰内特等著, 张勇等译. 应用线性回归模型[ M] . 北京: 中 国统计出版社, 1990.
The Weighted Least Estimation of Logistic Models
HE Xiu-li , LIU Ci-hua ( Mathematics Department , Huazhong University of Science and Technology , Wuhan 430074, China)
( 2)
即自变量水平为 xi 时y i = 1 的概率恰好是回归模型中因变量的期望. 与经典线性回归模型相 比, 上述模型在参数估计中违反下列条件:
1. 误差项不服从正态分布. Ei = y i - E ( yi ) 取值 1 - Pi 或 Pi , 为离散型两点分布. 2. 存在异方差性. yi - Ei = Pi 为常数, 故
合 yi 和x i 的关系, 得到如下的经验回归函数 y i = - 2. 073+ 0. 135x , 决定系数 R2 = 0. 984 且
高度显著. 输出结果如下: 转换成原 Logist ic 回归方程
p=
e- 2. 073+ 0. 135x 1 + e- 2. 073+ 0. 135x
当x =
Var( Ei ) = Var( yi ) = E( yi ) [ 1 - E ( yi ) ]
( 3)
方差依赖于 xi , 随着 x 的不同水平而变化. 3. 因变量的期望受到限制. E( yi ) = Pi I [ 0, 1] , 一般的线性回归模型中 E( yi ) I R , 并
不受到这种限制.
逻辑变换 yi = ln
pi 1- p i
权数 Xi = nipi (1 - pi)
1
2
500
72
0. 144
- 1. 78246
61. 632
2
5
500
103
0. 206
- 1. 34921
81. 782
3
10
500
170
0. 34
- 0. 66329
112. 2
4
20
500
296
0. 592
0. 372239
相关文档
最新文档