第六章 非线性回归与logistic回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一)53例接受手术的前列腺癌患者情况
(二)26例冠心病病人和28例对照进行病例对照 研究
26例冠心病病人和28例对照者进行病例对 照研究
线性回归模型在定量分析的实际研究中是非常 流行的方法,但是在许多的情况下,因变量是一 个分类变量而不是一个连续变量,这时候线性回 归就不适用了。 许多社会科学的观察都只是分类的而不是连续 的。比如在经济学研究中所涉及的是否销售或购 买某种商品,这种选择度量通常分为两类,即 “是”与“否”;在社会调查研究中,对态度、 心理等的调查通常会分为几类,如“很满意”、 “满意”、“不满意”等; 从上面两个例子可以看到,我们要判断某种现 象发生的可能性,也就是要研究的社会现象发生 的概率的大小,比如是否买房,降雨的概率是多 少等等。
例
已知牧草重量y与生长天数x的关系是
y a exp{ exp{b cx}}
9次观察的数据为表4.13,试估计a,b,c的值,并 预报第101天牧草的重量。
data hw; input x y; cards; 9 8.93 14 10.8 21 18.59 28 22.33 42 39.35 57 56.11 63 61.73 70 64.62 79 67.08 ; proc nlp data=hw tech=nmsimp; min u; parms a=70,b=1.48884,c=0.05601; u=abs(y-a*exp(-exp(b-c*x))); run;
医学Baidu Nhomakorabea例
Brown(1980)在术前检查了53例前列腺 癌患者,拟用年龄(AGE)、酸性磷酸酯酶 (ACID)两个连续型的变量,X射线(X_RAY)、 术前探针活检病理分级(GRADE)、直肠指检 肿瘤的大小与位置(STAGE)三个分类变量与 手术探查结果变量NODES(1、0分别表示癌 症淋巴结转移与未转移 )建立淋巴结转移 的预报模型。
非线性回归过程NLIN
NLIN过程简介 PROC NLIN 选择项 ; MODEL 因变量=自变量表达式 ; PARAMETERS或PARMS 参数=数值 …… 参数=数值 ; BY 语句 ; BOUNDS 语句 ; (参数约束语句) DER 语句 ; (微商语句) OUTPUT OUT=SAS数据集,KEYWORD=变量名 …… RUN ;
NLIN应用举例
data bb; input x y wc; cards; 0.001 1.7834 0.032 0.01 1.6983 0.021 0.1 1.5536 0.016 1 1.1145 0.019 10 0.5734 0.023 100 0.2814 0.032 1000 0.1443 0.024 10000 0.0862 0.014 ; proc nlin data=bb method=newton; parms a=1.7 to 2 by 0.05 b=1.5 to 2.0 by 0.01 c=0.5 to 0.8 by 0.01 d=0.1 to 0.2 by 0.005; temp=(x/b)**c; temp1=temp+1; temp2=exp(x/b); model y= (a-d)/temp1+d ;
Logistic回归直接预测出事件发生的概率,这 同回归分析是不同的。 在估计模型的时候采用极大似然估计的迭代方 法,找到系数的“最可能”估计。
二、模型的参数估计
Logistic回归参数的估计通常采用最 大似然法(maximum likelihood,ML)。最大 似然法的基本思想是先建立似然函数与对数 似然函数,再通过使对数似然函数最大求解 相应的参数值,所得到的估计值称为参数的 最大似然估计值。
Logistic回归分析
例 1: 购房与家庭收入:在一次住房展销会上, 与房地产签定初步购房意向书的共有580名顾客, 在随后的3个月内只有一部分顾客购买了房屋,购 买了房屋的顾客记为1,没有购买房屋的顾客记为 0,将数据汇总可得下表。其中x表示家庭月收入; n表该种收入调查户数; r表示该种收入买房户数。 请问是否能判断家庭收入为48000元的顾客买房的 可能性?
非线性函数SSE往往有多个极小值。由“最 优化”理论可知,初估计对迭代的结果影响很 大,初估计不好,不仅收敛速度慢,而且可能 不收敛到最小值点。好的初估计不仅收敛速度 快,而且总能收敛到全局最小值点;好的初估 计称为优良初估计。通常求优良初估计,都是 将非线性参数化为线性参数而用线性回归求出。 即构造另一个线性回归模型,对同样的自变量, 响应变量和观测数据,线性回归模型的最优解 是非线性回归模型的优良初估计。
程序说明: 先将原始数据生成SAS数据集bb,选用牛顿法 (NEWTON)进行迭代计算,因而需求出y关于系数a、 b、c、d的一阶偏导数,如果需要求a、b、c、d的 二阶混合偏导数时,只准许给出1个der.a.b.或 der.b.a. ,不能同时给出2个。其它系数的混合 偏导数要求同样。在步长搜索法没指定时,缺省 值为SMETHOD=HVALVE,即各次迭代的步长k依次取 为k=1,0.5,0.25,…;在SMETHOD=后除选用 HVALVE外,还可选用GOLDEN(黄金分割法)、 ARMGOLD和CUBIC。
非线性回归模型
非线性回归模型
x1 ,...x p
定义:模型中参数不全是线性形式出现,则
y f ( x1 ,...x p , b0 , b1 ,...bk ))
称为非线性回归模型!随机误差项仍假设服 从正态分布!通常非线性回归模型简写成:
y f (x, )
非线性回归模型的参数估计
99.49 99.28 99.32 99.24 99.79 99.24 99.3 98.7 99.22
99.36 99.41 99.2 99.5
LAD回归
SAS软件可用NLP过程计算LAD回归,NLP过程主要有4条语句: PROC NLP语句、MIN(MAX)语句、PARMS语句和赋值语句。 1.PROC NLP语句一般形式是proc nlp data=文件名 tech=nmsinp; proc nlp用以调用NLP过程;data=说明所 用的数据,不可省略;tech=nmsimp指定用Nelder-Mead单 纯型法作最小一乘。 2.MIN(MAX)语句一般形式是min u;或max u或lsq u;用以 指定目标函数u取最小、最大。u只能是变量符号,不带运 算号。 3.parms语句一般形式是parms 赋值式,1赋值式2„;例如 parms a1=1.2,b2=0.3,c=5.4;用以指定待估参数a1 , b2和c,并给出初估计a1=1.2, b2=0.3, c=5.4。 4.赋值语句一般形式是u=表达式,例如u=abs(y(sin(a1*x1)+b2*cos(c+x2)));用以指定确定性部分 是sin(a1*x1)+b2*cos(c+x2),abs是绝对值函数.
X
预报概率
Logistic回归曲线 中心线
2.5
3.5
Pr(Y 1) ln ln =ln 优势 =ln( odds) 1 Pr(Y 0) log it ( ) 0 1 X 1 p X p Pr(Y 1) 优势= exp( 0 1 X 1 p X p ) Pr(Y 0) 如果 Pr(Y 1)=0.7,那么 Pr(Y 0)=0.3, 的0.7 / 0.3=2.33倍。
那么,事件发生Pr(Y 1)是事件不发生Pr(Y 0)比较
优势比改变exp(j)个单位
Pr (Y 1) (odds) 优势 1 Pr (Y 0) exp( 5.8896 0.6443 X 1 1.9169 X 8 ) 令X 2~X 8保持不变,年龄X 1改变1个单位( 岁), 10 如年龄从50岁提高到60岁(X 1分别为2, 3),患冠心病的 概率增加了exp (0.6443 (3 2)) 1.9047 2倍
参数估计的公式
三、回归参数的假设检验
优势比及其可信区间
标准化回归参数
用于评价各自变量对模型的贡献大小
四、回归参数的意义
当只有一个自变量时,以相应的预报 概率 为纵轴,自变量 X 为横轴,可绘 制出一条S形曲线。回归参数的正负符号与 绝对值大小,分别决定了S形曲线的方向与 1 形状
0.8 0.6 0.4 0.2 0 -2.5 -1.5 -0.5 0.5 1.5
b1 0 b2 b2 1 b3 b4 2 b6 2
b7
试建立经验回归公式 ?
data co2; input y0 t1 p1 t t2 p2 t3 y; cards; 97.2 -20 2.97 -8 39 97 -22 3.03 -6 41 3.24 96.6 -21 3.13 -6 40 96.7 -20 3.13 -4 41 95.7 -24 2.86 -4 36 96.8 -21 2.82 -3 38 97 -23 2.99 -3 36 2.94 96.6 -19 3.18 -3 39 96.9 -22 3 -3 36 93.6 -26 3.32 -3 32 96.5 -18 3.12 -3 37 93 -27 3.09 -3 29 3.25 94 -22 3.05 -3 36 3.33 96.7 -18 2.96 -3 38 97.2 -21 2.9 -3 35 95.7 -21 3.06 -3 39 98.2 -19 2.97 -3 36
一、logistic回归模型
概率预报模型
exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
1 1 exp[ ( 0 1 X 1 p X p )] 1 1 e
( 0 1 X 1 p X p )
;
应用举例
例 设国内某厂生产用提纯法生产高纯度食品级 , 设影响生产过程的指标有y0(进塔浓度 ),t1 (进塔温度),p1(塔顶压力),t(塔顶温度), t2(塔釜加热温度),p2(塔釜压力),t3(塔 釜温度),关心的产量指标为y(出塔浓度)。据 分析,它们间关系近似为:
y b0 y (t1 ) p (t ) t p (t3 )
为了估计未知参数的值.常用的方法是非 线性最小二乘法,有时也用非线性最小一乘法, 即LAD回归。非线性最小二乘法即选择合适的使 残差平方和最小从而估计的值。
由于是非线性形式出现,非线性最小二乘法 的解,一般没有线性情形那样的公式可用,只 能通过一个数学分支“最优化”的方法使SSE达 到极小。最优化的理论和方法非常丰富,有多 种方法使SSE达到极小。 无论哪种方法,都必须从一个预先给出的初 始估计出发,经过多次迭代,不断改善,达到 SSE近似极小,从而得到参数的近似最优估计-非线性最小二乘的近似最优解。由于计算量大, 只能编程用电脑来算,通常用专用软件计算。
例2: 北京市25年有关降雨资料如下 表,x1,x2,x3,x4是4个预报因子,y表示降雨 情况:y=1表示偏少,y=2表示正常,y=3表示 偏多。 试建立模型,并对于 1976 年(预报因 子为0.42 81.0 21.0 52.2),1977年(预 报因子为0.52 81.0 38.0 45.8),1978年 (预报因子为0.36 82.0 34.0 34.9), 1979年(预报因子为0.43 84.0 34.0 60.5) 预报降雨情况。
3.2 -16 3.36 3.35 3.03 2.92 -12 3.42 3.22 3.44 3.39 -23 -23 3.29 3.18 3.26 3.23
-13 99.4 -11 -9 -17 -18 99.87 -18 -18 -20 -20 98.73 98.93 -24 -23 -20 -20