关于回归预测模型的稳健性研究_汪琥庭

合集下载

回归预测模型的主要研究内容

回归预测模型的主要研究内容

回归预测模型的主要研究内容包括以下几个方面:
1.变量选择:识别重要的变量,确定哪些变量对预测目标有影响,
以及哪些变量是预测模型的自变量。

2.相关性分析:判断自变量与因变量之间的相关性,确定其是正
相关还是负相关。

3.模型建立:通过回归分析,建立回归预测模型,对自变量与因
变量之间的关系进行定量描述,拟合数据点,估计回归系数。

4.模型评估:通过各种评估指标,如均方误差、决定系数等,对
回归预测模型的预测效果进行评估。

5.模型优化:根据模型评估结果,对模型进行优化,提高预测精
度。

6.解释性分析:解释回归预测模型的预测结果,为决策提供依据。

7.应用研究:将建立的回归预测模型应用于实际问题中,解决实
际问题。

稳健回归分析

稳健回归分析

稳健回归分析
统计学中经常使用的一种方法——回归分析,它主要是用来研究自变量和因变量之间的关系。

在实际应用中,我们通常会遇到的问题是自变量和因变量之间的关系不是线性的,那么如何处理这种非线性关系呢?这就需要用到稳健回归分析。

稳健回归分析(Robust Regression Analysis)是一种用于研究自变量和因变量之间关系的方法,主要是通过对异常点进行处理,来得到更为准确的预测结果。

在回归分析中,异常点会对结果产生很大的影响,因为它们可能代表着真实数据中的异常情况,而传统的回归分析方法并没有对这种异常情况进行处理,因此得到的结果可能不太可靠。

而稳健回归则通过使用不同的算法来削弱异常点的影响,从而得到更为准确的结果。

稳健回归分析主要有两种方法,分别是M方法和S方法。

M 方法是指最小绝对偏差法,它是基于绝对值的度量来衡量误差,所以不受异常点的影响。

S方法则是指Huber鲁棒估计法,它是基于平方的度量来衡量误差,但将误差较大的点的权重调整为较小的值,也能有效地削弱异常点的影响。

在使用稳健回归分析进行数据分析时,需要注意一些问题。

首先,要保证样本量足够大,这样才能保证得到的结果的可靠性。

其次,要注意选择合适的方法,M方法适用于数据中的异常点较少的情况,而S方法适用于数据中异常点较多的情况。

最后,要注意结果的解释,不同的分析方法得到的结果可能不同,需要根据实际情况进行选择。

总之,稳健回归分析是一种非常有用的数据分析方法,在实际应用中可以有效地削弱异常点的影响,提高分析结果的可靠性。

但是需要在使用时注意一些问题,以保证得到的结果具有实际意义。

中科院博士学位论文答辩一篇

中科院博士学位论文答辩一篇

条件自回归持续期模型 (ACD) ACD模型 Engle和 Russell (1998), Bauwens 和Giot (2000), 模型: 模型 Fernandes 和Grammig (2003), Zhang, Russell和 Tsay (2001), Ghysels, Gourieroux 和 Jasia 概率密度预测: 概率密度预测 Diebold等 (1998), Granger (1999), Granger和 Pesaran (2000), 当预测者的损失函数是非对称的或标的过程 是非高斯过程时,密度预测对决策尤为重要。也有助于即时波 动率的预测,风险管理和期权定价。
36
参加的课题、 参加的课题、国内与国际会议
风险管理与金融市场分析, 风险管理与金融市场分析,中科院与香港理工 大学商学院联合培养博士计划 2) 基于Internet的金融预测与决策系统研究 的金融预测与决策系统研究,中国 基于 的金融预测与决策系统研究 科学院研究生科学与社会实践创新研究资助项目 3) 非典”对中国证券市场的影响,中国科学院 “非典”对中国证券市场的影响 数学与系统科学研究院应急研究项目 4) 2004年全国博士生论坛,北京,2004年8月22年全国博士生论坛, 年全国博士生论坛 24日 5) “第四届系统科学与系统工程国际会议 第四届系统科学与系统工程国际会议”,中 第四届系统科学与系统工程国际会议 国香港,2003年11月25—28日 6) 定量化投资及其金融产品国际研讨会,北京, 定量化投资及其金融产品国际研讨会 2002年12月14-15日 1)
21
模型的设立与估计: 模型的设立与估计:AR-TGARCH
22




中国股市内部不同市场间的风险溢出效应 大中华区内股市之间的风险溢出效应 中国大陆股市与亚洲其它股市之间的风险溢出 效应 中国大陆股市与国际其它股市之间的风险溢出 效应

基于LMI方法的多时滞随机神经网络的指数稳定性

基于LMI方法的多时滞随机神经网络的指数稳定性
数学物理学报
2 1 ,0 1:2 5 0 03 A() 3 4 ht : at rs p a . tp/ ca . m. c / e wi cn
基于 L 方法的多时滞随机神经网络 的指数稳定性 MI
汪红初 胡适耕
( 南师范大学数学科学学院学与统计学院 武汉 4 0 7 ) 3 0 4
统中引入了单个时滞, 随后关于存在时滞的神经网络模型被广泛研究, 如文献 [ 5. 2 ]近来, - 具 有多个 时滞 的神经 网络模 型引起许 多专家 和学者 的极大关 注 [ 1]其中主要是 关 于稳定 6 0, 性 的研 究.例 如,文献 [ 中考虑 了如 下具有 多个 时滞的神 经 网络模 型 的渐 近 稳定性 8 1
MR(0 0 主题分类:0 1 中图分类号: 1. ; 2 1 文献标识码: 20 ) 6H 0 O21 3 O 3. 6 3 A
文章编号: 0 33 9 (0 00 .21 10 —9 82 1) 14 —2
1 引 言
关于 神经网络 系统的研究 已经有 2 余年 的历史 了, 间 已取得 了丰富 的成果 . O 其 现实 中, 神经 网络 系统经 常存在着 时滞 .为 了研 究这 种影 响, Macs wltre 【 最初在 网络系 ru 和 e ev1 s t]
: 一
Af ㈤) ( +
( 一
其 中 ( l )“ ( , , £ 为 神经 元 向量 , C = da(l(, ,礼 t )= ( ,2 )… 札 (】 ) i c,2… c)为正 的对角 矩 g 3 阵 , 和 , = 1… ,, , r 为接 线矩 阵,
使得 下式成 立
z 一^() l() l
i l l () i ) l 一 , g X 一g( I i Y

回归预测模型的稳健性分析

回归预测模型的稳健性分析
尽管某些实 际 问题 用 最 小= 乘 法求 解 可 获得 较满 意 的效 果, 但该方法也存在一些局限性 , 比如 , 当收集 的数 据较少 , 且 并
数据中夹杂有异常点时, 用最d -乘法所得的结果就变得十分 x-
不可靠 , 在此情况下应用所得到 的回归方 程或模型 进行预测 、 拟
若 T值大于事先所设定 的显著 性水平 a 下的 t 一检验 法 的 临界值 t , 叮 则 为异 常值 , l 自此可 以对样 本 中的所 有 异常 值进
量>5 时 , o 由中心极 限定 理知 可用样本 标准 差 S 来代替 母体标 准差 o利用 3 原则检验法或 u , o 检验 法 ; 是 当样 本容量< 5 一类 o
时, 常用 t 一检验法。
由于在实际建模 时, 型 的变化 趋势 线一般 都 是在样 本 资 模 料较短 的序列 内有效 , 以这里只简单介绍 t 所 一检验法 。
经典的 L 估 计是 给 予每 个样 本 资料 以相等 的权重 ( 为 S 全 1, )在没有异常值时 , 差平 方和最小的最优估计 , 当存在异 是残 而
是这种希望往往是非常错误的, 即使有的轻微偏离也会 比我们
的预想产生更大的影响【 。 1” ]
1 异常值的检 验
常值时, 则由于对于异常值和正常值一视同仁 , 权重相同, 造成的
方面 , 剔除异常点后获得 的回归模型 当然 会 因此受到影 响 ( 因为 减少了样本 量, 尤其当数据较 少时更 为突 出)另一 方面 , 常点 , 异 恰好在某些 方面真实反映了一些特殊工况 , 随意剔除 。对于 不应
异常值 , 我们用稳健回归 来处理 。
对于异常数据 , 经过仔细论证 , 若确属认为因素 , 则予以剔 除, 此时为了保证数据资料的可靠和完整, 可以采用时间序列模 型或具有外推性的灰色 G 11模型预测数据取而代之 , M( ,) 对此 , 已有文献给予说明, 本文重点介绍不剔除的稳健处理方法。

统计预测与决策(第三版)

统计预测与决策(第三版)
回总目录
回本章目录
定量预测的优点: 注重于事物发展在数量方面的分析,重视对事物发展变化的程度做数量上的描述,更多地依据历史统计资料,较少受主观因素的影响。 定量预测的缺点: 比较机械,不易处理有较大波动的资料,更难以预测事物质的变化。
回总目录
回本章目录
从研究的角度看,统计预测和经济预测都以经济现象的数值作为其研究对象,但着眼点不同。前者属于方法论研究,其研究的结果表现为预测方法的完善程度;后者则是对实际经济现象进行预测,是一种实质性预测,其结果表现为对某种经济现象的未来发展做出判断。 从研究的领域来看,经济预测是研究经济领域中的问题,而统计预测则被广泛地应用于人类活动的各个领域。
回总目录
回本章目录
1.2 统计预测方法的分类和选择
统计预测方法可归纳分为定性预测方法和定量预测方法两类,其中定量预测法又可大致分为回归预测法和时间序列预测法; 按预测时间长短,分为近期预测、短期预测、中期预测和长期预测; 按预测是否重复,分为一次性预测和反复预测。
一、统计预测方法的分类
回总目录
回总目录
回本章目录
德尔菲法的缺点: (1)对于分地区的顾客群或产品的预测可能 不可靠。 (2)责任比较分散。 (3)专家的意见有时可能不完整或不切合实际。
回总目录
回本章目录
三、德尔菲法应用案例
例 1 某公司研制出一种新兴产品,现在市场上还没有相似产品出现,因此没有历史数据可以获得。公司需要对可能的销售量做出预测,以决定产量。于是,该公司成立专家小组,并聘请业务经理、市场专家和销售人员等8位专家,预测全年可能的销售量。8位专家提出个人判断,经过三次反馈得到结果,如下表所示。
应做工作
分解分析法
4
短期

《应用回归分析》课后习题答案

《应用回归分析》课后习题答案
1.7构造回归理论模型的基本依据是什么?
答:选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关系作为理论模型的数学形式。对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。
df
均方
F
显著性
组间
(组合)
1231497.500
7
175928.214
5.302
.168
线性项
加权的
1168713.036
1
1168713.036
35.222
.027
偏差
62784.464
6
10464.077
.315
.885
组内
66362.500
2
33181.250
总数
1297860.000
9
由于 ,拒绝 ,说明回归方程显著,x与y有显著的线性关系。
.212
.586
1.708
a.因变量: y
(6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
去除x3后作F检验,得:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
12893.199
2
6446.600
11.117
.007a
残差
4059.3.500
.724
.433
.212
.586
1.708
a.因变量: y
(2)
所以三元线性回归方程为
模型汇总
模型
R

自回归预测模型

自回归预测模型

自回归模型一、 预测方法综述预测方法大体上分为定性预测法、时间序列预测法和因果模型预测法。

定性预测法是在数据资料掌握不多的情况下,依靠人的经验和分析能力,用系统的、逻辑的思维方法,把有关资料加以综合、进行预测的方法。

定性预测法包括特尔斐法、主观概率预测法、判断预测法等方法。

时间序列预测法是依据预测对象过去的统计数据,找到其随时间变化的规律,建立时序模型,以判断未来数值的预测方法。

其基本思想是:过去的变化规律会持续到未来,即未来是过去的延伸。

时间序列预测法包括时间序列平滑法、趋势外推法、季节变动预测法等确定型时间序列的预测方法和马尔可夫法、随机型时间序列的预测方法。

因果模型预测法是把所要预测的对象同其他有关因素联系起来进行分析,制定出揭示因果关系的模型,然后根据模型进行预测。

因果模型预测法包括回归分析预测法、经济计量模型法、投入产出预测法等。

由于时间序列预测法和因果模型预测法都是以统计资料为依据,应用统计方法进行预测的,所以有时两者统称为统计预测。

到目前为止,已有近二百种预测方法。

1987年,Ledes和Farbor首次将神经网络引入到预测领域中,无论是从思想上、还是技术上都是一种拓宽和突破。

常用的分析和预测方法有下面几种:(1) 投资分析方法。

这是市场分析家常用的方法。

(2) 时间序列分析法。

这种方法主要是通过建立综合指数之间的时间序列相关辩识模型,如自回归移动平均模型(ARMA)、齐次非平稳模型(ARIMA)等来预测未来变化。

(3) 神经网络预测法。

神经网络是一种最新的时间序列分析方法。

(4) 其他预测方法。

如专家评估法和市场调查法等定性方法、季节变动法、马尔柯夫法和判别分析法等定量预测方法。

传统的预测方法大都采用线性模型来近似地表达预测对象的发展规律。

如最常用的AR模型预测,就是在时间序列平稳的假设基础之上,对其建立线性模型,然后采用模型外推的方法预测其未来值。

然而这些方法只适用于平稳时间序列的预测。

计量经济-学--李子奈-潘文卿版计量经济学-课后习题答案-2

计量经济-学--李子奈-潘文卿版计量经济学-课后习题答案-2

第二章1-为什么计翼经祈字碘型旳理论万桎甲必次包肯隨劝L十耽峡?解答计量经济学模型命離的是貝有因果关系的随机变量间的具体联系方式。

由于起随机变童,意缺着影响被解释变慑的因素是复杂的,除了解释变量的惑响外,还有其他无法在模型中独立列出的各种因素的膨响.这样,理论模型中就必须便用一个称为随机干扰项的变最來代表所有这些无法在模型中独立表示出来的影响因素’以保证模里在理论上的科学性。

2.下列计屋经济学方程哪些暹正确的?鄭些是错课的?为什么?(1) Um⑵K M + 0K + ”…』;⑶y产矗+庐扎+片212…卫$(4)—&f =(5)Y^a^flX t, 212…』;•⑹ 左严心人・2讥…肿⑺Y严时21,2,…冲(8) 乂二&心“兀 r=lA->«.其中带…者表示T古计值3解答计量经济学模型有两种类型:一是总体回归模型;另一是样本回归模樂.两类回归模型都具有确定形武与随机形式两种表达方式=总体回归模型的确定形式£的加=矗十尽r总体回归模型的随机形式样本回归摸型的确定形式S十険样本回归模型的随机形式F =才+芒除此之外,英他的表达形式均是错误的,因此利斷如下J⑴错島(2)正确:(3)错课:(4)错误;(5)错误,(6)正确;(7)正确:(8)错误*4.线性回归模型不=a + 0Xj+隔 F = l,2,…/的零均值假设是否可以表示为丄£Aj=0?为什么?解答线性回归模型中的零均值假设£(A) = 0可以表示为£(^)-0, £(/^) = 0, E(/^) =0,…*1 FL但是不能表示为一理由是*£Or)=°严格说来,随机干扰项的零均值假设是关干疋的条件期望为零:= 其含义为在X取值为疋的条件下.所有其他因素对F的各种可能的影响平均下来为零。

因此,E(H)与丄£殉是两个完全不同的概念。

R J-I乩假设已经得到关系式Y =的最小二乘估计,试回答:(1)假设决定把X变量的单位扩大10倍,这样对原回归的斜率和截距会有什么样的影响?如果把丫变量的单位扩大10倍,又会怎样?(2)假定给X的每个观测值都增加2,对原回归的斜率和截距会有什么样的影响?如果给F的每个观测值都増加2・又会怎样?解答(1)记为原变量北单位扩大10倍的变星,则A*= —,于是10Y =%5XX*胡+0市-=几+辭可见,解释变量的单位扩大1Q倍时,回归的截距项不变,而斜率项将会成为原回归系数的舟*10同样地,记厂为惊变量y单位扩大w倍的变量.则r二于是Y'即r*=io^+io/?t x可见.披解释变量的单位扩大m倍时’截距项与斜率项都会比原回归系数扩大10倍。

基于核偏最小二乘回归神经网络集成降水预测模型

基于核偏最小二乘回归神经网络集成降水预测模型

基于核偏最小二乘回归神经网络集成降水预测模型陆克盛;汪灵枝【摘要】In order to improve forecasting application precision,this research presents a novel prediction model based on kernel partial least-squares and basis function of neural network.The model through Bagging and Boosting technology to divide the original training data set into different sets of data,and uses the different set of training data and radial basis function neural network for prediction of different kernel functions,then kernel partial least-squares regression to integrate different training results.Research results showed that integrated kernel partial least-squares regression model effectively improved the generalization ability of neural network ensembles,and forecast application high precision,good stability and promotion prospects.%为了提高降水预测的精确度和稳定性,提出一种新颖的基于核偏最小二乘回归的径向基神经网络集成降水预测模型.该模型通过Bagging技术和Boosting技术把原始数据集分成不同的训练数据集,并利用该训练数据集和不同核函数的径向基神经网络进行预测处理,再将核偏最小二乘回归对不同的训练结果进行集成.研究结果表明:核偏最小二乘回归集成模型有效提高神经网络集成的泛化能力,预测精度高,稳定性好,具有应用推广前景.【期刊名称】《沈阳农业大学学报》【年(卷),期】2013(044)003【总页数】4页(P345-348)【关键词】核偏最小二乘回归;神经网络集成;降水预测【作者】陆克盛;汪灵枝【作者单位】广西民族师范学院数学与计算机科学系,广西崇左532200;柳州师范高等专科学校数学与计算机科学系,广西柳州545004【正文语种】中文【中图分类】TM932随着计算技术的不断发展,许多基于智能计算技术的预报方法普遍开展[1-3]。

多响应近似线性回归模型D最优稳健设计

多响应近似线性回归模型D最优稳健设计

多响应近似线性回归模型D最优稳健设计
刘欣;岳荣先
【期刊名称】《上海师范大学学报(自然科学版)》
【年(卷),期】2007(036)004
【摘要】讨论了多响应变量模型的D最优稳健设计问题.在每个响应变量与自变量之间存在近似线性回归关系的假定下,针对偏差向量函数属于某一给定的L2邻域的情形,得到了D最优准则下设计密度的解析表达式.
【总页数】6页(P5-10)
【作者】刘欣;岳荣先
【作者单位】上海师范大学,数理信息学院,上海,200234;上海师范大学,数理信息学院,上海,200234
【正文语种】中文
【中图分类】O212.6
【相关文献】
1.提高非线性函数近似回归模型预测精度的探讨 [J], 姚莉;张世强
2.模糊线性回归模型参数的最优线性相关估计 [J], 廖志安
3.多响应线性回归模型Bayes最优设计的等价性定理 [J], 汪倩菁;岳荣先
4.多响应近似线性回归模型的Minmax稳健设计 [J], 刘欣;岳荣先
5.相依误差近似回归模型的稳健设计 [J], 周晓东;岳荣先
因版权原因,仅展示原文概要,查看原文内容请购买。

参数的稳定性检验计量经济学EVIEWS建模课件

参数的稳定性检验计量经济学EVIEWS建模课件
设Yt的预测值yt=xtTBt-1,其中xt为第t期观察值 的来向量;则预测误差为:yt-xtBt-1;预测误差的 方差为σ2[1+xtT(Xt-1TXt-1)-1xt];定义递归残差为:
根据此递归残差公式可以分别计算出t=k+1,…,T 期的递归残差。如果建立的模型有效,递归残差将
服从独立的均值为零、方差为常数的正态分布。软
CUSUM
5% Significance
⑶残差平方累积和分布曲线CST 程序给出了残差平方关于时间的分布图形,及 一对5%的上下两条临界线所构成的区域,如果平方 的残差累积和超出这个区域,则说明方程的参数不 具稳定性。下图所示一个比一个好:
1.6
1.6
1.6
1.2
1.2
1.2
0.8
0.8
0.8
0.4
⒈ 检验的模型处理
假设需要建立的模型为:
Y = β0 + β1 X1 + β2 X2 + … + βk Xk + εt 将原时序分为两个或多个连续的时间序列(1~n1) 与(n1+1~n1+n2)等,相应的各阶段模型分别为: Y1 = β10 + β11 X11 + β12 X12 + … + β1k X1k + ε1t Y2 = β20 + β21 X21 + β22 X22 + … + β2k X2k + ε2t 这里要注意为保证各阶段方程的可解,必须要n1 和n2等都大于k+1 ;则以矩阵形式表述各模型如下:
6000
1000
.06
4000
500
.04
2000 0

模型建立第5讲 回归分析

模型建立第5讲 回归分析

),
SSE

2
~ (n 2),
2
l xx t b ~ T (n 2), SSE (n 2)
当|t|≥t1-0.5α(n-2)时应该放弃原假设H0。
5.1 一元线性回归
(3) r检验法: 根据x与Y的观测值的相关系数
r
可以推出 当H0为真时,
l xy l xx l yy
r
2
,r
ˆ0 a bx0预测Y0的观测值 ⑴ 当x=x0时, 用y
y0称为点预测。 ˆ0 ) x0 E(Y0 ), 由于E( y
Y0的观测值y0的点预测是无偏的。
5.1 一元线性回归
⑵ 当x=x0时,用适合不等式P{Y0∈(G,H)} ≥1-α 的统计量G和H所确定的随机区间(G,H) 预测Y0的取值范围称为区间预测,而(G,H)称 为Y0的1-α 预测区间。
~ t ( n 2).
因此,Y0的1-α预测区间为 a+bx0±Δ(x0),
SSE 1 ( x0 x ) ( x 0 ) t10.5 ( n 2) (1 ). n2 n l xx
2
5.1 一元线性回归
例5.1 《吸附方程》某种物质在不同温度下 可以吸附另一种物质,如果温度x(单位:℃)与 吸附重量Y(单位:mg)的观测值如下表所示:
温度x 5.5 1.8 2.4 3.0 3.5 3.9 4.4 4.8 5.0
重量y 4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3
试求线性回归方程并用三种方法作显著性检验,若 x0=2, 求Y0的0.95预测区间。
解:根据上述观测值得到n=9,
5.1 一元线性回归

《应用回归分析》课后习题部分答案何晓群版

《应用回归分析》课后习题部分答案何晓群版

第二章 一元线性回归2.14 解答:(1)散点图为:(2)x 与y 之间大致呈线性关系。

(3)设回归方程为01y x ββ∧∧∧=+1β∧=12217()ni ii nii x y n x yxn x --=-=-=-∑∑0120731y x ββ-∧-=-=-⨯=-17y x ∧∴=-+可得回归方程为(4)22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=2222213⎡⎤⨯+⨯+⨯⎢⎥+⨯+⨯⎣⎦(10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1169049363110/3=++++=6.1σ∧=≈ (5)由于211(,)xxN L σββ∧t σ∧==服从自由度为n-2的t 分布。

因而/2|(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为(7-2.3537+2.353 即为:(2.49,11.5)2201()(,())xxx Nn L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。

因而/2(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 可得195%7.77,5.77β∧-的置信度为的置信区间为()(6)x 与y 的决定系数22121()490/6000.817()nii nii y y r y y ∧-=-=-==≈-∑∑(7)由于(1,3)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。

(8)t σ∧==其中2221111()22n ni i i i i e y y n n σ∧∧====---∑∑ 7 3.661==≈ /2 2.353t α= /23.66t t α=>∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。

基于贝叶斯估计的Weibull参数回归模型研究

基于贝叶斯估计的Weibull参数回归模型研究

∗基金项目:国家自然科学基金青年基金(81803333)1 天津医科大学公共卫生学院流行病与卫生统计学系(300070)2 天津医科大学基础医学院遗传学系ә通信作者:李光ꎬE ̄mail:lig@tmu.edu.cn基于贝叶斯估计的Weibull参数回归模型研究∗刘媛媛1㊀姚婷婷1㊀刘红伟1㊀宋德胜1㊀李长平1㊀崔㊀壮1㊀李㊀光2ә㊀马㊀骏1㊀㊀ʌ提㊀要ɔ㊀目的㊀利用SAS统计软件实现对Weibull参数回归模型的贝叶斯估计ꎬ并对不同过程步的结果进行比较ꎮ方法㊀分别通过LIFEREG过程(BAYES语句)和MCMC过程实现对生存资料Weibull回归模型的贝叶斯估计ꎬ并对主要步骤进行解释ꎮ结果㊀两个过程步的算法㊁马尔可夫链初始值的选择㊁缺失值的处理等均有所差异ꎬ两者所得结果在形式上有所不同ꎬ但是主要结果差别不大ꎮ结论㊀SAS统计软件可以很好地实现生存资料参数回归模型的贝叶斯估计ꎬ并提供多种过程步以供研究者参考ꎮʌ关键词ɔ㊀贝叶斯㊀SAS软件㊀Weibull分布㊀参数回归ʌ中图分类号ɔ㊀R195 1㊀㊀㊀ʌ文献标识码ɔ㊀A㊀㊀㊀㊀DOI㊀10.3969/j.issn.1002-3674.2020.05.042㊀㊀对于纵向研究数据ꎬ生存分析是一类常用的统计分析方法ꎬ它能够有效地弥补样本数据不完全的缺点ꎮ以Cox回归模型为代表的生存分析方法虽然在数据缺失结构下能够利用偏似然估计理论辨识出对预后有影响的伴随变量ꎬ但在删失数据较多时估计结果不够理想[1]ꎬ所以在小样本数据分析中显出不足ꎮ而贝叶斯统计分析方法可以有效利用先验信息ꎬ在小样本数据推断中具有明显优势ꎮ为了适应小样本的情况以及充分利用已有的先验信息ꎬ贝叶斯方法与生存分析相结合产生了贝叶斯生存分析理论ꎬ并已成为国内外统计研究的新热点ꎮ虽然把贝叶斯方法应用于生存分析中只有几十年的历史ꎬ但随着90年代后期贝叶斯方法在后验计算方法中取得的成绩(包括各种数值逼近法㊁蒙特卡罗积分法㊁马尔可夫链蒙特卡罗稳态模拟法等)ꎬ贝叶斯先验确定以及后验推断中与随机过程㊁抽样理论等思想方法充分融合ꎬ使贝叶斯得到发展[2]ꎬ从而使参数和半参数贝叶斯生存分析方法都得以实现ꎮ从软件方面ꎬ相较于SAS软件ꎬBUGS㊁Stan[3]等关于贝叶斯方法实现的软件已经被更多地介绍ꎬ但这些软件还需研究者重新加以学习熟悉ꎬ有一定的难度ꎻ而从回归模型方面ꎬ由于Cox比例风险回归模型对数据的分布类型并无特殊要求等优点ꎬ所以更广泛地被研究者所应用ꎬ相应的贝叶斯估计下的Cox回归模型已有文献报道[4]ꎬ但实际上ꎬ如果生存资料本身经模型拟合得到适合的参数分布类型的话ꎬ那么在回归分析时应选择相应的参数回归模型ꎬ而参数回归模型方面的文献较少ꎮ因此ꎬ本文将利用更加常用的统计软件SAS软件实现对参数回归模型的贝叶斯估计ꎬ并对不同过程步的差异进行比较ꎮ贝叶斯估计下Weibull参数回归模型简介生存分析中的参数模型有多种ꎬ其中最常用的一种可能就是Weibull模型ꎮ经典的Weibull模型假设生存时间y=(y1ꎬy2ꎬ ꎬyn) 独立同分布ꎬ且均服从参数为(αꎬγ)的Weibull分布ꎬ记为W(αꎬγ)ꎬ其中α>0为形状参数ꎬγ>0为尺度参数ꎮ若删失示性函数δ=(δ1ꎬδ2ꎬ ꎬδn) ꎬ其中δi=0为yi是删失ꎬ反之是终点事件发生ꎮ为了便于分析ꎬ令λ=ln(γ)ꎬ样本yi所对应的密度函数为[5]:f(yi|αꎬλ)=αyα-1iexp(λ-exp(λ)yαi)(1)所对应的生存函数为:S(yi|αꎬλ)=exp(-exp(λ)yαi)(2)关于参数(αꎬλ)的似然函数为:L(αꎬλ|D)ɖᵑni=1f(yi|αꎬλ)δiS(yi|αꎬλ)1-δiɖαdexp{dλ+ðni=1(δi(α-1)log(yi)-exp(λ)yαi)}(3)其中ꎬd=ðni=1δi贝叶斯估计下Weibull参数回归模型即是在此回归模型的基础上ꎬ根据贝叶斯思想利用样本数据和先验信息两种信息的共同作用对其参数进行估计ꎬ将先验分布和似然函数相乘得到参数的后验分布ꎬ后验分布将被用于推断ꎮ如果α已知ꎬexp(λ)的共轭先验是伽玛先验ꎮ如果(αꎬλ)均为未知ꎬ尚无合适的联合共轭先验可用ꎮ此时ꎬ常常认为α和λ是独立的ꎬ假设α服从伽玛先验分布ꎬ记为G(α0ꎬκ0)ꎻλ服从正态先验分布ꎬ记为N(μ0ꎬσ20)ꎮ令λi=xᶄiβꎬ假设β服从正态分布先验Np(μ0ꎬð0)ꎬ则联合后验分布为[5]:π(βꎬα|D)ɖαα0+d-1exp{ðni=1(δixᶄiβ+δi(α-1)log(yi)-yαiexp(xᶄiβ))-κ0α-12(β-μ0)ð-10(β-μ0)}(4)Gibbs抽样是贝叶斯计算方法中常见的一种蒙特卡洛模拟方法ꎬ因此本文将利用SAS9 4(SASInstitu ̄teInc ꎬCaryꎬNCꎬUSA)软件采用基于Gibbs抽样的MCMC方法得出参数联合后验分布的抽样ꎬ进而构建贝叶斯估计下Weibull参数回归模型ꎮ实例分析本研究选取文献提供的梅约诊所的慢性肝病案例[6-7]ꎬ利用原发性胆汁性肝硬化患者的生存数据ꎬ构建贝叶斯框架下Weibull参数回归模型ꎬ进行生存状况的影响因素分析ꎮ变量赋值情况见表1ꎮ表1㊀变量赋值表变量变量说明赋值agef年龄(岁)<45.4=0ꎬȡ45.4=1Albuminf血清白蛋白水平(g/dl)ɤ34g/L=0ꎬ>34g/l=1Bilirubinf血清胆红素水平(mg/dl)ɤ27.5μmol/L=0ꎬ>27.5μmol=1Protimef凝血原酶时间(秒)ɤ11=0ꎬ>11=1Edemaf水肿无水肿=0ꎬ存在水肿(利尿剂缓解=1ꎬ不缓解=2)status生存状态生存=0ꎬ死亡=1time生存时间连续型变量㊀㊀方法一:PROCLIFEREG过程(BAYES语句) /∗贝叶斯Weibull先验设定:对β先验设定为无信息正态先验分布(如果不设置此先验过程ꎬ则默认β为均匀先验)ꎬ均数和方差均为SAS手册中默认值ꎬ即均数为0ꎬ方差为106ꎮ∗/datagyh prior2ꎻ/∗创建先验分布的数据集∗/input_type_ƔinterceptAgef0Agef1Albuminf0Albuminf1Bilirubinf0Bilirubinf1Edemaf0Edemaf1Edemaf2Protimef0Protimef1ꎻcardsꎻmean000000000000/∗设置均数为0∗/var1e61e61e61e61e61e61e61e61e61e61e61e6ꎻ/∗设置方差为106∗/runꎻ/∗使用proclifereg语句实现生存资料Weibull回归模型的贝叶斯估计ꎮ∗/procliferegdata=gyh dataꎻ/∗指定进行需构建模型的数据集为gyz data(原始数据集)∗/classAgefAlbuminfBilirubinfEdemafProtimefꎻ/∗class语句指定模型中的分类变量∗/modeltime∗status(0)=AgefAlbuminfBilirubinfEdemafProtimef/dist=weibullꎻ/∗model语句指定模型中的生存时间㊁生存状态和解释变量ꎬdist指定生存时间假设的分布类型∗/bayesseed=1NBI=5000NMC=200000weibullshapeprior=gammacoeffprior=normal(input=gyh prior2)statistics=alldiagnostics=allꎻrunꎻ/∗BAYES语句要求回归模型的贝叶斯分析采用Gibbs抽样(默认)ꎮ设置seed(随机数生成器种子)=1ꎬNBI(退火次数)=2000(默认)ꎬNMC(退火后的迭代次数)=20000ꎬweibullshapeprior将形状参数α的先验设定为gamma先验ꎬ指定此选项后ꎬPROCLIFE ̄REG会对Weibull形状参数执行Gibbs采样ꎮcoef ̄fprior设定回归系数β的先验为正态分布ꎬ先验设置见gyh prior2数据集ꎬdiagnostics要求输出全部马尔可夫链收敛的诊断结果ꎮ∗/本例中未对马尔可夫链的初始值进行设置ꎬ则默认采用回归系数最大似然估计结果(见表2)作为链的初始值ꎬ弃用前2000次抽样以保证样本是从后验分布中抽取ꎬ使用之后的20000次抽样用于后验参数估计ꎮ得到的后验统计量结果见表3~6ꎮ模型收敛诊断结果显示ꎬGeweke诊断各参数结果P均>0 05(表7)ꎬHeidelberger ̄Welch诊断结果均通过ꎬ有效样本量(theeffectivesamplesizesꎬESS)均较大(表8)ꎮ模型拟合统计量偏差信息准则(devianceinformationcriterionꎬDIC)为677 942ꎮ图1显示ꎬagef0回归参数的马尔可夫链迭代轨迹图均值在0 7左右波动ꎬ随着迭代次数的增加摆动的幅度基本保持不变ꎬ有理由认为马尔科夫链已经收敛ꎻ自相关函数图显示后验样本在滞后5次后自相关系数显著变小ꎬ后验样本独立ꎻ核密度估计图近似正态分布ꎮ诊断统计量结果和图1均表明模型收敛ꎮ表2㊀回归系数的最大似然估计结果参数自由度估计标准误差95%置信限下限上限Intercept10.49590.21170.08090.9108agef(0vs.1)10.71240.16200.39491.0298Albuminf(0vs.1)1-0.34980.1271-0.5989-0.1007Bilirubinf(0vs.1)11.14550.14980.85181.4391Edemaf(0vs.2)11.10320.21050.69061.5157Edemaf(1vs.2)10.82660.23500.36611.2872protimef(0vs.1)10.47230.13530.20720.7374WeibShape11.32410.08321.17071.4977表3㊀后验样本统计描述结果参数N均值标准差百分位数25%50%75%Intercept2000000.49230.21840.34580.49060.6373agef02000000.74060.16900.62480.73470.8506Albuminf0200000-0.35060.1314-0.4386-0.3504-0.2624Bilirubinf02000001.17910.15611.07171.17381.2812Edemaf02000001.11190.21860.96801.11301.2595Edemaf12000000.83910.24410.67760.83931.0022protimef02000000.48740.14050.39200.48590.5808WeibShape2000001.28570.08261.22941.28401.3406表4㊀蒙特卡洛标准误(MonteCarloStandardErrorsꎬMCSE)参数MCSE标准差MCSE/SDIntercept0.002260.21840.0103agef00.0005980.16900.00354Albuminf00.0007050.13140.00537Bilirubinf00.0005670.15610.00363Edemaf00.002160.21860.00986Edemaf10.001970.24410.00807protimef00.0006270.14050.00446WeibShape0.0003000.08260.00364表5㊀后验样本区间估计结果参数Alpha等尾区间HPD区间(最大后验密度可信区间)Intercept0.0500.06990.92670.06100.9170agef00.0500.42501.08930.41271.0750Albuminf00.050-0.6093-0.0930-0.6106-0.0946Bilirubinf00.0500.88781.49990.88101.4922Edemaf00.0500.67431.53360.68501.5427Edemaf10.0500.35591.31700.36091.3213protimef00.0500.21670.76770.21330.7641WeibShape0.0501.12811.45131.12721.4500表6㊀后验样本的自相关结果参数Lag1Lag5Lag10Lag50Intercept0.92050.64120.39150.0120agef00.24890.04270.01790.0014Albuminf00.55950.13970.06810.0030Bilirubinf00.42370.0262-0.0042-0.0001Edemaf00.88950.58980.35000.0136Edemaf10.59760.38630.22950.0066protimef00.62760.0709-0.0026-0.0065WeibShape0.35950.03470.0099-0.0015表7㊀Geweke诊断结果参数ZPIntercept0.09720.9226agef00.03990.9682Albuminf00.43010.6672Bilirubinf0-0.62290.5334Edemaf0-0.10460.9167Edemaf1-0.13580.8920protimef0-1.29790.1943WeibShape1.83200.0670表8㊀ESS信息参数ESS自相关时间效率Intercept9362.121.36270.0468agef079839.12.50500.3992Albuminf034740.85.75690.1737Bilirubinf075725.22.64110.3786Edemaf010280.719.45390.0514Edemaf115369.213.01300.0768protimef050223.03.98220.2511WeibShape75586.42.64600.3779图1㊀回归参数的马尔可夫链迭代轨迹图(上)㊁自相关函数图(下左)㊁后验密度核密度图(下右)( agef0 变量为例)㊀㊀方法二:PROCMCMC过程MCMC过程不支持CLASS语句ꎬ因此ꎬ在调用PROCMCMC之前ꎬ需要构造带有哑变量或指示变量的设计矩阵ꎬ可使用TRANSREG过程ꎮproctransregdata=gyh datadesignꎻmodelclass(AgefAlbuminfBilirubinfEdemafPro ̄timef/zero=first)ꎻ/∗可以在CLASS扩展项中指定任何分类变量ꎬ然后使用ZERO=选项选择参考类别ꎮ∗/idTimeStatusꎻ/∗可以在ID语句中为输出的数据集指定数据集包含的任何其他变量(预测变量㊁结局变量等)ꎮ∗/outputout=input_mcmc(drop=_:int:)ꎻ/∗output语句创建一个新的数据集input_mcmcꎬ该数据集存储设计矩阵和指定的原始数据集中的原始变量ꎮ∗/runꎻprocmcmcdata=input_mcmcoutpost=weisur ̄voutnmc=200000seed=1nbi=5000thin=5stats=(summaryintervals)diag=(AUTOCORRESSGEWEKEHEIDELBERGERMCSERAFTERY)DICꎻ/∗stats指定后验统计量的选项(给出后验均值ꎬ标准差ꎬ分位数和两个95%可信区间:等尾和最高后验密度(HPD))ꎮdiag指定用于MCMC收敛诊断的选项ꎮ默认情况下ꎬPROCMCMC计算Geweke检验㊁样本自相关㊁有效样本量和蒙特卡洛误差等ꎮ∗/parmsalpha1(beta0beta1beta2beta3beta4beta5beta6)0ꎻ/∗PARMS语句列出了模型中参数的名称ꎬ并为这些参数指定了马尔可夫链可选的初始值ꎮ∗/PRIORbeta:~normal(0ꎬvar=1000000)ꎻPRIORalpha~gamma(0 001ꎬis=0 001)ꎻ/∗PRIOR语句指定参数的先验分布ꎮ∗/lambda=beta0+beta1∗Agef1+beta2∗Albu ̄minf1+beta3∗Bilirubinf1+beta5∗Edemaf1+be ̄ta4∗Edemaf2+beta6∗Protimef1ꎻllike=status∗(log(alpha)+(alpha ̄1)∗log(time)+lambda) ̄exp(lambda)∗(time∗∗alpha)ꎻ/∗llike公式指Weibull生存模型的对数似然的计算公式ꎮ∗/modelgeneral(llike)ꎻ/∗MODEL语句在给定参数(似然函数)的情况下指定数据的条件分布ꎬ如果运行不需要响应变量的蒙特卡洛模拟ꎬ则在MODEL语句中使用GENERAL函数ꎮMODEL语句必须位于定义或修改对数似然结构的任何SAS编程语句之后ꎮ∗/runꎻ运行以上程序将会得到结果见表9~14㊁图2ꎬ与表3~8及图1相似ꎬ但无表2相关结果ꎮ表9㊀后验样本统计描述结果参数N均值标准差百分位数25%50%75%alpha400001.32420.08381.26731.32291.3797beta040000-4.77740.3234-4.9888-4.7707-4.5570beta1400000.95940.21580.81360.95401.0996beta240000-0.45970.1706-0.5746-0.4599-0.3448beta3400001.52240.18881.39441.51781.6479beta4400001.44890.29011.25391.45371.6457beta5400000.35870.23130.20770.36190.5149beta6400000.61890.17700.50030.61890.7386表10㊀MCSE参数MCSE标准差MCSE/SDalpha0.001310.08380.0157beta00.006050.32340.0187beta10.003980.21580.0185beta20.002190.17060.0129beta30.004480.18880.0237beta40.007840.29010.0270beta50.003750.23130.0162beta60.002960.17700.0167表11㊀后验样本区间估计结果参数Alpha等尾区间HPD区间(最大后验密度可信区间)alpha0.0501.16581.49331.15881.4862beta00.050-5.4329-4.1587-5.4025-4.1341beta10.0500.54611.39930.53821.3906beta20.050-0.7947-0.1257-0.8001-0.1328beta30.0501.16181.89871.16161.8979beta40.0500.87542.00410.87562.0041beta50.050-0.10740.8021-0.09200.8163beta60.0500.27060.96360.26910.9605表12㊀后验样本的自相关结果参数Lag1Lag5Lag10Lag50alpha0.76360.33880.14600.0002beta00.85220.47820.25250.0066beta10.85380.47190.23650.0014beta20.73550.22210.04250.0034beta30.87370.55330.34270.0289beta40.90320.62680.42020.0318beta50.73320.25280.10250.0162beta60.83150.41740.18750.0048表13㊀Geweke诊断结果参数ZPalpha0.15490.8769beta00.48410.6283beta10.01270.9899beta20.28570.7751beta3-0.81510.4150beta40.18180.8557beta50.91440.3605beta6-0.67410.5002表14㊀ESS信息参数ESS自相关时间效率alpha4060.29.85160.1015beta02853.414.01820.0713beta12933.813.63430.0733beta26053.86.60740.1513beta31775.522.52940.0444beta41370.329.19170.0343beta53812.510.49180.0953beta63565.211.21970.0891图2㊀回归参数的马尔可夫链迭代轨迹图(上)㊁自相关函数图(下左)㊁后验密度核密度图(下右)( age 变量为例)讨㊀㊀论本研究分别应用SAS软件中的PROCLIFEREG过程(BAYES语句)和PROCMCMC过程对同一生存资料进行贝叶斯估计下的Weibull回归分析ꎬ并对这两个过程进行比较ꎮ1 适用范围在SAS软件的实际应用中ꎬLIFEREG过程本身可以用于对生存数据拟合参数回归模型ꎬ可以通过在LIFEREG过程中使用BAYES语句来对参数生存回归模型进行贝叶斯分析ꎮMCMC过程统计推断的性质是贝叶斯ꎬ因此适用于拟合多种贝叶斯模型(比如参数回归模型㊁半参数回归模型)ꎬ适用范围更加广泛ꎬ二者均可用于构建贝叶斯估计下的Weibull回归模型ꎮ2 实现过程两个过程在实现过程中的主要区别如下: (1)先验分布及抽样方法LIFEREG过程中BAYES语句要求使用Gibbs抽样对回归模型进行贝叶斯分析ꎮ此过程默认回归系数为均匀先验ꎮ如果无法获取参数值的先验ꎬ则可以使用无信息先验分布ꎬ贝叶斯分析的结果将与基于最大似然的经典分析非常相似[7]ꎮMCMC过程默认抽样方法包括共轭抽样㊁边际分布直接抽样㊁逆累积分布函数㊁随机游走Metropolis㊁离散的随机游走Metropolis等ꎮ此外ꎬGibbs抽样可作为随机游走Metropolis的替代方法ꎮ若情况允许ꎬMCMC过程会为每个参数选择最佳采样方法ꎮ使用此过程时ꎬ需要为数据指定似然函数ꎬ并为参数指定先验分布ꎮ若无法获取参数值的先验ꎬ同样可用无信息先验分布ꎮ(2)缺失值的处理当LIFEREG过程指定BAYES语句后ꎬ如果因变量有缺失ꎬ此观测将不纳入分析ꎬ除非是在某区间里有且仅有这一个变量值ꎻ如果有任一个解释变量或删失变量有缺失ꎬ则此观测将不纳入分析ꎮ用于模型估计的观测ꎬ该模型中所需的变量必须无缺失值ꎮ而在MCMC过程中的MODEL语句可以自动对缺失数据㊁响应变量或协变量建模ꎮ在SAS/STAT12 1之后的版本中ꎬMCMC过程将缺失值视为未知参数ꎬ并将缺失值合并作为模拟的一部分ꎮ(3)马尔科夫链的初始值设置当LIFEREG过程指定BAYES语句后ꎬ该过程会生成一个包含模型参数的近似后验样本的马尔可夫链ꎬ如不设置初始值ꎬ则将通过优化获得的后验分布模式的估计值用作初始值ꎮ对于MCMC过程马尔可夫链的初始值ꎬ当模型参数和随机效应参数缺少初始值时ꎬ该过程会根据先验分布生成初始值ꎮ在变量有缺失值的情况下ꎬ该过程使用(响应变量的)非缺失值的样本平均值作为初始值ꎮ3 分析结果因为BAYES语句是嵌套于LIFEREG过程ꎬ所以其结果展示与LIFEREG过程结果相对应ꎬ结果会提供普通回归模型中回归系数的最大似然估计ꎮ而MC ̄MC过程步所得结果则与BAYES语句结果在形式上稍有不同ꎬ并不能提供上述结果ꎬ而是与OpenBUGS软件结果形式相似ꎮ综上所述ꎬSAS软件通过PROCLIFEREG过程(BAYES语句)和PROCMCMC过程均可以实现对生存资料参数回归模型的贝叶斯估计ꎬ但两个过程步的算法㊁马尔可夫链初始值的选择㊁缺失值的处理等均有所差异ꎮ虽然两者所得结果在形式上有所不同ꎬ但是主要结果差别不大ꎬ所以研究者可以根据具体情况进行过程步的选择ꎮ参㊀考㊀文㊀献[1]陈雯ꎬ陈昂ꎬ夏英华ꎬ等.样本量及删失率对生存分析模型有效性和偏倚性的影响.中国卫生统计ꎬ2013ꎬ30(1):5 ̄8.[2]BelleraCꎬProust ̄LimaCꎬJosephLꎬetal.Atwo ̄stagemodelinaBayesianframeworktoestimateasurvivalendpointinthepresenceofconfoundingbyindication.StatMethodsMedResꎬ2018ꎬ27(4):1271 ̄1281.[3]刘晋ꎬ汪秀琴ꎬ李天萍ꎬ等.贝叶斯统计分析的新工具 Stan.中国卫生统计ꎬ2019ꎬ36(3):462 ̄465+470.[4]张继巍ꎬ高文龙ꎬ李学朝ꎬ等.Cox比例风险回归模型的贝叶斯估计方法研究.中国卫生统计ꎬ2017ꎬ34(6):999 ̄1001.[5]JosephG.IbrahimꎬMingHuiChenꎬDebajyotiSinha.Bayesiansurvivalanalysis.NewYork:Springer ̄Verlagꎬ2001:35 ̄36.[6]LinDYꎬWeiLJꎬYingZ.CheckingtheCoxModelwithCumulativeSumsofMartingale ̄BasedResiduals.Biometrikaꎬ1993ꎬ80(3):557 ̄572. [7]SASInstituteInc.SAS/STAT®15.1User sGuide.CaryꎬNC:SASInstituteIncꎬ2018:5452+7447.(责任编辑:刘㊀壮)(上接第794页)参㊀考㊀文㊀献[1]王晨ꎬ郭倩ꎬ周罗晶.基于R语言的ARIMA模型对流感样病例发病趋势的预测.中华疾病控制杂志ꎬ2018ꎬ22(9):957 ̄960. [2]汪洋ꎬ胡代玉ꎬ刘瑛ꎬ等.使用R语言扩展中国疾病预防控制信息系统预测重庆市结核病疫情.重庆医学ꎬ2013ꎬ42(13):1454 ̄1456+1459.[3]许敏锐ꎬ强德仁ꎬ周义红ꎬ等.应用R软件进行logistic回归模型的交互作用分析.中国卫生统计ꎬ2017ꎬ34(4):670 ̄672+675. [4]路凤ꎬ李亚伟ꎬ李成橙ꎬ等.时间序列分析在空气污染与健康领域的应用及其R软件实现.中国卫生统计ꎬ2018ꎬ35(4):622 ̄625.[5]纪威ꎬ张涛ꎬ崔军.R软件在慢性病监测数据清洗中的应用.中国卫生统计ꎬ2014ꎬ31(4):718 ̄719.[6]孙亚军ꎬ袁伟ꎬ刘伦ꎬ等.一起有毒牛肝菌引起食物中毒的调查.中华流行病学杂志ꎬ2012ꎬ33(12):1261 ̄1264[7]WickhamH.ggplot2:ElegantGraphicsforDataAnalysis.Springer ̄VerlagNewYorkꎬ2009.[8]DecorpsJP.EpiStats:ToolsforEpidemiologists.Rpackageversion1.1.https://CRAN.R ̄project.org/package=EpiStatsꎬ2018[9]杨丽ꎬ张莉莉ꎬ韩冰ꎬ等.突发公共卫生事件信息管理系统中食物中毒事件调查.中国公共卫生管理ꎬ2015ꎬ31(3):313 ̄314. [10]李剑森ꎬ张恒ꎬ黄琼ꎬ等.2004-2012年广东省食物中毒事件调查报告质量评价.中国食品卫生杂志ꎬ2015ꎬ27(4):378 ̄381.(责任编辑:郭海强)。

HDP发病危险因素及回归模型预测价值

HDP发病危险因素及回归模型预测价值
t
l
i
rt
han
gn
yh
ghe
t
ha
t(
3.
6% )o
ft
hewomeni
nt
hec
on
t
r
o
lg
r
oup (
P <0.
05).Conc
l
us
i
on:HDPo
ft
hep
r
egnan
twomen mi
ti
nc
r
e
a
s
e
gh
t
her
i
sko
ft
he
i
radve
r
s
ep
r
egnancyou
t
c
ome
s.Theage ≥ 35ye
hewomen
we
r
eana
l
z
edbymu
l
t
i
va
r
i
a
t
el
og
i
s
t
i
cr
eg
r
e
s
s
i
onana
l
s
i
s.Thep
r
ed
i
c
t
i
on mode
lba
s
edont
he
s
er
i
skf
a
c
t
o
r
swa
sc
on

y
y
s
t
r
uc
t
ed,andt

稳健回归(M估计)

稳健回归(M估计)

稳健回归(M 估计)方法简介浙江大学 唐启义估计的稳健性(Robustness)概念指的是在估计过程中产生的估计量对模型误差的不敏感性。

因此稳健估计是在比较宽的资料范围内产生的优良估计。

如在独立同分布正态误差的线性模型中,最小二乘估计(LSE)是有效无偏估计。

然而当误差是非正态分布时,LSE 不一定是最有效的。

但误差分布事先不一定知道,故有必要考虑稳健回归的问题。

稳健回归(Robust Regression)估计,如误差为正态时,它比LSE 稍差一点,但误差非正态时,它比LSE 要好得多。

这种对误差项分布的稳健特性,常能有效排除异常值干扰。

DPS 提供了稳健回归中常用的最大似然型的M 估计。

一般回归模型:n i e x Y i j ij pj i ,,1,1=+∑==β这里β1,…,βp为未知回归系数,e 1,…,e n …独立同分布,均值为0。

最小二乘法是找p ββ,,1 使表达式211pni ij j i j Y x b ==骣÷ç÷-ç÷ç÷ç桫邋达到最小作为代价函数,即211min pni ij j i j Y x b ==骣÷ç÷-=ç÷ç÷ç桫邋。

这样做会往往使得那些远离数据群体的数据(很可能是异常值)对残差平方和影响比其他数据大得多。

这是因为最小二乘估计为了达到极小化残差平方和的目的,必须迁就远端的数据,所以异常值对于参数估计相当敏感(如图1)。

M 估计稳健回归的基本思想是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权w i ,以达到稳健的目的,其优化的目标函数是:211min pni i ij j i j w Y x b ==骣÷ç÷-=ç÷ç÷ç桫邋 为减少“异常点”作用,我们可以对不同的点施加不同的权重,即对残差小的点给予较大的权重,而对残差较大的点给予较小的权重,根据残差大小确定权重,并据此建立加权的最小二乘估计,反复迭代以改进权重系数,直至权重系数之改变小于一定的允许误差(tolerance)。

3种机器学习算法对维持性血液透析病人衰弱风险预测性能比较

3种机器学习算法对维持性血液透析病人衰弱风险预测性能比较

3种机器学习算法对维持性血液透析病人衰弱风险预测性能比较汪丹丹;姚侃斐;祝雪花【期刊名称】《护理研究》【年(卷),期】2024(38)1【摘要】目的:应用Logistic回归、决策树CART和随机森林3种机器学习算法分别构建维持性血液透析病人衰弱风险预测模型,比较3种模型的预测效果。

方法:选取2021年10月—2022年3月在杭州市2家三级甲等医院接受维持性血液透析治疗的病人485例,按照7∶3的比例随机分为训练集(n=341)和测试集(n=144),运用Logistic回归、决策树CART和随机森林建立维持性血液透析病人衰弱风险预测模型,采用准确率、灵敏度、特异度、阳性预测值、阴性预测值、Kappa系数和受试者工作特征(ROC)曲线下面积(AUC)对3种模型的预测性能进行比较。

结果:训练集中,Logistic回归、决策树CART和随机森林的准确率分别为91.79%、91.50%、97.95%,特异度为96.84%、92.11%、96.91%,灵敏度为85.43%、90.73%、99.32%,阳性预测值为95.56%、90.13%、96.05%,阴性预测值为89.32%、92.59%、99.47%,Kappa值为0.832,0.828,0.958,AUC值为0.971,0.954,0.998。

对3种模型的AUC值进行检验,结果发现随机森林模型与其余两种模型差异有统计学意义(P<0.05)。

年龄、性别、查尔森合并疾病指数和营养风险筛查评分为3种预测模型的共同预测因子。

结论:随机森林模型对维持性血液透析病人衰弱风险的预测性能优于Logistic回归和决策树CART。

【总页数】9页(P8-16)【作者】汪丹丹;姚侃斐;祝雪花【作者单位】浙江中医药大学护理学院【正文语种】中文【中图分类】TP3【相关文献】1.老年维持性血液透析病人认知衰弱风险预测模型的建立2.维持性血液透析病人衰弱发生风险列线图模型的构建3.骨骼肌质量指数预测维持性血液透析病人衰弱的应用价值4.维持性血液透析患者衰弱风险预测模型的构建及应用研究5.维持性血液透析病人衰弱及衰弱前期风险预测模型的构建因版权原因,仅展示原文概要,查看原文内容请购买。

USDBL的平稳条件,谱密度及最优线性预报

USDBL的平稳条件,谱密度及最优线性预报

USDBL的平稳条件,谱密度及最优线性预报
陈浩球;?汪凤泉
【期刊名称】《东南大学学报:自然科学版》
【年(卷),期】1993(023)003
【摘要】本文针对上次对角双线性时序模型(简记为USDBL(p,q,r))进行研究.在输入为正态白噪声的假定下,通过广义传递函数得到了该模型平稳性的充分必要条件,并计算了输出序列的谱密度函数.证明了该模型的二阶特性与一个线性平稳ARMA 模型相似,最后给出了该模型的最优化线性预报方法.
【总页数】10页(P63-72)
【作者】陈浩球;?汪凤泉
【作者单位】不详;不详
【正文语种】中文
【中图分类】O211.61
【相关文献】
1.经过线性变换的平稳序列的谱函数和谱密度 [J], 郝晓燕
2.条件非线性最优扰动在可预报性问题研究中的应用 [J], 穆穆;段晚锁
3.线性预报方程中最优预报因子数的确定 [J], Carr.,MB;周一鹤
4.线性预报方程中最优预报因子数的确定(续) [J], Carr.,MB;周一鹤
5.Zebiak-Cane 模式中条件非线性最优扰动对 ENSO 春季预报障碍的影响 [J], 于亮
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档