Key Words censored quantile regression, degradation,

合集下载

递归最小二乘循环神经网络

递归最小二乘循环神经网络

递归最小二乘循环神经网络赵 杰 1张春元 1刘 超 1周 辉 1欧宜贵 2宋 淇1摘 要 针对循环神经网络(Recurrent neural networks, RNNs)一阶优化算法学习效率不高和二阶优化算法时空开销过大, 提出一种新的迷你批递归最小二乘优化算法. 所提算法采用非激活线性输出误差替代传统的激活输出误差反向传播,并结合加权线性最小二乘目标函数关于隐藏层线性输出的等效梯度, 逐层导出RNNs 参数的迷你批递归最小二乘解. 相较随机梯度下降算法, 所提算法只在RNNs 的隐藏层和输出层分别增加了一个协方差矩阵, 其时间复杂度和空间复杂度仅为随机梯度下降算法的3倍左右. 此外, 本文还就所提算法的遗忘因子自适应问题和过拟合问题分别给出一种解决办法. 仿真结果表明, 无论是对序列数据的分类问题还是预测问题, 所提算法的收敛速度要优于现有主流一阶优化算法, 而且在超参数的设置上具有较好的鲁棒性.关键词 深度学习, 循环神经网络, 递归最小二乘, 迷你批学习, 优化算法引用格式 赵杰, 张春元, 刘超, 周辉, 欧宜贵, 宋淇. 递归最小二乘循环神经网络. 自动化学报, 2022, 48(8): 2050−2061DOI 10.16383/j.aas.c190847Recurrent Neural Networks With Recursive Least SquaresZHAO Jie 1 ZHANG Chun-Yuan 1 LIU Chao 1 ZHOU Hui 1 OU Yi-Gui 2 SONG Qi 1Abstract In recurrent neural networks (RNNs), the first-order optimization algorithms usually converge slowly,and the second-order optimization algorithms commonly have high time and space complexities. In order to solve these problems, a new minibatch recursive least squares (RLS) optimization algorithm is proposed. Using the inact-ive linear output error to replace the conventional activation output error for backpropagation, together with the equivalent gradients of the weighted linear least squares objective function with respect to linear outputs of the hid-den layer, the proposed algorithm derives the minibatch recursive least squares solutions of RNNs parameters layer by layer. Compared with the stochastic gradient descent algorithm, the proposed algorithm only adds one covari-ance matrix into each layer of RNNs, and its time and space complexities are almost three times as much. Further-more, in order to address the adaptive problem of the forgetting factor and the overfitting problem of the proposed algorithm, two approaches are also presented, respectively, in this paper. The simulation results, on the classifica-tion and prediction problems of sequential data, show that the proposed algorithm has faster convergence speed than popular first-order optimization algorithms. In addition, the proposed algorithm also has good robustness in the selection of hyperparameters.Key words Deep learning, recurrent neural network (RNN), recursive least squares (RLS), minibatch learning, op-timization algorithmCitation Zhao Jie, Zhang Chun-Yuan, Liu Chao, Zhou Hui, Ou Yi-Gui, Song Qi. Recurrent neural networks with recursive least squares. Acta Automatica Sinica , 2022, 48(8): 2050−2061循环神经网络(Recurrent neural networks,RNNs)作为一种有效的深度学习模型, 引入了数据在时序上的短期记忆依赖. 近年来, RNNs 在语言模型[1]、机器翻译[2]、语音识别[3]等序列任务中均有不俗的表现. 但是相比前馈神经网络而言, 也正因为其短期记忆依赖, RNNs 的参数训练更为困难[4−5].如何高效训练RNNs, 即RNNs 的优化, 是RNNs 能否得以有效利用的关键问题之一. 目前主流的RNNs 优化算法主要有一阶梯度下降算法、自适应学习率算法和二阶梯度下降算法等几种类型.最典型的一阶梯度下降算法是随机梯度下降(Stochastic gradient descent, SGD)[6], 广泛应用于优化RNNs. SGD 基于小批量数据的平均梯度对参数进行优化. 因为SGD 的梯度下降大小和方向完全依赖当前批次数据, 容易陷入局部极小点, 故而学习效率较低, 更新不稳定. 为此, 研究者在SGD收稿日期 2019-12-12 录用日期 2020-04-07Manuscript received December 12, 2019; accepted April 7, 2020国家自然科学基金(61762032, 61662019, 11961018)资助Supported by National Natural Science Foundation of China (61762032, 61662019, 11961018)本文责任编委 曹向辉Recommended by Associate Editor CAO Xiang-Hui1. 海南大学计算机科学与技术学院 海口 5702282. 海南大学理学院 海口 5702281. School of Computer Science and Technology, Hainan Uni-versity, Haikou 5702282. School of Science, Hainan University,Haikou 570228第 48 卷 第 8 期自 动 化 学 报Vol. 48, No. 82022 年 8 月ACTA AUTOMATICA SINICAAugust, 2022的基础上引入了速度的概念来加速学习过程, 这种算法称为基于动量的SGD算法[7], 简称为Momen-tum. 在此基础上, Sutskever等[8]提出了一种Nes-terov动量算法. 与Momentum的区别体现在梯度计算上. 一阶梯度下降算法的超参数通常是预先固定设置的, 一个不好的设置可能会导致模型训练速度低下, 甚至完全无法训练. 针对SGD的问题, 研究者提出了一系列学习率可自适应调整的一阶梯度下降算法, 简称自适应学习率算法. Duchi等[9]提出的AdaGrad算法采用累加平方梯度对学习率进行动态调整, 在凸优化问题中表现较好, 但在深度神经网络中会导致学习率减小过快. Tieleman等[10]提出的RMSProp算法与Zeiler[11]提出的AdaDelta 算法在思路上类似, 都是使用指数衰减平均来减少太久远梯度的影响, 解决了AdaGrad学习率减少过快的问题. Kingma等[12]提出的Adam算法则将RMSProp与动量思想相结合, 综合考虑梯度的一阶矩和二阶矩估计计算学习率, 在大部分实验中比AdaDelta等算法表现更为优异, 然而Keskar等[13]发现Adam最终收敛效果比SGD差, Reddi等[14]也指出Adam在某些情况下不收敛.基于二阶梯度下降的算法采用目标函数的二阶梯度信息对参数优化. 最广泛使用的是牛顿法, 其基于二阶泰勒级数展开来最小化目标函数, 收敛速度比一阶梯度算法快很多, 但是每次迭代都需要计算Hessian矩阵以及该矩阵的逆, 计算复杂度非常高. 近年来研究人员提出了一些近似算法以降低计算成本. Hessian-Free算法[15]通过直接计算Hessi-an矩阵和向量的乘积来降低其计算复杂度, 但是该算法每次更新参数需要进行上百次线性共轭梯度迭代. AdaQN[16]在每个迭代周期中要求一个两层循环递归, 因此计算量依然较大. K-FAC算法(Kro-necker-factored approximate curvature)[17]通过在线构造Fisher信息矩阵的可逆近似来计算二阶梯度. 此外, 还有BFGS算法[18]以及其衍生算法(例如L-BFGS算法[19−20]等), 它们都通过避免计算Hessian矩阵的逆来降低计算复杂度. 相对于一阶优化算法来说, 二阶优化算法计算量依然过大, 因此不适合处理规模过大的数据集, 并且所求得的高精度解对模型的泛化能力提升有限, 甚至有时会影响泛化, 因此二阶梯度优化算法目前还难以广泛用于训练RNNs.除了上面介绍的几种类型优化算法之外, 也有不少研究者尝试将递归最小二乘算法(Recursive least squares, RLS)应用于训练各种神经网络. RLS是一种自适应滤波算法, 具有非常快的收敛速度. Azimi-Sadjadi等[21]提出了一种RLS算法, 对多层感知机进行训练. 谭永红[22]将神经网络层分为线性输入层与非线性激活层, 对非线性激活层的反传误差进行近似, 并使用RLS算法对线性输入层的参数矩阵进行求解来加快模型收敛. Xu等[23]成功将RLS算法应用于多层RNNs. 上述算法需要为每个神经元存储一个协方差矩阵, 时空开销很大. Peter 等[24]提出了一种扩展卡尔曼滤波优化算法, 对RN-Ns进行训练. 该算法将RNNs表示为被噪声破坏的平稳过程, 然后对网络的状态矩阵进行求解. 该算法不足之处是需要计算雅可比矩阵来达到线性化的目的, 时空开销也很大. Jaeger[25]通过将非线性系统近似为线性系统, 实现了回声状态网络参数的RLS求解, 但该算法仅限于求解回声状态网络的输出层参数, 并不适用于一般的RNNs训练优化.针对以上问题, 本文提出了一种新的基于RLS 优化的RNN算法(简称RLS-RNN). 本文主要贡献如下: 1) 在RLS-RNN的输出层参数更新推导中, 借鉴SGD中平均梯度的计算思想, 提出了一种适于迷你批样本训练的RLS更新方法, 显著减少了RNNs的实际训练时间, 使得所提算法可处理较大规模数据集. 2) 在RLS-RNN的隐藏层参数更新推导中, 提出了一种等效梯度思想, 以获得该层参数的最小二乘解, 同时使得RNNs仅要求输出层激活函数存在反函数即可采用RLS进行训练, 对隐藏层的激活函数则无此要求. 3) 相较以前的RLS 优化算法, RLS-RNN只需在隐藏层和输出层而非为这两层的每一个神经元分别设置一个协方差矩阵, 使得其时间和空间复杂度仅约SGD算法的3倍.4) 对RLS-RNN的遗忘因子自适应和过拟合预防问题进行了简要讨论, 分别给出了一种解决办法.1 背景1.1 基于SGD优化的RNN算法X s,t∈R m×a H s,t∈R m×h O s,t∈R m×d s tm ah dU s−1∈R a×h W s−1∈R h×hV s−1∈R h×d sb H s−1∈R1×h b O s−1∈R1×dττRNNs处理时序数据的模型结构如图1所示.一个基本的RNN通常由一个输入层、一个隐藏层(也称为循环层)和一个输出层组成. 在图1中, , 和 分别为第批训练样本数据在第时刻的输入值、隐藏层和输出层的输出值, 其中, 为迷你批大小, 为一个训练样本数据的维度, 为隐藏层神经元数, 为输出层神经元数; , 和分别为第批数据训练时输入层到隐藏层、隐藏层内部、隐藏层到输出层的参数矩阵;和分别为隐藏层和输出层的偏置参数矩阵; 表示当前序列数据共有时间步. RNNs的核心思想是在模型的不同时间步对参8 期赵杰等: 递归最小二乘循环神经网络2051数进行共享, 将每一时间步的隐藏层输出值加权输入到其下一时间步的计算中, 从而令权重参数学习到序列数据不同时间步之间的关联特征并进行泛化. 输出层则根据实际问题选择将哪些时间步输出,比较常见的有序列数据的分类问题和预测问题. 对序列数据预测问题, 输出层每一时间步均有输出;对序列数据分类问题, 输出层没有图1虚线框中的时间步输出, 即仅在最后一个时间步才有输出.图 1 RNN 模型结构Fig. 1 RNN model structureRNNs 通过前向传播来获得实际输出, 其计算过程可描述为H s,t =φ(X s,t U s −1+H s,t −1W s −1+1×b H s −1)(1)O s,t =σ(H s,t V s −1+1×b O s −1)(2)1m φ(·)σ(·)其中, 为 行全1列向量; 和分别为隐藏层和输出层的激活函数, 常用的激活函数有sig-moid 函数与tanh 函数等. 为了便于后续推导和表达的简洁性, 以上两式可用增广矩阵进一步表示为R H s,t ∈R m ×(a +h +1)R O s,t ∈Rm ×(h +1)ΘH s −1∈R(a +h +1)×hΘO s −1∈R(h +1)×d其中, , 分别为隐藏层与输出层的输入增广矩阵; , 分别为隐藏层与输入层的权重参数增广矩阵, 即R H s,t =[X s,tH s,t −11](5)R Os,t =[H s,t1](6)RNNs 的参数更新方式和所采用的优化算法密切相关, 基于SGD 算法的RNNs 模型优化通常借助于最小化目标函数反向传播完成. 常用目标函数有交叉熵函数、均方误差函数、Logistic 函数等. 这里仅考虑均方误差目标函数Y ∗s,t ∈Rm ×dX s,t Θs −1t 0t 0=τt 0=1其中, 为 对应的期望输出; 为网络中的所有参数矩阵; 表示输出层的起始输出时间步, 如果是分类问题, , 如果是序列预测问题, 则 , 下文延续该设定, 不再赘述.ˆ∇O s=∂ˆJ (Θs −1)∂ΘOˆ∇O s 令 , 由式(9)和链导法则, 则 为ˆ∆O s,t=∂ˆJ(Θs −1)∂Z O其中, , 即◦Z Os,t 式中, 为Hadamard 积, 为输出层非激活线性输出, 即则该层参数更新规则可定义为α其中,为学习率.ˆ∇H s =∂J (Θs −1)∂ΘH s −1令 , 根据BPTT (Back propag-ation through time)算法[26], 由式(9)和链导法则可得ˆ∆H s,t=∂ˆJ(Θs −1)∂Z H s,t其中, 为目标函数对于隐藏层非激活线性输出的梯度, 即˜∆H s,t =[ˆ∆O s,t ,ˆ∆H s,t +1],˜ΘH s −1=[V s −1,W s −1],Z H s,t 其中, 为隐藏层非激活线性输出, 即则该层参数更新规则可定义为1.2 RLS 算法RLS 是一种最小二乘优化算法的递推化算法,2052自 动 化 学 报48 卷X t ={x 1,···,x t }Y ∗t ={y ∗1,···,y ∗t }不但收敛速度很快, 而且适用于在线学习. 设当前训练样本输入集 , 对应的期望输出集为 . 其目标函数通常定义为w λ∈(0,1]其中, 为权重向量; 为遗忘因子.∇w J (w )=0令 ,可得整理后可表示为其中,为了避免昂贵的矩阵求逆运算且适用于在线学习, 令将式(21)和式(22)改写为如下递推更新形式由Sherman-Morrison-Woodbury 公式[27]易得其中,g t 其中,为增益向量. 进一步将式(23)、(25)和(26)代入式(20), 可得当前权重向量的更新公式为其中,2 基于RLS 优化的RNNs 算法RLS 算法虽然具有很快的学习速度, 然而只适用于线性系统. 我们注意到在RNNs 中, 如果不考虑激活函数, 其隐藏层和输出层的输出计算依旧是σ(·)σ−1(·)线性的, 本节将基于这一特性来构建新的迷你批RLS 优化算法. 假定输出层激活函数 存在反函数 , 并仿照RLS 算法将输出层目标函数定义为s s Z O ∗n,t 其中,代表共有 批训练样本; 为输出层的非激活线性期望值, 即因此, RNNs 参数优化问题可以定义为H s,t O s,t Z Os,t 由于RNNs 前向传播并不涉及权重参数更新,因此本文所提算法应用于RNNs 训练时, 其前向传播计算与第1.1节介绍的SGD-RNN 算法基本相同, 同样采用式(3)计算, 唯一区别是此处并不需要计算 , 而是采用式(12)计算 . 本节将只考虑RLS-RNN 的输出层和隐藏层参数更新推导.2.1 RLS-RNN输出层参数更新推导∇ΘO =∂J (Θ)∂ΘO令 , 由式(31)和链导法则可得∆O n,t =∂J (Θ)∂Z O其中, , 即ΘO ∗∇ΘO =0为了求取最优参数 , 进一步令 , 即将式(35)代入式(36), 得ΘO s 整理可得 的最小二乘解其中,类似于RLS 算法推导, 以上两式可进一步写成8 期赵杰等: 递归最小二乘循环神经网络2053如下递推形式R O s,t,k ∈Rh +1(R O s,t )T k Z O ∗s,t,k ∈R d (Z O ∗s,t )Tk A O s 其中, 为 的第 列向量, 为 的第 列向量. 但是, 由于此处RN-Ns 基于迷你批训练, 式(41)并不能像式(24)那样直接利用Sherman-Morrison-Woodbury 公式求解 的逆.ΘO s −1A O s −1B Os −1考虑到同一批次中各样本 , 和 是相同的, 借鉴SGD 计算迷你批平均梯度思想, 接下来采用平均近似方法来处理这一问题. 因为式(41)和式(42)可以重写为如下形式其中,(A O s )−1ΘOs 因而可使用如下公式来近似求得和 为P O s =(A O s )−1令 , 根据式(47)和式(38)以及Sherman-Morrison-Woodbury 公式, 整理后得如下更新式为∆O s,t,k ∈R d(∆O s,t )T k 其中, 为 的第 列向量, 且ΛO s,t,k =P O s −1R Os,t,k(51)2.2 RLS-RNN 隐藏层参数更新推导∇ΘH =∂J (Θ)∂ΘH令 , 由式(31)和链导法则可得∆H n,t =∂J (Θ)∂Z H n,t其中, , 使用BPTT 算法计算其具体形式为´∆H n,t =∆O n,t ,∆H n,t +1∇ΘH =0其中, . 进一步令 , 可得φ′(Z Hs,t )ΘH 然而, 式(54)非常复杂, 且 一般为非线性, 我们并不能将式(54)代入式(55)求得隐藏层参数 的最小二乘解.∆H n,t ΘH J H (ΘH )接下来我们提出一种新的方法来导出 的等价形式, 藉此来获得 的最小二乘解. 临时定义一个新的隐藏层目标函数Z H ∗n,t J (Θ)→0J H (ΘH )→0其中, 为该层非激活线性输出期望值. 显然, 如果 , 那么 . 即∂J H(ΘH)∂ΘH=0令 , 得∆H n,t 对比式(55)和式(58), 可以得到 的另一种等价定义形式ηηZ H n,t =R H n,t ΘH其中, 为比例因子. 理论上讲,不同迷你批数据对应的 应该有一定的差别. 但考虑到各批迷你批数据均是从整个训练集中随机选取, 因此可忽略这一差别. 根据式(16)可知 , 且将式(59)代入式(55), 得ΘH s 进一步整理, 可得 的最小二乘解2054自 动 化 学 报48 卷其中,P H s =(A H s )−1式(61)的递归最小二乘解推导过程类似于输出层参数更新推导. 令 , 同样采用上文的近似平均求解方法, 易得∆H s,t,k ∈R h (∆H s,t )Tk 其中, 为 的第 列向量, 且ΛH s,t,k =P H s −1RHs,t,k(66)Z H ∗s,t ∆H s,t 需要说明的是, 因为我们并不知道隐藏层期望输出 , 所以实际上不能通过式(59)来求取. 幸运的是, 式(54)与(59)等价, 因此在算法具体实现中, 采用式(54)来替换式(59).综上, RLS-RNN 算法如算法 1所示.算法 1. 基于RLS 优化的RNN 算法{(X 1,Y ∗1),(X 2,Y ∗2),···,(X N ,Y ∗N )},τληαRequire: 迷你批样本 时间步 , 遗忘因子 , 比例因子 , 协方差矩阵初始参数 ;ΘH 0ΘO0P H 0=αI H ,P O 0=αI O ;Initialize: 初始化权重矩阵 和 , 初始化协方差矩阵 s =1,2,···,N for do H s,0=0 设置 ;t =1,2,···,τ for do H s,t 用式(3)计算 ;Z s,t 用式(12)计算 ; end fort =τ,τ−1,···,1 for do ∆O s,t 用式(35)计算 ;∆H s,t 用式(54)计算 ;k =1,···,m for doΛO s,t,k G O s,t,k 用式(51), (52)计算 , ;ΛH s,t,k G H s,t,k 用式(66), (67)计算 , ; end for end forP Os ΘO s 用式(49), (50)更新 , ;P Hs ΘH s 用式(64), (65)更新 , ; end for .3 分析与改进3.1 复杂度分析τm a h d a d h 在RNNs 当前所用优化算法中, SGD 是时间和空间复杂度最低的算法. 本节将以SGD-RNN 为参照, 来对比分析本文提出的RLS-RNN 算法的时间和空间复杂度. 两个算法采用一个迷你批样本数据集学习的时间和空间复杂度对比结果如表1所示. 从第1节介绍可知, 表示序列数据时间步长度, 表示批大小, 表示单个样本向量的维度, 表示隐藏层神经元数量, 表示输出层神经元数量.在实际应用中, 和 一般要小于 , 因而RLS-RNN 的时间复杂度和空间复杂度大约为SGD-RNN 的3倍. 在实际运行中, 我们发现RLS-RNN 所用时间和内存空间大约是SGD-RNN 的3倍, 与本节理论分析结果正好相吻合.所提算法只需在RNNs 的隐藏层和输出层各设置一个矩阵, 而以前的RLS 优化算法则需为RNNs 隐藏层和输出层的每一个神经元设置一个与所提算法相同规模的协方差矩阵, 因而所提算法在时间和空间复杂度上有着大幅降低. 此外, 所提算法采用了深度学习广为使用的迷你批训练方式, 使得其可用于处理较大规模的数据集.λ3.2 自适应调整λλλ众多研究表明, 遗忘因子 的取值对RLS 算法性能影响较大[28], 特别是在RLS 处理时变任务时影响更大. 由于本文所提算法建立在传统RLS 基础之上, 因而RLS-RNN 的收敛质量也易受 的取值影响. 在RLS 研究领域, 当前已有不少关于 自适应调整方面的成果[28−29], 因此可以直接利用这些成果对RLS-RNN 作进一步改进.λs 在文献[29]基础上, 本小节直接给出一种 自适应调整方法. 对第 迷你批样本, RLS-RNN 各层中的遗忘因子统一定义为λmax κ>1λs κλs ξλs q s σes其中, 接近于1, 用于控制 更新, 一般建议取2, 通常 取值越小, 更新越频繁; 是一个极小的常数, 防止在计算 时分母为0; , 8 期赵杰等: 递归最小二乘循环神经网络2055σv s 和 定义为µ07/8;µ1=1−1/(ς1m )ς1≥2;µ2=1−1/(ς2m )ς2>ς1其中, 建议取 , 通常 , 且 .λs λλ当然, 采用以上方式更新 将会引入新的超参数, 给RLS-RNN 的调试带来一定困难. 从使用RLS-RNN 的实际经验来看, 也可采用固定的 进行训练, 建议将 取值设置在0.99至1之间.3.3 过拟合预防传统RLS 算法虽然具有很快的收敛速度, 但也经常面临过拟合风险, RLS-RNN 同样面临这一风险. 类似于第3.2节, 同样可以利用RLS 领域关于这一问题的一些研究成果来改进RLS-RNN.L 1Ek șio ğlu [30]提出了一种 正则化RLS 方法,即在参数更新时附加一个正则化项. 对其稍加改进,则在式(50)和式(65)的基础上可分别重新定义为γG O s,t =G O s,t,1,···,G Os,t,m G H s,t =[G H s,t,1,···,G H s,t,m ]其中, 为正则化因子, ,.实际上, 除了这种方法外, 读者也可采用其他正则化方法对RLS-RNN 作进一步改进.4 仿真实验αη为了验证所提算法的有效性, 本节选用两个序列数据分类问题和两个序列数据预测问题进行仿真实验. 其中, 两个分类问题为MNIST 手写数字识别分类[31]和IMDB 影评正负情感分类, 两个预测问题为Google 股票价格预测[32]与北京市PM2.5污染预测[33]. 在实验中, 将着重验证所提算法的收敛性能、超参数 和 选取的鲁棒性. 在收敛性能验证中, 选用主流一阶梯度优化算法SGD 、Momentum 和Adam 进行对比, 所有问题的实验均迭代运行150Epochs; 在超参数鲁棒性验证中, 考虑到所提算法收敛速度非常快, 所有问题的实验均只迭代运行50Epochs. 为了减少实验结果的随机性, 所有实验均重复运行5次然后取平均值展示结果. 此外, 为了观察所提算法的实际效果, 所有优化算法在RN-Ns 参数更新过程均不进行Dropout 处理. 需要特别说明的是: 对前两个分类问题, 由于时变性不强,所提算法遗忘因子采用固定值方式而不采用第3.2表 1 SGD-RNN 与RLS-RNN 复杂度分析Table 1 Complexity analysis of SGD-RNN and RLS-RNNSGD-RNNRLS-RNN时间复杂度O s O (τmdh )—Z s —O (τmdh ) H s O (τmh (h +a ))O (τmh (h +a ))∆O sO (4τmd ) O (3τmd ) ∆H sO (τmh (h +d ))O (τmh (h +d )) P O s —O (2τmh 2) P H s—O (2τm (h +a )2)ΘO s O (τmdh ) O (τmdh ) ΘH s O (τmh (h +a )) O (τmh (h +a ))合计O (τm (3dh +3h 2+2ha ))O (τm (7h 2+2a 2+3dh +6ha ))空间复杂度ΘO s O (hd ) O (hd ) ΘH sO (h (h +a ))O (h (h +a )) P Hs —O ((h +a )2)P O s—O (h 2)合计O (h 2+hd +ha )O (hd +3ha +a 2+3h 2)2056自 动 化 学 报48 卷节所提方式; 对后两个预测问题, 所提算法遗忘因子将采用第3.2节所提方式; 所提算法对4个问题均将采用第3.3节所提方法防止过拟合.4.1 MNIST 手写数字识别分类28×28MNIST 分类问题的训练集与测试集分别由55 000和10 000幅 像素、共10类灰度手写数字图片组成, 学习目标是能对给定手写数字图片进行识别. 为了适应RNNs 学习, 将训练集和测试集中的每张图片转换成一个28时间步的序列, 每时间步包括28个像素输入, 图片类别采用One-hot 编码.tanh (·).tanh (·)tanh −1(1)tanh −1(−1)tanh −1(x )x ≥0.997tanh −1(x )=tanh −1(0.997)x ≤−0.997,tanh −1(x )=tanh −1(−0.997)该问题所用RNN 模型结构设置如下: 1) 输入层输入时间步为28, 输入向量维度为28. 2) 隐藏层时间步为28, 神经元数为100, 激活函数为 3) 输出层时间步为1, 神经元数为10, 激活函数为. 由于 和 分别为正、负无穷大, 在具体实现中, 对 , 我们约定: 若, 则 ; 若 则 . RNN 模型权重参数采用He 初始化[34].在收敛性能对比验证中, 各优化算法超参数设ληαγβ1β2ϵ10−8αηλ=0.9999γ=0.0001η=1α=0.01,0.1,0.2, (1)=0.9999,γ=0.0001α=0.4,η=0.1,1,2,···,10置如下: RLS 遗忘因子 为0.9999, 比例因子 为1, 协方差矩阵初始化参数 为0.4, 正则化因子 为0.0001; SGD 学习率为0.05; Momentum 学习率为0.05, 动量参数0.5; Adam 学习率0.001, 设为0.9, 为0.999, 设为 . 在超参数 和 选取的鲁棒性验证中, 采用控制变量法进行测试: 1)固定 , 和 , 依次选取 验证; 2) 固定 和 依次选取 验证.αηαα在上述设定下, 每一Epoch 均将训练集随机划分成550个迷你批, 批大小为100. 每训练完一个Epoch, 便从测试集中随机生成50个迷你批进行测试, 统计其平均分类准确率. 实验结果如图2(a)、表2和表3所示. 由图2(a)可知, RLS 在第1个Epoch 便可将分类准确率提高到95%以上, 其收敛速度远高于其他三种优化算法, 且RLS 的准确率曲线比较平滑, 说明参数收敛比较稳定. 表2和表3记录了该实验取不同的 和 时第50 Epoch 的平均分类准确率. 从表2中不难看出, 不同初始化因子 在第50 Epoch 的准确率都在97.10%到97.70%之间波动, 整体来说比较稳定, 说明 对算法性能图 2 收敛性比较实验结果Fig. 2 Experimental results on the convergence comparisons8 期赵杰等: 递归最小二乘循环神经网络2057ηηαη影响较小. 从表3中可知, 不同 取值的准确率均在97.04%到97.80%之间, 波动较小, 取值对算法性能的影响也不大. 综上, RLS 算法的 和 取值均具有较好的鲁棒性.4.2 IMDB 影评情感分类IMDB 分类问题的训练集和测试集分别由25 000和10 000条电影评论组成, 正负情感评论各占50%,学习目标是能对给定评论的感情倾向进行识别. 为了适应RNNs 学习, 首先从Keras 内置数据集加载训练集和测试集的各条评论, 选取每条评论前32个有效词构成一个时间步序列, 然后对该评论中的每个有效词以GloVe.6B 预训练模型[35]进行词嵌入, 使得每个时间步包括50个输入维度, 评论的正负情感类别采用One-hot 编码.tanh (·)tanh (·)tanh −1(x )该问题所用RNN 模型结构设置如下: 1) 输入层输入时间步为32, 输入向量维度为50. 2) 隐藏层时间步为32, 神经元数为100, 激活函数为 .3) 输出层时间步为1, 神经元数为2, 激活函数为. 问题和RNN 模型权重参数的初始化按第4.1节方式同样处理.ληαγβ1β2ϵ10−8αηλ=0.9999,γ=0.001η=1α=0.01,0.1,0.2,···,1λ=0.9999,γ=0.001α=0.4η=0.1,1,2,···,10在收敛性能对比验证中, 各优化算法超参数设置如下: RLS 遗忘因子 为0.9999, 比例因子 为1, 协方差矩阵初始化参数 为0.4, 正则化因子 为0.001; SGD 学习率为0.05; Momentum 学习率为0.05, 动量参数0.5; Adam 学习率0.0001, 设为0.9, 设为0.999, 设为 . 在超参数 和 选取的鲁棒性验证中, 同样采用控制变量法进行测试: 1) 固定 和 , 依次选取 验证; 2) 固定 和 , 依次选取 验证.αηααηηαη在上述设定下, 每一Epoch 均将训练集随机划分成250个迷你批, 批大小为100. 每训练完一个Epoch, 便从测试集中随机生成50个迷你批进行测试, 统计其平均分类准确率. 实验结果如图2(b)、表2和表3所示. 由图2(b)可知, SGD 与Mo-mentum 的收敛不太稳定, 波动比较大, 而Adam 的准确率曲线则比较平滑, 这三者在训练初期的准确率都比较低. 相比之下, RLS 在训练初期的准确率已经比较接近后期预测准确率, 前期收敛速度极快, 整体准确率也明显优于其余三种优化算法. 表2和表3记录了IMDB 实验取不同的 和 时第50Epoch 的平均分类准确率. 由表2易知不同 的情况下准确率浮动范围比较小, 因此不同 对算法的影响比较小. 由表3可知, 采用不同 时其准确率在72.86%到73.82%之间浮动, 可见 的取值对算法性能影响较小. 综上, RLS 算法的 和 取值在本实验中同样都具有较好的鲁棒性.4.3 Google 股票价格预测Google 股票价格预测问题的数据源自Google 公司从2010年1月4日到2016年12月30日的股价记录, 每日股价记录包括当日开盘价、当日最低价、当日最高价、交易笔数及当日调整后收盘价五种数值, 学习目标是能根据当日股价预测调整后次日收盘价. 为了适应RNNs 学习, 首先对这些数值进行归一化处理, 然后以连续50个交易日为单位进行采样, 每次采样生成一条5维输入序列数据,同时将该次采样后推一个交易日选取各日调整后收盘价生成对应的一维期望输出序列数据, 取前1 400条序列数据的训练集, 后续200条序列数据为测试α表 2 初始化因子 鲁棒性分析αTable 2 Robustness analysis of the initializing factor α0.010.10.20.30.40.50.60.70.80.9 1.0MNIST 分类准确率 (%)97.1097.3697.3897.3597.5797.7097.1997.2797.4297.2597.60IMDB 分类准确率 (%)72.2173.5073.2473.3274.0273.0173.6873.2573.2073.4273.12×10−4股价预测MSE ( ) 5.32 5.19 5.04 5.43 5.42 5.30 4.87 4.85 5.32 5.54 5.27×10−3PM2.5预测MSE ( )1.581.551.531.551.611.551.551.541.571.581.57η表 3 比例因子 鲁棒性分析ηTable 3 Robustness analysis of the scaling factor η0.1 1.0 2.0 3.0 4.0 5.0 6.07.08.09.010.0MNIST 分类准确率 (%)97.8097.5997.4897.6197.0497.6297.4497.3397.3897.3797.45IMDB 分类准确率 (%)73.5873.4673.6273.7673.4473.8273.7172.9772.8673.1273.69×10−4股价预测MSE ( ) 5.70 5.32 5.04 5.06 5.61 4.73 5.04 5.14 4.85 4.97 5.19×10−3PM2.5预测MSE ( )1.531.551.561.591.561.531.581.551.541.501.522058自 动 化 学 报48 卷。

ps理论考核试题及答案

ps理论考核试题及答案

ps理论考核试题及答案一、名词解释(每题5分,共25分)1. 感知器(Perceptron)2. 线性可分支持向量机(Linearly separable support vector machine)3. 核函数(Kernel function)4. 反向传播算法(Backpropagation algorithm)5. 卷积神经网络(Convolutional neural network)二、选择题(每题5分,共25分)1. 以下哪个不是神经网络的激活函数?A. sigmoidB. ReLUC. hyperbolic tangentD. linear2. 在训练神经网络时,以下哪种方法可以用于防止过拟合?A. 增加训练数据量B. 减少神经网络的复杂度C. 增加隐层神经元数量D. 使用正则化技术3. 以下哪个优化算法通常用于训练深度学习模型?A. gradient descentB. conjugate gradientC. Newton's methodD. Levenberg-Marquardt algorithm4. 在图像识别任务中,以下哪种方法可以用于特征提取?A. 最大池化(Max pooling)B. 平均池化(Average pooling)C. 卷积操作(Convolution)D. 全连接层(Fully connected layer)5. 以下哪个技术可以用于提高神经网络的训练速度?A. batch normalizationB. dropoutC. data augmentationD. parallel computing三、简答题(每题10分,共30分)1. 请简要解释神经网络的基本结构,包括输入层、隐藏层和输出层。

2. 请简要介绍反向传播算法在训练神经网络时的作用。

3. 请简要说明卷积神经网络在图像识别任务中的优势。

四、案例分析(共45分)假设你是一名数据科学家,公司希望开发一个智能客服系统,用于回答客户的问题。

共指消解模型

共指消解模型

共指消解模型共指消解(Coreference Resolution)是自然语言处理(NLP)中的一个基本任务,其主要目的是自动识别表示同一个实体的名词短语或代词,并将它们归类。

在自然语言文本中,实体可能以不同的形式出现,例如专有名词、名词性词和代词等。

共指消解的任务就是找出这些不同形式的实体之间指代同一实体的关系。

共指消解模型是指用于解决这一问题的算法或方法。

常见的共指消解模型主要有以下几类:1、基于规则的方法:这类方法主要依靠预先设计的规则来识别和处理共指关系。

例如,可以根据实体和指称之间的关系、实体和实体之间的距离等因素来识别共指关系。

然而,这类方法在面对复杂和多样化的语言现象时,效果可能有限。

2、基于统计学习的方法:这类方法通过训练数据来学习共指消解的模型。

常见的算法有条件随机场(CRF)、朴素贝叶斯(Naive Bayes)和 Support Vector Machine(SVM)等。

这类方法可以在较大程度上克服规则方法的局限性,但对于一些复杂的共指现象仍可能存在误判。

3、基于深度学习的方法:随着深度学习技术的快速发展,研究者开始将其应用于共指消解任务。

常见的深度学习模型有循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)和卷积神经网络(CNN)等。

这类方法可以在大量数据上进行训练,从而更好地捕捉共指关系。

然而,深度学习模型通常需要大量的计算资源和时间。

4、基于注意力机制的方法:注意力机制是一种机制,可以使得模型在输入序列中关注与当前目标实体相关的部分。

通过引入注意力机制,模型可以更好地捕捉共指关系,提高消解效果。

5、融合方法:为了综合利用不同方法的优势,一些研究者开始将多种方法进行融合。

例如,可以将基于规则的方法和基于统计学习的方法相结合,或者将深度学习模型与注意力机制相结合等。

高斯朴素贝叶斯训练集精确度的英语

高斯朴素贝叶斯训练集精确度的英语

高斯朴素贝叶斯训练集精确度的英语Gaussian Naive Bayes (GNB) is a popular machine learning algorithm used for classification tasks. It is particularly well-suited for text classification, spam filtering, and recommendation systems. However, like any other machine learning algorithm, GNB's performance heavily relies on the quality of the training data. In this essay, we will delve into the factors that affect the training set accuracy of Gaussian Naive Bayes and explore potential solutions to improve its performance.One of the key factors that influence the training set accuracy of GNB is the quality and quantity of the training data. In order for the algorithm to make accurate predictions, it needs to be trained on a diverse and representative dataset. If the training set is too small or biased, the model may not generalize well to new, unseen data. This can result in low training set accuracy and poor performance in real-world applications. Therefore, it is crucial to ensure that the training data is comprehensive and well-balanced across different classes.Another factor that can impact the training set accuracy of GNB is the presence of irrelevant or noisy features in the dataset. When the input features contain irrelevant information or noise, it can hinder the algorithm's ability to identify meaningful patterns and make accurate predictions. To address this issue, feature selection and feature engineering techniques can be employed to filter out irrelevant features and enhance the discriminative power of the model. Byselecting the most informative features and transforming them appropriately, we can improve the training set accuracy of GNB.Furthermore, the assumption of feature independence in Gaussian Naive Bayes can also affect its training set accuracy. Although the 'naive' assumption of feature independence simplifies the model and makes it computationally efficient, it may not hold true in real-world datasets where features are often correlated. When features are not independent, it can lead to biased probability estimates and suboptimal performance. To mitigate this issue, techniques such as feature extraction and dimensionality reduction can be employed to decorrelate the input features and improve the training set accuracy of GNB.In addition to the aforementioned factors, the choice of hyperparameters and model tuning can also impact the training set accuracy of GNB. Hyperparameters such as the smoothing parameter (alpha) and the covariance type in the Gaussian distribution can significantly influence the model's performance. Therefore, it is important to carefully tune these hyperparameters through cross-validation andgrid search to optimize the training set accuracy of GNB. By selecting the appropriate hyperparameters, we can ensure that the model is well-calibrated and achieves high accuracy on the training set.Despite the challenges and limitations associated with GNB, there are several strategies that can be employed to improve its training set accuracy. By curating a high-quality training dataset, performing feature selection and engineering, addressing feature independence assumptions, and tuning model hyperparameters, we can enhance the performance of GNB and achieve higher training set accuracy. Furthermore, it is important to continuously evaluate and validate the model on unseen data to ensure that it generalizes well and performs robustly in real-world scenarios. By addressing these factors and adopting best practices in model training and evaluation, we can maximize the training set accuracy of Gaussian Naive Bayes and unleash its full potential in various applications.。

R语言常用计量分析包

R语言常用计量分析包

R语言常用计量分析包CRAN任务视图:计量经济学线形回归模型(Linear regression models)线形模型可用stats包中lm()函数通过OLS来拟合,该包中也有各种检验方法用来比较模型,如:summary() 和anova()。

lmtest包里的coeftest()和waldtest()函数是也支持渐近检验(如:z检验而不是检验,卡方检验而不是F检验)的类似函数。

car包里的linear.hypothesis()可检验更一般的线形假设。

HC和HAC协方差矩阵的这些功能可在sandwich包里实现。

car和lmtest包还提供了大量回归诊断和诊断检验的方法。

工具变量回归(两阶段最小二乘)由AER包中的ivreg()提供,其另外一个实现sem包中的tsls()。

微观计量经济学(Microeconometrics)许多微观计量经济学模型属于广义线形模型,可由stats包的glm()函数拟合。

包括用于选择类数据(choice data)的Logit和probit模型,用于计数类数据(count data)的poisson模型。

这些模型回归元的值可用effects获得并可视化。

负二项广义线形模型可由MASS包的glm.nb()实现。

aod包提供了负二项模型的另一个实现,并包含过度分散数据的其它模型。

边缘(zero-inflated)和hurdle计数模型可由pscl包提供。

多项响应(Multinomial response):特定个体协变量(individual-specific covariates)多项模型只能由nnet包中multinom()函数提供。

mlogit包实现包括特定个体和特定选择(choice-specific)变量。

多项响应的广义可加模型可由VGAM包拟合。

针对多项probit模型的贝叶斯方法由MNP包提供,各种贝叶斯多项模型(包括logit和probit)在bayesm包中可得。

语义三元组提取-概述说明以及解释

语义三元组提取-概述说明以及解释

语义三元组提取-概述说明以及解释1.引言1.1 概述概述:语义三元组提取是一种自然语言处理技术,旨在从文本中自动抽取出具有主谓宾结构的语义信息。

通过将句子中的实体与它们之间的关系抽取出来,形成三元组(subject-predicate-object)的形式,从而获得更加结构化和可理解的语义信息。

这项技术在信息检索、知识图谱构建、语义分析等领域具有广泛的应用前景。

概述部分将介绍语义三元组提取的基本概念、意义以及本文所要探讨的重点内容。

通过对语义三元组提取技术的介绍,读者可以更好地理解本文后续内容的研究意义和应用场景。

1.2 文章结构本文将分为三个主要部分,分别是引言、正文和结论。

在引言部分,将从概述、文章结构和目的三个方面介绍本文的主题内容。

首先,我们将简要介绍语义三元组提取的背景和意义,引出本文的研究对象。

接着,我们将介绍文章的整体结构,明确各个部分的内容安排和逻辑关系。

最后,我们将阐明本文的研究目的,明确本文要解决的问题和所带来的意义。

在正文部分,将主要分为三个小节。

首先,我们将介绍语义三元组的概念,包括其定义、特点和构成要素。

接着,我们将系统梳理语义三元组提取的方法,包括基于规则的方法、基于统计的方法和基于深度学习的方法等。

最后,我们将探讨语义三元组在实际应用中的场景,包括知识图谱构建、搜索引擎优化和自然语言处理等方面。

在结论部分,将对前文所述内容进行总结和展望。

首先,我们将概括本文的研究成果和亮点,指出语义三元组提取的重要性和必要性。

接着,我们将展望未来研究方向和发展趋势,探索语义三元组在智能技术领域的潜在应用价值。

最后,我们将用简洁的语言作出结束语,强调语义三元组提取对于推动智能化发展的意义和价值。

1.3 目的本文的目的是介绍语义三元组提取这一技术,并探讨其在自然语言处理、知识图谱构建、语义分析等领域的重要性和应用价值。

通过对语义三元组概念和提取方法的讨论,希望能够帮助读者更好地理解和应用这一技术,提高对文本语义信息的理解和利用能力。

R的应用领域包介绍

R的应用领域包介绍

R的应用领域包介绍 By R-FoxAnalysis of Pharmacokinetic Data 药物(代谢)动力学数据分析网址:/web/views/Pharmacokinetics.html维护人员:Suzette Blanchard版本:2008-02-15翻译:R-fox, 2008-04-12药物(代谢)动力学数据分析的主要目的是用非线性浓度时间曲线(concentration time curve)或相关的总结(如曲线下面积)确定给药方案(dosing regimen)和身体对药物反应间的关系。

R基本包里的nls()函数用非线性最小二乘估计法估计非线性模型的参数,返回nls类的对象,有 coef(),formula(), resid(),print(), summary(),AIC(),fitted() and vcov()等方法。

在主要目的实现后,兴趣就转移到研究属性(如:年龄、体重、伴随用药、肾功能)不同的人群是否需要改变药物剂量。

在药物(代谢)动力学领域,分析多个个体的组合数据估计人群参数被称作群体药动学(population PK)。

非线性混合模型为分析群体药动学数据提供了自然的工具,包括概率或贝叶斯估计方法。

nlme包用Lindstrom和Bates提出的概率方法拟合非线性混合效应模型(1990, Biometrics 46, 673-87),允许nested随机效应(nested random effects),组内误差允许相关的或不等的方差。

返回一个nlme类的对象表示拟合结果,结果可用print(),plot()和summary() 方法输出。

nlme对象给出了细节的结果信息和提取方法。

nlmeODE包组合odesolve包和nlme包做混合效应建模,包括多个药动学/药效学(PK/PD)模型。

面版数据(panel data)的贝叶斯估计方法在CRAN的Bayesian Inference任务列表里有所描述(/web/views/Bayesian.html)。

自然语言处理中的词向量化技术使用技巧

自然语言处理中的词向量化技术使用技巧

自然语言处理中的词向量化技术使用技巧自然语言处理(Natural Language Processing,简称NLP)是人工智能领域中的一个重要分支,旨在使计算机能够理解、分析和处理人类语言。

词向量化技术是NLP中的一个关键部分,它将文本中的单词转换为向量表示,以便计算机可以对其进行处理和分析。

本文将介绍一些自然语言处理中的词向量化技术使用技巧。

首先,常用的词向量化技术之一是词袋模型(Bag of Words,简称BoW)。

在词袋模型中,文本被表示为一个包含各个单词的集合,忽略了单词的顺序和语法。

常见的BoW模型包括计数向量和TF-IDF向量。

计数向量根据每个单词在文本中的出现次数构建向量,而TF-IDF向量在计数的基础上考虑了单词在整个语料库中的重要性。

使用BoW模型时,可以通过设置单词的最小出现次数、停用词过滤等方式进一步优化向量化结果。

其次,词嵌入模型(Word Embedding)是目前最常用的词向量化技术之一。

词嵌入模型基于分布假设,认为在一个句子中,一个单词的语义信息可以通过上下文单词的分布来表示。

Word2Vec是一个著名的词嵌入模型,它将单词表示为连续向量,可以通过训练语料库中的上下文信息来学习单词的语义。

Word2Vec可以通过Skip-gram和CBOW两种方式进行训练,其中Skip-gram适用于较大的语料库,而CBOW适用于小型语料库。

使用Word2Vec可以获得更加准确的词向量化结果,同时可以实现在向量空间中进行类比和聚类等操作。

除了Word2Vec,还有一种流行的词嵌入模型是GloVe (Global Vectors for Word Representation)。

GloVe使用共现矩阵来训练词向量,将单词之间的共现信息纳入考虑。

与Word2Vec相比,GloVe在处理大型语料库时具有更好的性能,能够捕捉到更丰富的语义信息。

另外,预训练的词向量模型也是常用的词向量化技术之一。

R语言常用计量分析包

R语言常用计量分析包

R语言常用计量分析包CRAN任务视图:计量经济学线形回归模型(Linear regression models)线形模型可用stats包中lm()函数通过OLS来拟合,该包中也有各种检验方法用来比较模型,如:summary() 和anova()。

lmtest包里的coeftest()和waldtest()函数是也支持渐近检验(如:z检验而不是检验,卡方检验而不是F检验)的类似函数。

car包里的linear.hypothesis()可检验更一般的线形假设。

HC和HAC协方差矩阵的这些功能可在sandwich包里实现。

car和lmtest包还提供了大量回归诊断和诊断检验的方法。

工具变量回归(两阶段最小二乘)由AER包中的ivreg()提供,其另外一个实现sem包中的tsls()。

微观计量经济学(Microeconometrics)许多微观计量经济学模型属于广义线形模型,可由stats包的glm()函数拟合。

包括用于选择类数据(choice data)的Logit和probit模型,用于计数类数据(count data)的poisson模型。

这些模型回归元的值可用effects获得并可视化。

负二项广义线形模型可由MASS包的glm.nb()实现。

aod包提供了负二项模型的另一个实现,并包含过度分散数据的其它模型。

边缘(zero-inflated)和hurdle计数模型可由pscl包提供。

多项响应(Multinomial response):特定个体协变量(individual-specific covariates)多项模型只能由nnet包中multinom()函数提供。

mlogit包实现包括特定个体和特定选择(choice-specific)变量。

多项响应的广义可加模型可由VGAM包拟合。

针对多项probit模型的贝叶斯方法由MNP包提供,各种贝叶斯多项模型(包括logit和probit)在bayesm包中可得。

211049366_基于因果建模的强化学习控制

211049366_基于因果建模的强化学习控制

基于因果建模的强化学习控制: 现状及展望孙悦雯 1柳文章 2孙长银1, 3, 4摘 要 基于因果建模的强化学习技术在智能控制领域越来越受欢迎. 因果技术可以挖掘控制系统中的结构性因果知识,并提供了一个可解释的框架, 允许人为对系统进行干预并对反馈进行分析. 量化干预的效果使智能体能够在复杂的情况下(例如存在混杂因子或非平稳环境) 评估策略的性能, 提升算法的泛化性. 本文旨在探讨基于因果建模的强化学习控制技术(以下简称因果强化学习) 的最新进展, 阐明其与控制系统各个模块的联系. 首先介绍了强化学习的基本概念和经典算法,并讨论强化学习算法在变量因果关系解释和迁移场景下策略泛化性方面存在的缺陷. 其次, 回顾了因果理论的研究方向, 主要包括因果效应估计和因果关系发现, 这些内容为解决强化学习的缺陷提供了可行方案. 接下来, 阐释了如何利用因果理论改善强化学习系统的控制与决策, 总结了因果强化学习的四类研究方向及进展, 并整理了实际应用场景. 最后, 对全文进行总结, 指出了因果强化学习的缺点和待解决问题, 并展望了未来的研究方向.关键词 强化学习控制, 因果发现, 因果推理, 迁移学习, 表示学习引用格式 孙悦雯, 柳文章, 孙长银. 基于因果建模的强化学习控制: 现状及展望. 自动化学报, 2023, 49(3): 661−677DOI 10.16383/j.aas.c220823Causality in Reinforcement Learning Control: The State of the Art and ProspectsSUN Yue-Wen 1 LIU Wen-Zhang 2 SUN Chang-Yin 1, 3, 4Abstract Causality research has shown its potential and advantages in the reinforcement learning community.Beyond the inherent capability of inferring causal structure from data, causality provides an explainable toolset for investigating how a system would react to an intervention. Quantifying the effects of interventions allows action-able decisions to be made while maintaining robustness in the complex system (e.g., in the presence of confounders or under nonstationary environments). This paper explores how causality can be incorporated into different aspects of control systems and introduces recent advances in causal reinforcement learning. First, the concept and al-gorithms of reinforcement learning are introduced, and two main challenges, e.g., lack of causal explanation of ob-servation variables and hard to transfer in transferable environments, are discussed. Second, the lines of research within causality are reviewed, including causal effect estimation and causal discovery, which provide potential solu-tions to address the aforementioned challenges. After that, how to embed causality in reinforcement learning sys-tems is introduced. Four kinds of research advances in causal reinforcement learning are summarized and analyzed,followed by real-world applications. Finally, this paper summarizes and presents opening problems and future work prospects.Key words Reinforcement learning control, causal discovery, causal inference, transfer learning, representation learningCitation Sun Yue-Wen, Liu Wen-Zhang, Sun Chang-Yin. Causality in reinforcement learning control: The state of the art and prospects. Acta Automatica Sinica , 2023, 49(3): 661−677近年来, 人工智能的研究范围不断拓宽, 并在医疗健康、电力系统、智慧交通和机器人控制等多个重要领域取得了卓越的成就. 以强化学习为代表的行为决策和控制技术是人工智能驱动自动化技术的典型代表, 与深度学习相结合构成了机器智能决策的闭环[1]. 强化学习控制是指基于强化学习技术制定控制系统中行动策略的方法. 强化学习的主体,即智能体, 通过交互的手段从环境中获得反馈, 以试错的方式优化行动策略. 由于擅长处理变量间复杂的非线性关系, 强化学习在面对高维和非结构化数据时展现出了极大的优势. 随着大数据时代的到收稿日期 2022-10-18 录用日期 2023-02-10Manuscript received October 18, 2022; accepted February 10,2023国家自然科学基金(62236002, 61921004)资助Supported by National Natural Science Foundation of China (62236002, 61921004)本文责任编委 李鸿一Recommended by Associate Editor LI Hong-Yi1. 东南大学自动化学院 南京 2100962. 安徽大学人工智能学院合肥 2306013. 自主无人系统技术教育部工程研究中心 合肥 2306014. 安徽省无人系统与智能技术工程研究中心 合肥 2306011. School of Automation, Southeast University, Nanjing 2100962. School of Artificial Intelligence, Anhui University, Hefei 2306013. Engineering Research Center of Autonomous Un-manned System Technology, Ministry of Education, Hefei 2306014. Anhui Unmanned System and Intelligent Technology Engin-eering Research Center, Hefei 230601第 49 卷 第 3 期自 动 化 学 报Vol. 49, No. 32023 年 3 月ACTA AUTOMATICA SINICAMarch, 2023来, 强化学习控制技术快速崛起, 在学术界和产业界获得了广泛关注, 并在博弈[2−5]、电力系统[6−7]、自动驾驶[8−9]和机器人系统[10]等领域取得了巨大突破.在实际系统应用中, 强化学习被广泛应用于路径规划和姿态控制等方面, 并在高层消防无人机路径规划[11]和多四旋翼无人机姿态控制[12]等实际任务中取得了良好的控制性能.尽管如此, 强化学习在处理控制任务时仍面临一些缺陷, 主要体现在以下两个方面. 一是难以在强化学习过程中进行因果推理. 大多数强化学习控制算法是基于采样数据间的相关关系完成对模型的训练, 缺少对变量间因果效应的判断. 而在控制任务中, 任务的泛化和模型的预测通常建立在因果关系之上. 越来越多的证据表明, 只关注相关性而不考虑因果性, 可能会引入虚假相关性, 对控制任务造成灾难性的影响[13]. 二是无法在迁移的场景下保证控制算法的泛化性. 泛化性是指强化学习模型迁移到新环境并做出适应性决策的能力, 要求学习的策略能够在相似却不同的环境中推广. 然而在面临环境改变或者任务迁移时, 智能体收集到的观测数据表现出非平稳性或异构性, 训练数据和测试数据的独立同分布条件受到破坏. 在这种情况下, 强化学习算法常常表现不佳, 无法保证策略的泛化性[14−15],难以直接推广到更普遍的控制场景.为了解决上述问题, 目前研究人员尝试在强化学习任务中引入因果理论, 提出了基于因果建模的强化学习控制算法. 因果强化学习的中心任务是在控制问题中建立具有因果理解能力的模型, 揭示系统变量之间的因果关系, 估计数据之间的因果效应,进一步通过干预和推断, 理解智能体的运行机理.近年来, 包括ICLR, NeurIPS, ICML和AAAI在内的人工智能重要国际会议多次设立研讨会, 探索因果理论在机器学习领域的发展和应用[16−19]. 越来越多控制性能优异的因果强化学习算法被陆续提出, 成为最新的研究热点. 建立可解释的因果模型并保证算法的合理决策, 是加速推广强化学习控制算法落地的必要条件, 具有理论意义和应用价值.本文的主旨是梳理目前因果强化学习的研究现状,讨论因果理论如何提供变量间因果关系的解释, 帮助改善非平稳或异构环境下的可迁移的决策, 提高数据利用率, 并对未来工作方向提供可借鉴的思路.本文内容安排如下: 第1节介绍强化学习的基本概念和经典算法, 并指出传统强化学习算法的缺陷. 第2节介绍因果关系和因果模型的概念, 总结因果效应估计和因果关系发现的研究内容, 为解决强化学习的缺陷提供了可行方案. 第3节构建因果强化学习系统的抽象模型, 在此基础上整理出四个研究方向, 综述了因果强化学习的最新研究进展并总结了应用场景. 第4节总结全文, 指出了因果强化学习的缺点和待解决的问题, 并对未来的发展趋势进行展望.1 强化学习概述1.1 强化学习的基本概念t S t A tS t+1R t+1π(A|S) J(π)G(t)=∑∞k=0γk R t+k+1γ∈[0,1]强化学习是解决序贯决策问题的重要范式, 其主要框架如图1所示. 决策的主体称为智能体, 智能体以试错的方式与环境进行交互, 观测当前环境状态并给出执行动作. 具体地, 在任意一个时间步, 智能体根据当前所处环境的状态采取动作,并获得下一时刻的状态和实时奖励. 智能体在不同状态下选择动作的方式被称为策略.强化学习的目标是通过优化策略使得期望累积奖励 最大化. 累积奖励定义为,其中是奖励折扣因子, 用于衡量实时奖励和延迟奖励的权重参数.动作At智能体环境Rt + 1St + 1奖励Rt状态St图 1 强化学习框图Fig. 1 The framework of reinforcement learningS t⟨S,A,P,R,γ⟩S As∈S a∈AP(s′|s,a)s a ss′R(s,a,s′)s a s s′γ∈[0,1]⟨S,A,O,P,R,ϕ,γ⟩如果智能体可以观测到环境的全部状态, 则称环境是完全可观的, 然而在实际应用中, 状态并不一定能包含环境的所有信息. 如果智能体只能观测到环境的局部状态信息, 则称环境是部分可观的.对于完全可观的环境, 强化学习问题通常可描述为马尔科夫决策过程 (Markov decision process, MDP), 用一个五元组表示为. 状态空间和动作空间分别表示所有状态和所有动作的集合; 对于任意和, 状态转移概率表示在状态上执行动作, 状态转移到状态的概率. 奖励函数表示在状态上执行动作, 状态转移到状态获得的实时奖励. 折扣因子用于衡量智能体当前动作对后续奖励的累积影响. 对于部分可观的环境, 我们通常使用部分可观马尔科夫决策过程 (Partially observable MDP, POMDP)描述强化学习问题, 用一个七元组表示为. 与MDP662自 动 化 学 报49 卷S O ϕ:S →O 不同, POMDP 假设智能体无法直接观测到环境的潜在状态, 因此动作的选择是基于观测而非状态.潜在状态空间 表示所有潜在状态的集合; 观测空间 表示所有观测值的集合; 代表潜在状态到观测空间的映射.πV π(s )s π为了分析策略 的优劣, 研究人员使用两类值函数描述期望累积奖励. 状态值函数 指的是从状态 出发, 策略 对应的期望累积奖励, 定义为Q π(s ,a )s a π状态动作值函数 指的是从状态 出发, 执行动作 后再使用策略 的期望累积奖励, 定义为为了方便计算, 我们可以利用递归关系推导出状态值函数和状态动作值函数的贝尔曼方程:s π⪰π′V π(s )≥V π′(s )π∗π∗⪰π,∀πV ∗(s )=max πV π(s )Q ∗(s ,a )=max πQ π(s ,a )根据值函数, 我们可以定义策略的优劣关系: 对于任意状态 , 如果 . 那么对于任意MDP, 存在最优策略 满足 成立,且所有最优策略的状态值函数都等于最优状态值函数 , 所有最优策略的状态动作值函数也等于最优状态动作值函数, 即 .1.2 强化学习的经典算法根据智能体在策略更新中是否用到环境的动力学模型, 强化学习算法可以分为有模型强化学习方法和无模型强化学习方法. 本节从是否利用模型先验知识出发, 对主流的强化学习算法进行梳理, 并将提及的经典算法总结在表1. 关于强化学习算法的更多内容, 请参见强化学习领域的综述[20−23].s t +1=f (s t ,a t )有模型强化学习方法的特点是具有环境的先验知识. 智能体在环境模型上进行规划, 无须与真实环境进行交互便可以优化策略. 因此在相同样本量的前提下, 相对于无模型的方法, 有模型强化学习可以大幅提高数据利用率, 降低采样复杂度. 具体来说, 有模型强化学习方法可以分为两类: 第一类是模型已知的方法, 智能体可以直接利用已知的系统模型和奖励函数进行策略优化. 例如, 在Alpha-Zero 中智能体直接利用已知的围棋规则和奖励函数进行策略优化[24]. 在ExIt 算法中, 智能体利用蒙特卡罗树搜索在棋盘游戏Hex 中进行策略泛化[25].然而在现实情况中, 环境具有复杂性和不可知性,智能体有时无法直接获得环境的模型, 因此衍生了第二类模型可学习的方法. 智能体通过与环境交互收集原始数据, 并基于观测数据估计系统的前向状态转移模型 , 然后进行策略优化.这类问题的研究重点在于如何学习环境模型. 早在1980年代, 利用神经网络拟合环境模型的思想已初现端倪[26−27]. 但是早期的神经网络模型设计较为简单, 难以处理复杂环境下的模型拟合问题. 近年来,研究人员尝试结合线性回归[28]、高斯回归[29]、随机森林[30]、支持向量回归[31]和深度神经网络[32−34]等机器学习方法对模型进行更准确的估计, 其中基于深度学习的深度神经网络由于其良好的特征提取和非线性函数逼近能力, 在模型学习研究中应用最为广泛.为了减少模型误差, 提高模型的准确性, 概率推理控制PILCO (Probabilistic inference for learning control)[29]利用高斯过程学习环境的概率动力学模型, 将模型的不确定性纳入长期规划中. 尽管PILCO 提升了数据利用率, 但是此类方法需要对模型的分布做出高斯假设, 且计算复杂度较高, 只适用于低维数据. 为了解决高斯回归模型难以推广到高维空间的问题, 后续学者利用近似变分推理的贝叶斯神经网络拟合动态模型, 对PILCO 进行了拓展, 提出了深度PILCO 模型[32]. 深度PILCO 根据贝叶斯公式推理网络权值, 既保留了PILCO 算法概率模型的优势, 同时计算复杂度更低, 并成功运表 1 强化学习算法分类及其特点Table 1 Classification of reinforcement learning algorithms强化学习方法具体分类代表性模型算法特点模型已知AlphaZero [24], ExIt [25]状态转移模型已知, 现实场景下不易实现有模型强化学习模型可学习: 结构化数据PILCO [29]数据利用率高, 适用于低维状态空间模型可学习: 非结构化数据E2C [33], DSA [34]与机器学习相结合, 适用于高维冗余状态空间基于值函数的方法SARSA [37], 深度Q 网络[36, 39]采样效率高, 但是无法实现连续控制无模型强化学习基于策略梯度的方法PG [44], TRPO [45], PPO [46]对策略进行更新, 适用于连续或高维动作空间两者结合的方法DDPG [47], Actor-Critic [48]包含两个网络, 分别更新值函数和策略函数3 期孙悦雯等: 基于因果建模的强化学习控制: 现状及展望663用于更加困难的控制任务. 此外, 以视觉信号为输入的控制任务具有高维性和信息冗余性. 学者们通常利用卷积神经网络[35−36]处理高维数据, 并利用变分自编码器提取数据的低维特征, 如嵌入控制E2C (Embed to control)[33]和深度空间自动编码器DSA (Deep spatial autoencoders)[34], 提高了算法的数据利用率. 有模型方法的主要缺点是过度依赖建模精度, 难以处理由模型误差造成的性能下降问题. 例如, 在面对高维复杂的状态动作空间, 或者在交互前期数据量较少时, 有模型的方法难以估计出精确的环境模型. 智能体基于不精确的环境模型进行策略优化, 容易导致双重近似误差, 影响控制性能.πJ (π)J (π)Q V 在无模型强化学习方法中, 智能体直接与环境进行交互, 以端到端的方式优化策略, 不仅更易于实现, 而且策略具有较好的渐进性能, 适用于大数据背景下的深度网络架构. 根据优化对象的不同,无模型的强化学习可分为基于值函数的方法, 基于策略梯度的方法, 以及两者结合的方法. 基于值函数的方法在全局范围内进行贪婪搜索并估计状态动作值函数, 以值函数最大化为目标制定策略, 并基于环境反馈更新值函数. 这类方法采样效率相对较高, 值函数估计方差小, 不易陷入局部最优; 缺点是不能处理连续动作空间任务, 且最终的策略通常为确定性策略而非概率分布的形式. 经典算法包括SARSA (State-action-reward-state-action)[37], Q 学习[38], 深度Q 网络[36, 39]及其变体[40−43]. 基于策略梯度的方法直接针对动作策略进行优化, 在策略空间中针对当前策略 计算累积奖励的梯度值, 以期望累积奖励最大化为目标更新策略. 该类方法直接利用梯度下降优化性能目标 , 或者间接地对 的局部近似函数进行优化. 与基于值函数的方法相比, 基于策略梯度的方法相对直观, 算法收敛速度更快, 适用于连续或高维动作空间的场景. 经典算法包括策略梯度法PG (Policy gradient)[44], 信任域策略优化TRPO (Trust region policy optim-ization)[45]以及近端策略优化PPO (Proximal policy optimization)[46]等. 两者结合的方法基于上述两类方法取长补短, 衍生出了执行−评价方法. 评价网络利用基于值函数的方法学习状态动作值函数 或状态值函数 , 减少了样本方差, 提高了采样效率; 执行网络利用基于策略梯度的方法学习策略函数, 使得算法可以推广到连续或高维的动作空间.经典算法包括深度确定性策略梯度DDPG (Deep deterministic policy gradient)[47], Actor-critc 算法[48]及其变体[49]. 无模型强化学习方法最大的缺点是测试任务需要和环境进行大量的交互, 数据利用率低.在交互代价较高的真实场景中, 由于需要考虑时间消耗、设备损耗和探索过程中的安全性等因素, 无模型的方法难以直接应用到实际场景中.1.3 强化学习的理论困境虽然强化学习被广泛应用于复杂环境下的控制任务, 但是与人类智能相比, 仍然存在以下两类缺陷. 一是无法提供变量 (尤其是高维和非结构化数据) 间因果关系的解释; 二是在迁移场景下无法确保策略的泛化性和系统的鲁棒性.X Y X Y 可解释性研究主要对系统模型的运作机制进行解释, 通过了解模型每个组分的作用, 进而理解整个模型. 在传统的强化学习场景中, 基于统计的算法模型只能根据观测数据学习到变量间的相关性,缺少对于变量间因果关系的判断. 值得注意的是,相关性并不意味着因果性. 如果通过观察发现变量 的分布发生变化时, 变量 的分布也会发生变化,那么可以判定 和 之间存在相关性, 但是否存在因果性还需要进一步判断. 举例来说, 气压计的水银柱高度和下雨概率相关, 但是事实是由于气压发生变化同时造成了水银柱高度和下雨概率发生变化, 水银柱高度和下雨概率之间并不存在直接因果关系. 因此利用深度神经网络等统计手段解决强化学习控制问题时, 可能会引发变量间的因果混淆问题. 此外, 缺乏因果标记的观测数据无法将状态和动作联系起来, 使得算法缺乏可解释性, 限制了强化学习在安全敏感领域 (如自动驾驶和医疗诊断)中的应用. 因此缺乏变量间的因果解释俨然成为阻碍强化学习进一步发展和应用的主要障碍之一.此外, 由于基于深度神经网络的强化学习模型知其然 (关联性) 而不知其所以然 (因果性), 学习到的策略在非平稳或异构环境等迁移场景中往往缺乏鲁棒性与泛化性. 这里非平稳或异构环境指的是底层数据生成过程会随时间或跨域发生变化的环境[50]. 具体来说, 强化学习算法通常要求采样数据满足独立同分布条件. 算法一般需要在相同的环境评估策略的性能, 同时采样数据通常被人工处理为独立同分布 (如深度Q 学习中的经验回放池、异步优势Actor-critic 中的异步采样等技巧), 尽可能地降低样本数据之间的相关性. 否则神经网络的拟合将会出现偏差, 甚至无法稳定收敛. 然而在实际应用中, 观测数据通常是在相对较长的时间段进行采集 (即非平稳性), 或是在不同场景下收集的多领域数据 (即异构性), 因此数据分布会随时间或跨域发生变化. 此时破坏了独立同分布的假设, 强化学习算法性能就会表现得很脆弱[51]. 因此如何在非平稳或异构的场景下确保策略的泛化性与系统的鲁棒664自 动 化 学 报49 卷性, 成为当前研究者面临的挑战. 此外, 对泛化性开展研究有利于提高算法的数据利用率, 减少算法对于数据量的高度依赖. 当前强化学习算法性能很大程度上依赖于海量的数据和充分的算力. 然而在大多数实际场景中, 智能体与环境进行大量交互是不可行甚至危险的, 此时采样数据量往往无法满足算法训练的要求, 进而导致控制性能不佳. 因此在非平稳或异构场景下确保控制策略的可迁移性和自适应性, 是加速推广强化学习落地的必要条件, 具有重要的理论意义和应用价值.2 因果理论概述X Y Y X X Y Y X 从古至今, 人类从未停止关于事物间因果关系的思考. 具备因果关系的推理能力被视为人类智能的重要组成部分[52]. 因果关系指的是原因变量和结果变量之间的作用关系. 具体来说, 在不考虑混杂因子1的前提下, 对变量 实施适当干预会导致变量 的分布发生变化, 但对 实施干预并不会导致 发生变化, 此时可以认为 是 的原因变量, 是 的结果变量.X x (X =x )X Y X Y P (Y X =0=0|X =1,Y =1)引入因果的概念有利于分析系统中特定个体对于干预的响应. 例如在强化学习领域, 研究人员常常关心结果变量 (状态) 在原因变量 (动作) 发生变化时的效应, 诸如 “采取某种动作, 系统的状态会如何变化”或者 “如果采取某种动作, 累积奖励是否会增加”. 第一类问题称为干预, 即手动将变量 设置为某个具体值 , 一般形式化表示为do 算子 . 与标准预测问题不同, 干预会导致数据分布发生改变, 有助于分析变量之间的因果关系. 第二类问题称为反事实推理, 即在事件 已经出现, 并且事件 发生的前提下, 反过来推理如果事件 不出现, 则事件 不发生的概率. 用公式表示为 . 反事实问题致力于推理事件为什么会发生, 想象不同行为的后果, 由此决定采取何种行为来达到期望的结果. 接下来, 我们将从因果分析模型, 因果效应估计和因果关系发现三个方面概述因果理论. 关于因果理论的更多内容, 请参见因果理论的综述[53−57].2.1 因果分析模型得益于现代统计理论的发展, 因果关系已经从过去哲学层面的模糊定义发展到如今数学语言的精确描述. 当前广泛使用的因果分析模型包括潜在结果框架 (Potential outcome framework) 和结构因果模型 (Structural causal model)[58]. 文献[55]指出, 这两种模型在逻辑上是等价的.i i =1,2,···,n T i X i Y i T ∈{0,1}T =1T =0i T =t Y 1i Y 0i Y 1i −Y 0i i E i [Y 1i −Y 0i ]=(1/n )∑n i =1(Y 1i −Y 0i )1) 潜在结果框架. 潜在结果框架在已知因果结构的基础上, 能够估计治疗变量 (Treatment vari-able) 对于结果变量的因果效应. 基于潜在结果框架的工作侧重于因果推断, 即通过操纵某个特定变量的值, 观察另一些因果变量的变化. 对于每个样本 , , 可以观测到治疗变量 、特征变量 和结果变量 . 一般考虑二元治疗变量 , 的群体称为试验组, 的群体称为对照组. 对样本 施加治疗 后, 结果变量存在两个潜在结果 和 . 基于样本的潜在结果, 我们可以定义个体因果效应 , 即对样本 施加与不施加治疗导致结果的差异. 由于个体因果效应是不可识别的, 研究人员通常针对总体识别平均因果效应, 可表示为 .G =(V ,E )V E X →Z X Z n X 1,···,X n X i X i .=f i (Pa (X i ),U i )f i Pa (X i )X i U i 2) 结构因果模型. 结构因果模型通常用于描述变量之间的因果机制, 侧重于寻找变量之间的因果结构, 进行因果关系识别. 结构因果模型由两部分组成: 因果图结构 (一般是有向无环图) 和结构方程模型. 有向无环图 (如图2(a)所示)是描述变量间因果关系的有向图, 以直观的方式嵌入变量因果关系, 其中节点集 代表随机变量, 边集 代表因果关系, 例如 表示 对 有直接因果影响. 结构方程模型 (如图2(b)所示) 用于定量地描述因果关系. 不同于普通的方程模型, 结构方程模型可以表示变量生成过程, 因此具有非对称性. 令 个随机变量 为有向无环图的顶点, 每个变量 都满足方程 ,其中 为非参数函数, 表示 的父辈变量, 为独立于父辈变量的随机噪声. 给定有向无环图以及结构方程模型, 我们可以描述由有向边表示的因果关系.WXYZ(a) 有向无环图(a) Directed acyclic graphW = f 1(X , U 1)Z = f 2(X , U 2)Y = f 3(X , W , U 3)(b) 结构方程模型(b) Structural equation model图 2 结构因果模型及其组成部分Fig. 2 Structural causal model2.2 因果效应估计n [(X 1,T 1,Y 1),···,(X n ,T n ,Y n )]给定 组数据集 ,1混杂因子指的是系统中两个变量未观测到的直接原因.3 期孙悦雯等: 基于因果建模的强化学习控制: 现状及展望665。

斯滕伯格短时记忆提取实验的统计方法

斯滕伯格短时记忆提取实验的统计方法

斯滕伯格短时记忆提取实验的统计方法一、实验介绍斯滕伯格短时记忆提取实验是一种经典的心理学实验,旨在探究人类短时记忆的特点和机制。

该实验包含了多种统计方法,下面将对这些方法进行详细介绍。

二、实验设计斯滕伯格短时记忆提取实验的基本设计如下:1. 实验材料:由20个不同的单音节词汇组成的列表。

2. 实验过程:被试听到一个单音节词汇列表,然后被要求在一定时间内回忆出尽可能多的词汇。

每个试次都有不同数量的单音节词汇。

3. 实验变量:单音节词汇数量和回忆正确率。

4. 实验因素:时间因素(回忆时间限制)。

三、统计方法1. 平均数(Mean)平均数是指将所有数值相加后除以样本数量得到的结果。

在斯滕伯格短时记忆提取实验中,平均数可以用来计算被试在每个试次中回忆出的平均单音节词汇数量。

例如,在10个试次中,被试分别回忆出了2、3、4、5、6、7、8、9、10和11个单音节词汇,则平均数为(2+3+4+5+6+7+8+9+10+11)/10=6。

2. 标准差(Standard Deviation)标准差是指一组数据的离散程度。

在斯滕伯格短时记忆提取实验中,标准差可以用来计算被试在每个试次中回忆出的单音节词汇数量的离散程度。

例如,在10个试次中,被试分别回忆出了2、3、4、5、6、7、8、9、10和11个单音节词汇,则标准差为2.58。

3. 方差(Variance)方差是标准差的平方。

在斯滕伯格短时记忆提取实验中,方差可以用来计算被试在每个试次中回忆出的单音节词汇数量的离散程度。

例如,在10个试次中,被试分别回忆出了2、3、4、5、6、7、8、9、10和11个单音节词汇,则方差为6.67。

4. 正态分布检验(Normality Test)正态分布检验是用来检查数据是否符合正态分布的方法。

在斯滕伯格短时记忆提取实验中,正态分布检验可以用来检查被试在每个试次中回忆出的单音节词汇数量是否符合正态分布。

常用的正态分布检验方法有Kolmogorov-Smirnov检验和Shapiro-Wilk检验。

R的应用领域包介绍

R的应用领域包介绍

R的应用领域包介绍 By R-FoxAnalysis of Pharmacokinetic Data 药物(代谢)动力学数据分析网址:/web/views/Pharmacokinetics.html维护人员:Suzette Blanchard版本:2008-02-15翻译:R-fox, 2008-04-12药物(代谢)动力学数据分析的主要目的是用非线性浓度时间曲线(concentration time curve)或相关的总结(如曲线下面积)确定给药方案(dosing regimen)和身体对药物反应间的关系。

R基本包里的nls()函数用非线性最小二乘估计法估计非线性模型的参数,返回nls类的对象,有 coef(),formula(), resid(),print(), summary(),AIC(),fitted() and vcov()等方法。

在主要目的实现后,兴趣就转移到研究属性(如:年龄、体重、伴随用药、肾功能)不同的人群是否需要改变药物剂量。

在药物(代谢)动力学领域,分析多个个体的组合数据估计人群参数被称作群体药动学(population PK)。

非线性混合模型为分析群体药动学数据提供了自然的工具,包括概率或贝叶斯估计方法。

nlme包用Lindstrom和Bates提出的概率方法拟合非线性混合效应模型(1990, Biometrics 46, 673-87),允许nested随机效应(nested random effects),组内误差允许相关的或不等的方差。

返回一个nlme类的对象表示拟合结果,结果可用print(),plot()和summary() 方法输出。

nlme对象给出了细节的结果信息和提取方法。

nlmeODE包组合odesolve包和nlme包做混合效应建模,包括多个药动学/药效学(PK/PD)模型。

面版数据(panel data)的贝叶斯估计方法在CRAN的Bayesian Inference任务列表里有所描述(/web/views/Bayesian.html)。

Extremal quantile regression

Extremal quantile regression

1. Introduction. Regression quantiles [Koenker and Bassett (1978)] estimate conditional quantiles of a response variable Y given regressors X . They extend Laplace’s (1818) median regression (least absolute deviation estimator) and generalize the ordinary sample quantiles to the regression setting. Regression quantiles are used widely in empirical work and studied extensively in theoretical statistics. See, for example, Buchinsky (1994), Chamberlain (1994), Chaudhuri, Doksum and Samarov (1997), Gutenbrunner and Jureˇ ckov´ a (1992), Hendricks and Koenker (1992), Knight (1998), Koenker and Portnoy (1987), Portnoy and Koenker (1997), Portnoy (1991a) and Powell (1986), among others.
The Annals of Statistics 2005, Vol. 33, No. 2, 806–839 DOI: 10.1214/009053604000001165 c Institute of Mathematical Statistics, 2005

基于逐像素点深度卷积网络分割模型的上皮和间质组织分割

基于逐像素点深度卷积网络分割模型的上皮和间质组织分割

第43卷第11期自动化学报Vol.43,No.11 2017年11月ACTA AUTOMATICA SINICA November,2017基于逐像素点深度卷积网络分割模型的上皮和间质组织分割骆小飞1徐军1陈佳梅2摘要上皮和间质组织是乳腺组织病理图像中最基本的两种组织,约80%的乳腺肿瘤起源于乳腺上皮组织.为了构建基于乳腺组织病理图像分析的计算机辅助诊断系统和分析肿瘤微环境,上皮和间质组织的自动分割是重要的前提条件.本文构建一种基于逐像素点深度卷积网络(CN-PI)模型的上皮和间质组织的自动分割方法.1)以病理医生标注的两类区域边界附近具有类信息为标签的像素点为中心,构建包含该像素点上下文信息的正方形图像块的训练集.2)以每个正方形图像块包含的像素的彩色灰度值作为特征,以这些图像块中心像素类信息为标签训练CN模型.在测试阶段,在待分割的组织病理图像上逐像素点地取包含每个中心像素点上下文信息的正方形图像块,并输入到预先训练好的CN网络模型,以预测该图像块中心像素点的类信息.3)以每个图像块中心像素为基础,逐像素地遍历图像中的每一个像素,将预测结果作为该图像块中心像素点类信息的预测标签,实现对整幅图像的逐像素分割.实验表明,本文提出的CN-PI模型的性能比基于图像块分割的CN网络(CN-PA)模型表现出了更优越的性能.关键词深度卷积网络,乳腺组织病理图像,上皮和间质组织分割,逐像素分割引用格式骆小飞,徐军,陈佳梅.基于逐像素点深度卷积网络分割模型的上皮和间质组织分割.自动化学报,2017,43(11): 2003−2013DOI10.16383/j.aas.2017.c160464A Deep Convolutional Network for Pixel-wise Segmentation on Epithelial andStromal Tissues in Histologic ImagesLUO Xiao-Fei1XU Jun1CHEN Jia-Mei2Abstract Epithelial and stromal tissues are the most common tissue breast cancer pathology images.About80percent breast tumors derive from mammary epithelial cells.Therefore,in order to develop computer-aided diagnosis system and analyze the micro-environment of a tumor,it is pre-requisite to segment epithelial and stromal tissues.In this paper, we propose a pixel-wise segmentation based deep convolutional network(CN-PI)model for epithelial and stromal tissues segmentation.The model initially generates two types of training patches whose central pixels are located within annotated epithelial and stromal regions.These context patches accommodate the local spatial dependencies among central pixel and its neighborhoods in the patch.During the testing phase,a square window sliding pixel-by-pixel across the entire image is used to select the context patches.The context patches are then fed to the trained CN-PI model for predicting the class labels of their central pixels.To show the effectiveness of the proposed model,the proposed CN-PI model is compared with6patch-wise segmentation based CN models(CN-PA)on two datasets consisting of106and51hematoxylin and eosin(H&E)stained images of breast cancer,respectively.The proposed model is shown to have F1classification scores of90%and93%;accuracy(ACC)of90%and94%,and Matthews correlation coefficients(MCCS)of80%and88%, respectively,show improved performances over CN-PA models.Key words Deep convolutional neural network,breast histopathological image analysis,segmentation on epithelial and stromal tissues,pixel-wise segmentationCitation Luo Xiao-Fei,Xu Jun,Chen Jia-Mei.A deep convolutional network for pixel-wise segmentation on epithelial and stromal tissues in histologic images.Acta Automatica Sinica,2017,43(11):2003−2013收稿日期2016-06-13录用日期2016-11-08Manuscript received June13,2016;accepted November8,2016国家自然科学基金(61771249,61273259),江苏省“六大人才高峰”高层次人才项目资助计划(2013-XXRJ-019),江苏省自然科学基金(BK20141482),江苏创新创业团队人才计划(JS201526)资助Supported by National Natural Science Foundation of China (61771249,61273259),Six Major Talents Summit of Jiangsu Province(2013-XXRJ-019),Natural Science Foundation of Jiangsu Province(BK20141482),and Jiangsu Innovation and Entrepreneurship Group Talents Plan(JS201526)本文责任编委张道强Recommended by Associate Editor ZHANG Dao-Qiang1.南京信息工程大学江苏省大数据分析技术重点实验室南京210044根据美国癌症协会[1]和我国抗癌协会[2]的最新统计,乳腺癌是女性最常见的恶性肿瘤,发病率居女性恶性肿瘤之首.在多数情况下,乳腺癌的发病原因是因为受到多种致癌因子的刺激,从而引起乳腺上皮2.武汉大学中南医院肿瘤科肿瘤生物学行为湖北省重点实验室,湖北省肿瘤医学临床研究中心武汉4300711.Jiangsu Key Laboratory of Big Data Analysis Technique, Nanjing University of Information Science and Technology,Nan-jing2100442.Zhongnan Hospital of Wuhan University,Hubei Key Laboratory of Tumor Biological Behaviors and Hubei Can-cer Clinical Study Center,Wuhan4300712004自动化学报43卷细胞发生基因突变,病理表现为无限增殖的癌细胞具有不同于正常上皮细胞的异型性,并导致显著的组织异型性.组织病理图像分析是乳腺癌诊断的“金标准”[3].上皮和间质是乳腺组织病理图像中两种最基本的组织.上皮组织是一种细胞组织,通常存在于导管和小叶系统中.间质组织包括包围在导管和小叶、血管,以及淋巴管周围的脂肪和纤维结缔组织,是这些组织结构的支持框架.约有80%的乳腺肿瘤起源于乳腺上皮组织.癌症的增长和发展通常依赖于间质和上皮组织的微环境[4].因此,上皮和间质的组织的自动分割是分析乳腺肿瘤微环境[5],构建癌症的计算机辅助诊断系统的前提[6].然而,组织病理图像具有高度的复杂性,在组织病理图像中自动分割上皮和间质组织具有如下难度:1)高分辨率组织病理图像尺寸大,是名副其实的“大数据”.图1(a)∼1(d)分别展示了某患者一张全扫描组织病理切片在显微镜不同扫描分辨率下的图像.其中图1(a)是1:0放大倍数下全扫描组织病理图像,其尺寸约为100000像素×700000像素,压缩后的存储空间约为1.43GB.图1(b)是图1(a)中红色区域放大4倍数后的图像;图1(c)是图1(b)中红色区域放大20倍数后的图像;图1(d)是图1(c)中红色区域放大40倍数后的图像.在这种高分辨率、大尺寸图像中运用计算机自动分割两类组织,对硬件和图像分析算法都有较大的挑战.图1显微镜不同物镜放大倍数下的乳腺肿瘤组织病理图像Fig.1Histopathological images of breast tumors under different magnification of objective microscope2)组织病理结构类型复杂,上皮和间质组织相互交织在一起,相互之间没有明确的界限.同一类组织的形态差异很大.一张组织病理切片拥有众多的病理结构类型,形态各异,如图2所示.图2(a)用伪彩色标记病理医生的人工标注,其中红色和绿色分别代表上皮和间质区域,未被染色的区域是目前不被关注的区域即背景区域;图2(b)是包含上皮和间质组织的原始的乳腺H和E染色组织病理图像.图2(c)∼2(f)是根据病理医生标记位置,随机从图2(b)中的上皮组织区域(红色区域)取出的图像块.通过比较这些图像,可以看出上皮组织的组织结构、形态等,差异性非常大,组织难以用固定的特征来描述.因此,目前传统的计算机图像分析方法难以分割这些组织.图2上皮组织的不同形态Fig.2Different forms of epithelial tissue3)具有不同组织病理学分级的组织病理图像组织异质性大,其中在病理学分级越高(恶性程度越高)的组织病理图像中,上皮和间质组织的自动分割难度越大.图3(a)∼3(c)中是组织病理学分级为1的患者中选取的切片,图3(d)∼3(f)中是组织病理学分级为2的患者中选取的切片,图3(g)∼3(i)是组织病理学分级为3的患者中取出的切片,图3(c)、3(f)和3(i)是病理医生做的人工标注.根据病理医生的标注(图3(c),3(f),3(i))中得到的边界图3不同组织病理学分级的图像Fig.3Images of different histopathological grades11期骆小飞等:基于逐像素点深度卷积网络分割模型的上皮和间质组织分割2005信息,从原始H&E图像(图3(a),3(d),3(g))中的上皮和间质组织交界处随机选取一些小块放大后的图像块如图3(b)、图3(e)和图3(h)所示.可以很明显地看出,组织学分级越高的图像中上皮和间质组织形态和结构越混乱,上皮和间质组织之间的边界越模糊,视觉上的差异也越不明显.这些问题给上皮和间质组织的自动分割算法带来更大的难度.4)H&E图像不仅背景复杂、噪声大,而且存在染色不均、染色批次效应等问题.此外不同扫描仪成像质量存在差异.这些方面都会对自动图像处理分析算法带来难度.尽管存在上述难度,仍有不少学者在组织病理图像的上皮和间质组织自动分割中做出了优秀的研究成果,推动了这个领域研究的发展.Linder等[7]提出了一种基于局部区域二值化(Local binary pat-terns,LBP)[8]为基础的方法,用80×80的滑动窗口从图像中提取出重叠的小块并提取小块的纹理特征,最后基于该纹理特征使用支持向量机(Support vector machine,SVM)[9]分类,从而自动分割免疫组织化(Immunohistochemistry,IHC)[10]染色的微阵列组织(Tissue micro arrays,TMAs)中的上皮和间质组织.Beck等在文献[11]中提出了著名的C-Path模型,能够基于乳腺组织病理图像分析自动地预测患者的5年生存期,引起了学术界和工业界的极大关注[12].为了构建患者的5年生存期预测模型,作者运用了超像素过分割的方法[13]将组织病理图像首先过分割成多个小区域,然后基于这些小区域进一步分割每个小块中的细胞核以及细胞质.受这个工作的启发,Ali等在文献[14]中使用超像素过分割的方法从病理图像中提取小区域并用于SVM 的训练,并运用于分割口腔咽鳞癌图像中上皮和间质组织.Hiary等在文献[15]提出了贝叶斯表决模型用于分割上皮和间质组织.Eramian等[16]用二值图像分割的方法分割牙源性囊肿图像中的上皮和间质组织.Amaral等[17]使用基于可视化的字典学习的方法来自动区分由IHC染色的TMAs中的上皮和间质组织.文献[18]中首先运用多尺度超像素分割上皮组织,然后结合图聚类的方法自动检测全扫描图像中的导管原位癌区域.与以上提到的传统的图像分析方法不同,深度学习在基于大量训练数据的基础上,运用数据驱动的方式通过组合底层特征构建更加抽象的高层特征.以深度卷积网络(Convolutional networks,CN)为代表的深度学习模型表现出了强大的鲁棒性和普适性,在自然场景中的图像分类和检测中取得了巨大成功.随着该领域研究的深入,研究人员的研究目标开始从简单的图像分类转变为复杂的大尺寸图像的逐像素分割.而组织病理学图像具有的高度复杂性正好符合这样一个应用目标.与分类和检测的任务不同,对整张图像的自动分割具有更大的难度.尤其是对组织病理图像中不同组织结构的自动分割具有更大的难度.近年来,深度学习方法开始被广泛运用于组织病理图像分析.该领域的先驱工作是Cire´c san等在文献[19]中,成功地运用深度卷积网络在乳腺组织图像中自动检测正在进行有丝分裂细胞.作者使用具有卷积层和池化层的深度神经网络[20−21]来学习图像的高层特征,然后使用softmax分类器对每个像素点进行分类,从而实现细胞有丝分裂检测的目标.这项工作赢得了ICPR 2012和MICCAI2013细胞有丝分裂检测大赛的冠军.Cruz-Roa等在文献[22]提出了一种卷积编码器的自动神经网络架构,将深度卷积神经网络与自动编码器[23]结合在一起用于组织病理图像中导管原位癌区域的自动检测.Xu等在文献[24]运用堆叠式稀疏自动编码器框架对乳腺病理组织学图像中的细胞自动检测.Wang等在文献[25]提出将手动特征和CN学习到的高层特征组合检测细胞有丝分裂.Xu等在文献[6]中首先运用超像素分割方法把上皮和间质组织过分割为小块区域,然后把该小块区域输入到训练好的CN模型以预测该整个图像块的组织类型.本文内容分配如下,第1节介绍本文使用的深度卷积神经网络结构;第2节介绍了图像预处理方法;第3节介绍了训练集的构建方法;第4节介绍本文的实验流程;第5节是本文的实验结果及其讨论;第6节是对本文工作的总结和展望.表1列出了本文所使用的缩写符号及其解释.1基于逐像素分割的深度卷积神经网络(CN-PI)本文使用的网络结构是基于Krizhevsky等在文献[26]中提出的经典的AlexNet模型,其网络结构如图4所示.该模型主要包括卷积层、池化层、线性纠正函数(Rectified linear unit,ReLU)的激活函数[27]、局部响应归一化层、softmax(SMC)分类器.整个模型的输入是包含RGB三个颜色通道的正方形图像块,CN模型将根据输入的每个彩色图像块中的颜色信息特征,通过自己特有的网络结构将颜色特征转化为高水平的特征,随后对这个高水平的特征进行分类.关于卷积层、池化层、线性纠正激活函数、局部响应归一化层的详细描述,可参考文献[26].卷积层通过构建多个卷积滤波器,通过对整张图像的局部感受域的卷积运算得到结果.为了避免饱和非线性问题,本文采用了ReLU激活函数的不饱和性,该函数使得网络在训练梯度下降时以更快的速度收敛,从而加快整个网络的训练速度.ReLU2006自动化学报43卷激活函数描述如下:f(x)=max(0,x)(1)表1本文使用的缩写符号及其描述Table1Abbreviated symbols and their meanings inthis paper符号解释CN深度卷积神经网络LBP局部区域二值化SVM支持向量机PA逐图像块PI逐像素R e上皮组织图像块R s间质组织图像块SLIC简单线性迭代聚类算法Ncut标准化图割算法SMC Softmax分类器EP上皮组织ST间质组织TMAs肿瘤组织芯片IHC免疫组织化H&E苏木精和伊红(染色)DL深度学习NKI荷兰癌症数据所数据集VGH温哥华总医院数据集ReLU线性纠正函数LRN局部响应归一化层TP真阳性FP假阳性FN假阴性TN真阴性TPR真阳性率TNR真阴性率PPV阳性预测值NPV阴性预测值FPR假阳性率FNR假阴性率FDR伪发现率ACC准确率F1F1值MCC马修斯相关系数CT平均每张图像的计算时间ROC试者工作特征曲线AUC ROC曲线下面积池化是一种非线性的下采样的方法.其中最大池化(Max pooling)是常用的一种池化方法.由于图像通常会存在冗余的局部信息,最大池化操作能把输入图像分割成为不重叠的局部感受域,对每一个局部感受域都输出最大值,并提取最能代表和反映局部感受域的特征.采用最大池化层的方式降低了上层的计算复杂度的同时减少了冗余信息.因此,最大池化用一种很灵活的方式,降低了中间表示层的维度.此外,最大池化层具有平移、旋转的不变性的特性,对于位移变化有着不错的鲁棒性.全连接层的目标是将前一层的输出的特征x(i)连接成一个向量作为后一层的输入.通过两个全连接层连接SMC分类器作为输出层,输入是卷积神经网络的最后一层即第二层全连接.本文使用的基于二分类的SMC,是一个监督性的logistic回归模型.网络输出端的神经元个数等于类的个数,因此对于输入的第i个图像块的特征x(i),SMC输出可以看作一个二维的向量hθ(x(i))=p(y(i)=1|x(i);θ1)p(y(i)=2|x(i);θ2)=12j=1eθT j x(i)eθT1x(i)eθT2x(i)(2)其中,SMC的输入x(i)是CN提取的高水平的特征.θj是由SMC模型通过训练学习分别得到的两个输出神经元的参数.每个上皮小块或者间质小块通过CN提取出高水平特征x(i)输入到SMC中, SMC会输出一个二维的概率值,网络将通过给出分别属于两类的二维概率值中较大的那类作为分类最终结果.模型训练中的SMC损失函数定义如下:L(θ)=−1mmi=12j=1Γ(y(i)=j)logeθT j x(i)2n=1eθT n x(i)(3)其中,Γ(·)是示性函数.2图像预处理在进行组织分割之前,首先需要对待处理的图像进行预处理.由于组织病理图像存在数据来源不统一和扫描设备多样的问题,因此在做组织分割之前需要对所有的图像进行颜色标准化处理.该方法预先选取一幅病理图像作为目标图像,其他的病理图像在颜色标准化之后都将与目标图像具有相同的颜色分布.具体方法是将目标图像和待标准化病理图像进行颜色空间变换,由于Lab颜色空间与RGB 颜色空间相比,更加接近人的视觉,因此本文采用文11期骆小飞等:基于逐像素点深度卷积网络分割模型的上皮和间质组织分割2007图4本文使用的CN 网络结构图Fig.4The CN net work structure in this paper献[28]中提出的颜色空间变换的方法把RGB 颜色空间转换到Lab 颜色空间.接下来对三个通道的每一个像素的灰度值进行线性变换运算l mapped =l original −¯l original ˆl original ˆl target +¯l target (4)a mapped =a original −¯a originalˆa originalˆa target +¯a target (5)b mapped =b original −¯b original ˆb original ˆb target +¯b target (6)在式(4)∼(6)中,{ˆl,ˆa ,ˆb }和{¯l,¯a ,¯b }分别定义为Lab 颜色空间各通道中所有像素灰度值的均方差和均值.其中下标target 和original 分别为目标图像和标准化前的图像,mapped 为标准化后的图像.最后,将线性变换后在Lab 颜色空间的图像还原为RGB 颜色空间,便可以实现待标准化图像和目标图像具有一样的颜色分布.3训练集的构建本文中训练集的构建是非常关键的一个环节.定义R (·)为从图像中提取的尺寸为d ×d 正方形图像块的算子.R (c uv )∈R d 2为以c uv 为中心像素在原始图像C 中提取的包括该像素周边上下文像素信息的图像块,具体描述如下:R (c uv )=c lm ,c lm ∈C |u −d 2≤l ≤u +d2,v −d 2≤m ≤v +d2(7)本文取d =32.本文图像块选择32像素×32像素是为了保持和AlexNet 网络的输入图像块大小一致.需要指出的是,由于图像块的尺寸是一个像素为偶数的正方形块,本文选取的中心像素坐标是(16,16).图像块R (c uv )包括了中心像素c uv 和它的邻域像素的空间位置关系,如图5(e)和图5(f)所示,因此对该像素进行标记和分类时,该像素不是孤立存在的,而是包括了上下文像素信息的图像块的分类.本文的目标是对于任意输入的图像块R (c uv ),构建一个函数f (·)预测中心像素c uv 的类标签y (c uv ),具体函数映射定义为f :R (c uv )→y (c uv )(8)2008自动化学报43卷其中,R(c uv)的定义见式(7),包含以c uv为中心像素的上下文像素灰度信息.为了实现逐像素点分割的目标,本文构建的训练集包括两种类型的图像块:上皮组织块R e和间质组织块R s.两类训练集的构建方法如图5所示.1)根据专家标记的图像(图5(b))提取其中对应的上皮和间质组织的边界并进行膨胀操作(图5(d)).2)根据专家标注将图5(d)中的膨胀后的边界区域具体划分为上皮区域和间质区域(图5(e)).3)以图5(e)中所有红色区域的像素点为中心取正方形32像素×32像素的小块作为上皮组织块R e(图5(e)),以所有绿色区域的像素点为中心取的小块作为间质组织块R s(图5(f)).本文还考虑到训练集样本的数量以及冗余小块的数量,随机丢弃部分小块.图5在边缘处提取训练集小块示意图Fig.5The images of extracting small block intraining set at the edge除了边缘区域附近提取的小块以外,本文同时也在上皮和间质组织内部选取大量的同样尺寸的两种类型的图像块.4实验设计本节将详细介绍本文提出的上皮和间质组织自动分割具体实验流程和具体算法实现方法.4.1实验数据本文实验数据采用文献[11]中荷兰癌症研究所(NKI)和温哥华综合医院(VGH)两个机构提供的数据.包括由病理专家手动标记的157张乳腺组织病理图像(NKI106张;VGH51张).每张图像都是基于20×倍光学分辨率的H&E染色的乳腺癌组织芯片(TMA)中截取的感兴趣区域,每张图像尺寸均为1128像素×720像素.CN网络的训练集和测试集分别由两种组织内部区域小块和组织边缘区域两部分的图像块组成,训练集小块的构建方法见第4节.本文使用的训练集和测试集中的图像块的数量如表2所示.表2训练和测试样本的数量Table2The number of training and testing samples训练图像测试图像数据集图像总量组织图像数量训练集验证集图像数量上皮7780441721NKI106间质85702153762521上皮4059316914VGH51间质41366341526410 4.2参数设置本文实验使用的操作系统和计算机硬件为Linux系统ubuntu14.04,英特尔第三代酷睿i7-3770@3.40GHz四核处理器16GB内存(三星DDR31600MHz,Nvidia GeForce GTX960微星4GB显卡,开发工具MATLAB2014a.使用的卷积神经网络是基于Caffe框架[29],网络参数设置如表3所示,网络结构如图4所示.训练之前对网络初始化,使用基于用数据库CIFAR-10训练的AlexNet 网络参数作为初始,接下来运用训练集微调网络参数,得到最终的网络.这种网络初始化的方法能够避免人工设置或者高斯随机初始化参数的不足.表3本文使用的深度卷积网络结构参数Table3The parameters of deep convolution networkstructure in this paper层数操作通道数尺寸步长边缘填充激活函数局部归一化1输入3––––2卷积32512––3池化32320ReLU LRN 4卷积32512ReLU–5池化32320–LRN 6卷积64512ReLU–7池化64320––8全连接64–––––9全连接64–––––10输出2–––––本文使用层网络的贪婪层智慧训练[30],主要思路是每次只训练网络中的一层,即首先训练一个只含一个隐藏层的网络,根据损失函数(3),使用梯度下降法最小化该损失函数得到第一隐藏层的参数,然后当这层网络训练结束之后,训练第二个隐藏层的网络.训练的第二个隐藏层神经网络的输入是第一个隐藏层神经网络隐藏层的激活值,输出还是原11期骆小飞等:基于逐像素点深度卷积网络分割模型的上皮和间质组织分割2009样本的类标签,然后跟上面一样训练第二个隐藏层的网络,依此类推.按照网络结构的层次逐层训练来最终训练CN模型.SMC分类器根据输出神经元hθ(x(i))的二维向量(2)预测出每个像素点所属的类别,其中上皮组织y(i)=1,间质组织y(i)=0. 4.3实验流程本文采用的实验步骤如下:步骤1.图像预处理.运用第2节中描述的图像预处理操作,消除数据库中不同图像之间的颜色亮度差异.步骤2.构建训练和测试图像集.根据表2中训练和测试样本的数量分配方式,随机选取训练图像构建训练图像集,剩余的图像作为测试图像集.步骤3.构建两种组织的训练图像块.针对训练样本图像,根据专家标注,运用第4节及图5所描述的方法,构建上皮和间质组织训练图像块.为了增强整个系统的鲁棒性,选取的两种组织内部与边缘正方形图像块的比例大致为1:4.具体的两类组织图像块的数量如表2所示.步骤4.训练CN模型.构建如图4所示的CN 模型.网络和参数设置,网络的初始化,见第5.2节描述.运用步骤3中获得的训练集,训练该CN网络.步骤5.从测试图像中提取测试图像块.从测试样本中依次选取待分割的组织病理图像,从每幅图像的左上角第一个像素为中心像素开始,按照式(7)提取32像素×32像素的小块R i(c uv).接下来运用滑动窗的方法从左往右、从上往下让滑动窗的中心像素依此遍历整幅图像.为了保证处在边缘的像素也可以取到正方形图像块,针对图像边缘像素,本文采取了镜像边缘像素的方法来扩充边缘.步骤6.分割测试图像.如图6所示,图6(a)是输入待分割的组织病理图像,以图像中的某像素点为中心提取包括上下文信息的32像素×32像素的图像小块;图6(b)是将该小块输入至已经预先训练好的CN模型预测该图像块中心像素点的类别;图6(c)是把图6(a)和图6(b)的操作流程遍历整张图像,并对每个图像块的中心像素点分类结果用伪色彩表示,第0类代表上皮组织并表示为红色,第1类代表间质组织并表示为绿色.其中黑色为本研究中暂不需关注的组织.将步骤5中从测试图像中得到的图像块依次输入到在前几个步骤中训练好的CN网络,对每次输入的第i图像块x i=R i(c uv)都根据式(3)中SMC分类器输出的二维向量中的最大概率,决定该图像块的中心像素c uv的类标信息y i.步骤7.将步骤6遍历整幅待分割的图像,完成对整幅待检测图像的分割.图6分割流程图Fig.6The images of segmentation process4.4对比模型为了验证本文提出的CN-PI模型在上皮和间质组织分割的有效性,对比几种基于图像块分割的深度卷积网络(CN-PA).CN-PI模型及对比的CN-PA模型的具体结构和详细描述见表4.关于CN-PA模型的更详细描述参见文献[6].4.5定量评估指标本文使用混淆矩阵(Confused matrix)中各衍生参数定量比较不同模型的分割结果,其中混淆矩阵中的各个元的定义如下:TP:真阳性,表示专家标记为上皮组织、自动分割模型分类为上皮组织的像素点的个数;FP:假阳性,表示专家标记为间质组织、自动分割模型分类为上皮组织的像素点的个数;FN:假阴性,表示专家标记为上皮组织、自动分割模型分类为间质组织的像素点的个数;TN:真阴性,表示专家标记为间质组织、自动分割模型分类为间质组织的像素点的个数.根据混淆矩阵的各个元,按如下公式计算混淆矩阵的衍生参数:TPR=TPTP+FNTNR=TNFP+TNPPV=TPTP+FPNPV=TNTN+FNFPR=FPFP+TNFNR=FNTP+FN。

quantile_regression求解算法

quantile_regression求解算法

quantile_regression求解算法一、简介Quantile Regression是一种用于估计不同分位数的方法,它广泛应用于统计学和机器学习领域。

通过使用Quantile Regression,我们可以更好地理解数据分布,并进行更精确的预测。

本文将详细介绍Quantile Regression求解算法,包括其基本原理、实现步骤以及优化方法。

二、基本原理Quantile Regression通过建立一个回归模型来拟合数据集中的不同分位数。

该模型通常使用非线性回归函数,如对数函数、多项式函数等,来描述自变量和因变量之间的关系。

通过调整回归函数的参数,可以拟合不同分位数的数据,从而实现更精确的预测。

在Quantile Regression中,我们通常使用最小二乘法来估计回归函数的参数。

然而,当数据集中的分位数变化时,回归函数的参数也需要相应地调整。

因此,Quantile Regression需要一个优化算法来搜索最优参数组合。

常用的优化算法包括梯度下降法、模拟退火法等。

三、实现步骤1. 数据准备:首先,我们需要收集和准备数据集,包括自变量、因变量以及要拟合的分位数信息。

2. 模型定义:根据需要拟合的分位数,定义回归函数及其参数。

通常可以使用对数函数、多项式函数等非线性回归函数。

3. 参数估计:使用最小二乘法或梯度下降法等优化算法,估计回归函数的参数。

4. 模型评估:使用交叉验证、残差分析等方法评估模型的性能,确定最优参数组合。

5. 预测:使用拟合好的模型进行预测,得到不同分位数的预测结果。

四、优化方法Quantile Regression的优化方法包括选择合适的优化算法、调整模型结构、改进参数估计方法等。

以下是一些常用的优化方法:1. 多种算法比较:比较不同算法的性能,选择最优的优化算法。

常用的算法包括梯度下降法、模拟退火法、遗传算法等。

2. 模型选择:根据数据集的特点,选择合适的回归函数,如对数函数、多项式函数等。

基于机器学习的复杂地形下短期数值天气预报误差分析与订正

基于机器学习的复杂地形下短期数值天气预报误差分析与订正

doi:10.11676/qxxb2020.060气象学报基于机器学习的复杂地形下短期数值天气预报误差分析与订正*任 萍1,2 陈明轩2 曹伟华2 王在文2 韩 雷1 宋林烨2 杨 璐2 REN Ping1,2 CHEN Mingxuan2 CAO Weihua2 WANG Zaiwen2 HAN Lei1 SONG Linye2 YANG Lu21. 中国海洋大学,青岛,2661002. 北京城市气象研究院,北京,1000891. Ocean University of China,Qingdao 266100,China2. Institute of Urban Meteorology,CMA,Beijing 100089,China2020-01-21收稿,2020-06-30改回.任萍,陈明轩,曹伟华,王在文,韩雷,宋林烨,杨璐. 2020. 基于机器学习的复杂地形下短期数值天气预报误差分析与订正. 气象学报,78(6):1002-1020Ren Ping, Chen Mingxuan, Cao Weihua, Wang Zaiwen, Han Lei, Song Linye, Yang Lu. 2020. Error analysis and correction of short-term numerical weather prediction under complex terrain based on machine learning. Acta Meteorologica Sinica, 78(6):1002-1020Abstract A set of multi-mode integration technology of numerical prediction based on machine learning method XGBoost and consideration of the influence of topographical features has been preliminarily developed. Its integration effect was compared with that of traditional equal weight average and linear regression methods. Based on the data products of the rapid update cycle numerical prediction system in Beijing, which can provide cycle predictions including 2 m air temperature, 2 m relative humidity, 10 m wind speed and 10 m wind direction near the ground 8 times a day, three integrated models of multi-model forecast time lag integrated models were construct based on the machine learning method XGBoost, the equal weight average method and the linear regression method, respectively. Experiments were conducted to compare and analyze the effect of the integrated correction of model predictions at different times in a warm and a cold season every day. The results indicate that in the seasonal test, the integrated prediction results of 2 m air temperature and 10 m full wind speed based on the XGBoost model are significantly improved compared with the original optimal prediction results, and are much better than the results of the other two traditional methods. Using the XGBoost method, the error of 2 m air temperature integration can be reduced by 11.02%—18.09%, the error of 10 m full wind speed integration can be reduced by 31.23%—33.22%, and the error of 10 m wind direction integration can be reduced by 4.1%—8.23%. The integrated forecast error of 2 m relative humidity is close to the that from the traditional method. As a whole, the developed multi-mode integrated prediction model based on XGBoost can fully "excavate" the advantages of different modes or the rapid updating cycle prediction at different times, and therefore effectively reduces the systematic error of the mode and provides a multi-mode integrated deterministic prediction product with higher accuracy.Key words Integration,Numerical prediction,Machine learning,XGBoost,Linear regression,Equal weight摘 要 初步研发了一套基于机器学习方法XGBoost且考虑地形特征影响的数值预报多模式集成技术,并与传统的等权重平均和线性回归方法的集成效果进行了对比分析。

临床研究中混杂偏倚的识别和控制策略

临床研究中混杂偏倚的识别和控制策略

临床研究中混杂偏倚的识别和控制策略王瑞平(上海市皮肤病医院临床研究与创新转化中心 上海 200443)摘要混杂偏倚(confounding bias)是指暴露因素与疾病发生的相关程度受到其他因素的歪曲或干扰,而混杂是由于暴露因素对某疾病的作用与其他病因对同一种疾病的作用在同一个研究里交织在一起而引起的暴露效应估计上的系统误差。

识别和控制混杂偏倚是临床研究者应掌握的一项技能,准确评估和控制混杂因素对研究结果的影响,可以提高研究结论的可靠性和应用价值。

本文将介绍混杂偏倚的概念、产生原因和特点、识别方法以及控制混杂因素的措施等内容,以期为研究者掌握识别、评估和控制临床研究中的混杂因素提供参考。

关键词混杂偏倚 分层分析 匹配 限制 随机化多因素分析中图分类号:R-3 文献标志码:C 文章编号:1006-1533(2022)15-0030-05引用本文王瑞平. 临床研究中混杂偏倚的识别和控制策略[J]. 上海医药, 2022, 43(15): 30-34.Strategies for identifying and controlling confounding bias in clinical researchWANG Ruiping(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China) ABSTRACT Confounding bias refers to the extent to which the association between an exposure factor and the occurrence of a disease is distorted or interfered with by other factors, and confounding is a systematic error in the estimation of exposure effects caused by the intertwining of the effects of an exposure factor on a disease with the effects of other etiologies on the same disease in the same study. Identifying and controlling for confounding bias is a skill that clinical researchers should acquire, and accurately assessing and controlling for the effects of confounding factors on study results can improve the reliability and application of study findings. This article introduces the concept of confounding bias, its causes and characteristics, identification methods and measures to control confounding factors, to provide a reference for researchers to master the identification, assessment and control of confounding factors in clinical research.KEY WORDS confounding bias; stratified analysis; matching; restriction; randomization; multivariate analysis临床研究中,研究者在开展“暴露与结局”“干预与疗效”评估时,其理想状态是研究对象除暴露因素和非暴露因素、干预因素和非干预因素有区别外,其他因素在不同组研究对象间均衡可比。

布鲁姆教育目标分类认知过程维度之欧阳美创编

布鲁姆教育目标分类认知过程维度之欧阳美创编
布鲁姆教育目标分类认知过程维度
时间:2021.01.01
创作:欧阳美
类别&认知过程
同义词
定义及其例子
1.记忆/回忆(Remember)——从长时记忆中提取相关的知识
1.1识别(Recognizing)
辨认(Identifying)
在长时记忆中查找与呈现材料相吻合的知识(例如识别美国历史中重要事件的日期)
6.1产生(Generating)
假设(Hypothesizing)
基于准则提出相异假设(例如,提出解释观察的现象的假设)
6.2计划(Planning)
设计(Designing)
为完成某一任务设计程序(例如,计划关于特定历史主题的研究报告)
6.3生成(Producing)
建构(Constructing)
生产一个产品(例如,有目的地建立某些物种的栖息地)
时间:2021.01.01
创作:欧阳美
2.5推断(Inferring)
断定(Concluding)
外推(Extrapolating)
内推(Interpolating)
预测(Predicting)
从呈现的信息中推断出合乎逻辑的结论(例如,学习外语时从例子中推断语法规则)
2.6比较(Comparing)
对比(Contrasting)
对应(Mapping)
5.2评论(Critiquing)
判断(Judging)
发现一个产品与外部准则之间的矛盾;确定一个产品是否具有外部一致性;查明程序对一个给定问题的恰当性(例如,判断解决某个问题的两种方法中哪一种更好)
6.创造(Create)——将要素组成内在一致性的整体或功能性整体;将要素重新组织成新的模型或结构。

代际流动性及其传导机制研究进展

代际流动性及其传导机制研究进展

㊃国外经济理论动态㊃代际流动性及其传导机制研究进展∗秦雪征内容提要:社会流动性是经济长期增长的核心要素,然而随着国民经济的快速发展,社会流动性不足与贫富分化加剧成为我国社会日益凸显的问题㊂代际流动性是社会流动性的主要构成部分,本文对国外关于代际流动性及其传导机制的既有研究进行了集中评述㊂我们首先梳理了各国对代际收入传递弹性的估计结果及其在方法上存在的普遍问题,接着总结了学术界对于代际流动性传导机制及其影响因素的研究成果,并重点阐述了 先天 后天 之争的内涵,最后结合我国的研究现状提出了对这一领域的进一步研究建议㊂本文的主要结论是:人力资本在代际之间的积累和转移是代际收入流动的重要途径,而包括健康和环境在内的一系列先天及后天因素对收入和人力资本的代际流动也有着显著的影响㊂关键词:代际流动性㊀人力资本㊀ 先天 后天 之争㊀㊀改革开放三十多年来,在我国国民经济得到整体改善的同时,我国社会却日益呈现出贫富分化加剧和社会流动性不足等问题㊂社会流动性指个体的社会经济地位可改变的程度,通常包括代内流动性和代际流动性㊂经济学研究主要关注经济层面的代际社会流动性,即收入和贫富差距会在多大程度上由父母一代向后代传递㊂具体而言,这种经济地位的跨代传递在很大程度上反映了子女在发展机会上的不平等程度①(Z h a n g&E r i k s s o n,2010)㊂因此,研究收入的代际流动性及其决定因素对改善社会的整体公平和维持经济的长期可持续发展具有重大的理论和现实意义㊂在理论上,收入的代际流动作为代际收入分配的重要渠道,是个体在进行跨代消费和跨代投资活动中进行理性经济行为的结果,它往往与人力资本理论紧密结合,从而为众多微观和宏观经济研究 如人力资本投资理论㊁工资理论㊁经济增长理论㊁最优税收理论等 提供新的视角㊂在实践上,收入的代际流动性是衡量一国社会机会平等程度的重要指标,对其传导机制和决定因素的研究可以为解决长期贫富分化问题提供政策指导㊂例如,既有研究指出代际收入流动性不足的根源在于子女的人力资本在代际传导过程中没有得到实质性的变化,即居民的健康㊁教育㊁能力等指标的不平等性在代际延续,使低收入人口的子女在人力资本方面处于劣势,限制了其改善自身收入和经济状况的能力㊂因此,对相关问题的研究不仅可以为我国的收入分配政策提供借鉴,同时还将为当前的医疗与教育体制改革提供启示㊂本文从对代际收入流动性的讨论入手,依据研究逻辑对国外近年来的相关成果进行梳理和总结,力图向读者展示代际流动性研究中的核心议题㊂这些议题可以归纳为以下三个方面:(1)对一个国家或地区代际收入流动性大小的估计,即计算父代收入与子代收入的相关系数或弹性;(2)关注代际收入流动性的变化对社会各方面的影响,这通常是同第一个问题联系在一起的;(3)研究代际收入流动性的决定因素,以及这些因素(如教育㊁健康等)是通过什么途径使收入在代与代之间传递的(即传导机制),这是代际流动性研究的核心问题㊂511‘经济学动态“2014年第9期∗秦雪征,北京大学经济学院,邮政编码:100871,电子邮箱:q i n.e c o n p k u@g m a i l.c o m㊂本文为国家自然科学基金青年基金项目 我国人力资本的代际传导机制及其对社会流动性的影响:基于理论与实证的研究 (编号:71103009)㊁教育部哲学社会科学研究重大课题 中国社会转型期的居民信用管理和公共服务体系建设研究 (编号:12J Z D036)㊁北京市高等学校青年英才计划(编号:Y E T P0039)项目成果㊂作者对李正豪的研究协助深表谢意㊂对匿名审稿人提出的修改建议表示感谢,文责自负㊂一㊁代际收入流动性的估计与方法论问题(一)代际收入弹性和相关系数的估计研究代际流动性及其传导机制的前提是精确计算父代收入与子代收入之间的相关性㊂在经济学文献中,衡量这种相关性的指标主要有两种:代际收入弹性(i n t e r g e n e r a t i o n a l e l a s t i c i t y,I G E)和代际收入相关系数(i n t e r g e n e r a t i o n a l c o r r e l a t i o n,I G C)㊂代际收入弹性的估计方程来自B e c k e r&T o m e s (1979)的理论模型:y1=βy0+ε(1)其中,y0=l o g(Y0)-l o g(Y0),代表父亲的相对收入水平,l o g(Y0)为父亲的永久收入(取对数), l o g(Y0)为父代平均对数收入㊂y1=l o g(Y1) -l o g(Y1),代表后代的相对收入水平,即l o g(Y1)为后代个体的对数永久收入,l o g(Y1)为其平均值㊂由于两代收入均为对数表达式,因此其回归系数β即为代际收入弹性,而(1-β)则衡量了代际流动性㊂代际收入相关系数的估计式为ρ=(σ0/σ1)β㊂其中,ρ为代际收入相关系数,σ0和σ1分别为父代和子代对数收入的标准差㊂ρ与β的主要区别在于ρ的估计考虑了两代人收入分布的离散程度,只有该离散程度相等时ρ与β才会相等㊂理论上,代际收入相关系数能够更精确地反映代际收入的传递程度,而代际收入弹性的精确性则会受到代际收入分布离散程度的影响㊂但是,在实践中代际收入弹性往往更容易估计,且不会因为子代收入的测量误差而产生估计偏误,因此在文献中被更多地使用㊂在B e c k e r&T o m e s(1979)提出代际收入流动的理论模型之后,各国学者对代际收入弹性相继进行了许多实证研究㊂目前为止,主要的研究对象集中在北美㊁西欧和北欧三个地区㊂S o l o n(1999, 2002)对2000年以前的文献进行了综述,在此不再赘述㊂2000年之后比较有代表性的文献列举如下: Jän t t i e t a l(2006)使用美国N L S Y(N a t i o n a lL o n g i-t u d i n a l S u r v e y o fY o u t h)数据㊁英国N C D S(N a t i o n-a l C h i l dD e v e l o p m e n tS t u d y)数据和北欧四国(丹麦㊁芬兰㊁挪威和瑞典)的人口注册数据对6个国家的代际收入弹性和相关系数进行了估计,其中美国的代际收入弹性最高,为0.517,芬兰㊁挪威和丹麦三国的代际收入弹性最低,分别为0.173㊁0.155和0.071,挪威和英国居中,而这6个国家的代际收入相关系数也基本呈现相同特点㊂这表明北欧国家的社会流动性最高,西欧其次,美国最低㊂E r m i s c h& N i c o l e t t i(2005)利用B H P S(B r i t i s h H o u s e h o l d P a n e l S u r v e y)数据得出英国的代际收入弹性约为0.37,由于该研究是基于跨越32年的面板数据,因此其估计结果更为精确㊂L e i g h(2007)利用H I L D A (H o u s e h o l d,I n c o m e a n d L a b o u r D y n a m i c s i n A u s t r a l i a)数据得出的澳大利亚代际收入弹性为0. 2,略高于北欧国家㊂V o g e l(2006)利用G S E P(G e r-m a nS o c i o-e c o n o m i cP a n e l)数据估计了德国的代际收入弹性,得到的结果为0.24,低于他利用P S I D (P a n e l S t u d y o f I n c o m eD y n a m i c s)和C N E F(C r o s s -n a t i o n a l E q u i v a l e n tF i l e)数据对美国得出的估计值0.34㊂在之前研究的基础上,B l a n d e n(2009)对2000年之后研究跨国代际流动性的文献做了系统性的总结:绝大部分研究都显示南美国家㊁南欧国家和其他发展中国家的代际收入流动性较低,而北欧国家的代际收入流动性最高,美国和其他发达国家则位于二者中间;更值得关注的是代际收入流动性的高低与其他衡量收入不平等㊁教育不平等等指标存在高度相关性,从而为文献中对代际收入流动性内在传导机制的研究提供了思路㊂在这一领域的另一个研究方向是刻画代际收入流动性随时间变化的趋势㊂例如,B l a n d e ne ta l (2004)使用N C D S(N a t i o n a lC h i l d D e v e l o p m e n t S t u d y)和B C S(B r i t i s hC o h o r tS u r v e y)数据发现英国的代际流动性在1950年到1970年间有上升趋势;而L e e&S o l o n(2009)使用P S I D数据并没有发现美国的代际收入弹性存在显著的变化趋势;相反, B r a t b e r g e t a l(2005)使用挪威的人口注册数据发现在1950年到1970年间该国的代际收入弹性发生了显著下降㊂近年来,代际收入弹性的性别差异也成为新的研究热点㊂R a a u me t a l(2007)认为 门当户对 的婚姻(a s s o r t a t i v em a t i n g)和劳动供给弹性共同造成了代际收入弹性的性别差异:高收入家庭的女性后代倾向于选择高收入的丈夫,并减少外出工作的时间,从而造成女性群体的代际收入弹性低于男性㊂同时,该研究利用斯堪的纳维亚地区人口注册数据的分性别样本对这一理论提供了实证检验㊂(二)代际收入流动性估计中存在的方法论问题理论上,对代际收入弹性和相关性的估计都是611以永久收入(p e r m a n e n t e a r n i n g )为基础的,因此在实证研究中的关键是精确估计父代和子代的永久收入㊂然而,既有研究由于受限于数据的测量误差和代际传递的非线性问题,往往无法得到永久收入的精确估计值㊂1.收入的测量误差及其解决方法㊂在弹性估计方程(1)中,子代永久收入(y 1)的测量误差本身并不会使β的估计值产生偏误,但父代永久收入(y 0)的测量误差则可能导致β的估计偏误㊂因此,父代收入的测量误差对代际收入弹性的估计来说更为重要,而导致该误差的主要原因是个体永久收入常常面临无法观测的随机冲击㊂S o l o n (1992)首先证明,如果随机冲击是一个白噪声(w h i t en o i s e),那么代际收入弹性β的估计值β︿存在向下的偏误㊂令扰动v 为白噪声,y 0为回归方程(1)中定义的父代收入,那么偏误的大小为:p l i m β︿=v a r (y 0)βv a r (y 0)+v a r (v )(2)其中,v a r (y 0)和va r (v )分别为相应变量的方差㊂进一步地,S o l o n (1984,1992)证明如果随机冲击v 为一阶自回归过程(A R (1)),令v t =δv t -1+u ,则偏误的大小为:p l i m β︿=v a r (y 0)βv a r (y 0)+γv a r (v )(3)其中,γ=1+2δ(T (1-δ^T )/(1-δ)T (1-δ))㊂由此可知,减轻系数估计偏误的第一种方法是对收入y 0进行T 年平均,因为平均之后能够减少随机冲击的扰动程度㊂而对于不同的数据,最优T 值也不同,可以通过数值模拟求出㊂S o l o n (1992)和M a -z u m d e r (2005)证明经过T 年平均之后,(2)式和(3)式中的偏误系数分别为v a r (y 0)v a r (y 0)+v a r (v )/T 和v a r (y 0)v a r (y 0)+γv a r (v )/T ,偏误明显变小㊂M a z u m -d e r (2005)在一阶自回归冲击的假定下,通过数值模拟得出使回归偏误最小的T 值在20到30年之间㊂由于许多既有数据无法覆盖如此长的期限,另一种减轻估计偏误的方法是选择特定年份的数据作为个人永久收入的近似㊂其理由在于,永久收入是平滑一生中不同年份收入而产生的,某些年份的收入值可能会更接近于平滑后的永久收入值,因此以该年收入为基础的β估计值会有更小的偏误㊂H a i d e r&S o l o n (2006)证明,如果第t 年的子代和父代收入与各自的永久收入关系如下:y 1t =μty 1+u (4)y 0t =θty 0+v (5)其中u 和v 分别为白噪声冲击,μt 和θt 分别为子代和父代第t 年收入与永久收入的比例系数,那么代际收入弹性估计值的偏误为μtθt v a r (y 0)θ2t v a r (y 0)+v a r (v )㊂显然,如果μt =θt =1,则偏误系数与(2)式中相同;而当二者不等时,则需要选择合适的t 值,使该年收入与永久收入的比例值尽可能接近1㊂基于美国H R S (H e a l t ha n dR e t i r e -m e n t S t u d y )数据,H a i d e r&S o l o n (2006)利用截尾模型(c e n s o r e d m o d e l )来估计μt 和θt ㊂结果表明,对于该数据而言,父亲最接近于永久收入的年龄为40岁左右,而子女最合适的取值年龄则为20-30岁㊂B o h l m a r k &L i n d qu i s t (2006)也使用相同方法估计了瑞典收入税(i n c o m e t a x )数据中的参数值,他们的估计结果表明,μt 在一个人20多岁时较小,但在30到40岁之间接近于1,之后又逐渐下降;对于θt 而言,在30到40岁之间其值达到最大,接近于0.6至0.7㊂以上研究结果为我们在无法观测永久收入的情况下选择特定年龄对其进行近似分析提供了依据㊂2.代际流动性研究中的异质性问题㊂在对代际收入流动性的估计中,研究者经常会面临异质性问题的困扰㊂该问题是指父代与子代之间的收入相关性在不同收入分位数上呈现非均匀分布特征㊂对此,文献中往往使用过渡矩阵(T r a n s i t o r y Ma t r i -c e s )或分位数回归(Q u a n t i l eR e g r e s s i o n )处理㊂过渡矩阵将父代收入和子代收入分别分为n 个等分组,矩阵元素P i j 表示当父代收入处于第i 组时,子代收入处于第j 组的概率,即P i j (y 0,y 1)=P r (j -1£y 1£j ,i -1£y 0£i )/P r (i -1£y 0£i )②㊂依据对美国㊁英国和北欧四国(丹麦㊁芬兰㊁挪威和瑞典)代际收入过渡矩阵的估算,J än t t i e t a l (2006)发现当父代收入处于低分位时,英国和北欧国家的代际收入流动性比较接近,均高于美国的数值;但当父代收入处于高分位时,美国和英国的代际收入流动性比较接近,均高于北欧国家的数值㊂B h a t t a -c h a r ya&M a z u m d e r (2007)基于美国N L S Y 数据发711 ‘经济学动态“2014年第9期现,过渡矩阵显示黑人与白人的代际收入流动性差别小于传统的均值回归结果,这意味着黑人群体可能并不像之前研究所估计的那样缺乏代际收入流动性㊂以上研究显示,相对于线性回归对代际收入弹性的估计,过渡矩阵更能够捕捉到代际收入流动的异质性特征㊂需要承认的是,过渡矩阵方法同样面临收入测量误差的问题:O N e i l l e t a l(2007)通过数值模拟发现,如果只有子代收入出现测量误差,则过渡矩阵中的代际收入流动性会被高估,且低分位的高估程度较大;而如果子代收入与父代收入均出现测量误差,则代际收入流动的估计偏误取决于两种误差的相关性 当误差相关性较高时,代际收入流动性会被低估,反之则被高估㊂另一种处理收入分布非线性问题的方法是分位数回归③㊂相比于过渡矩阵,分位数回归直接估计不同分位上的代际收入弹性和相关系数㊂例如,E i-d e&S h o w a l t e r(1999)使用P S I D数据和分位数回归发现,在1968年至1992年间,美国父代收入分布的底部所得到的代际收入相关系数更大,在分布顶部的相关系数更小㊂这意味着收入越高,代际收入流动性越大㊂二㊁人力资本与代际收入流动性(一)人力资本与收入的代际传导机制正如S o l o n(1999)所述,相对于精确估计代际收入流动性而言,该领域研究更重要的议题是找到影响代际流动性的影响因素及其影响机制,这也是近十年来代际流动性研究的核心㊂在对各种潜在影响因素的讨论中,人力资本对收入流动性的作用引起了学者越来越多的关注㊂而近年来人力资本理论的发展又为这一领域的实证研究提供了重要的理论基础㊂人力资本理论认为,收入的代际流动与人力资本的积累和投资有着密切关系(B e c k e r,1993)㊂根据这一理论,父代的人力资本积累可能通过两种方式影响子代收入:一是父代的人力资本会影响自身收入进而影响其对子女的人力资本投资能力,从而间接影响子代收入;二是父代的人力资本与子代人力资本直接相关,体现为教育程度较高的家长通过言传身教直接提升子女的人力资本㊂以上两种假说实际上可归结为教育的代际流动性问题,该问题既是广义社会流动性的一部分,又对揭示代际收入的传导机制具有尤其重要的意义㊂与收入流动性相似,教育的代际流动性也可以用代际教育弹性和代际教育相关系数来衡量㊂B a u e r&R i p h a h n(2006)利用瑞士数据发现,入学年龄的提前能够提高教育的代际流动,这意味着入学之后学生的家庭背景对教育的影响可能变小㊂H e r t z e t a l(2008)估计了42个国家的代际教育相关系数和弹性,结果表明,非洲国家的代际教育相关系数普遍在0.6左右,美国为0.46,西欧为0.4,而数值最低的仍旧为北欧国家㊂C h e v a l i e re ta l (2009)通过比较欧洲和美国的教育代际流动性得出了相似的结论,同时也证实了教育的回报率与教育和收入的代际弹性具有正相关关系:教育回报率越高,高收入家庭的父母就越有动机将更多资源投资于子女的教育,导致其后代的人力资本和收入处于更高水平㊂(二)人力资本流动性估计中的方法论问题由于教育水平的测量误差较小,因此对教育代际流动性的估计往往比收入流动性更为准确㊂但由基因遗传所导致的父代与子代共同的禀赋可能会对二者的教育水平同时产生影响,因此对于代际教育流动性的估计很难完全排除内生性问题④㊂为了得到教育代际弹性的无偏估计,许多文献采用工具变量或分组对照的方法来消除内生性㊂1.工具变量方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2 ROOFER Example
The data for this study comes from the U. S. Army Construction Engineering Research Laboratories (USACERL). They have acquired databases from several Army installations that contain inventory and inspection data as well as condition ratings on roofs. There are three di erent condition indices, each of them is measured on a scale from 0 to 100. They are calculated by deducting points for each combination of distress type and distress level. A more detailed description of the ROOFER project may be found in Bailey et. al. (1997). For the present paper, we choose the Membrane Condition Index (MCI). The ratings are given by individual inspectors. Each roof section is carefully inspected, and the membrane distresses are recorded on a standardized Roof Inspection Worksheet. For example, blister is a common distress type with three severity levels used: low, medium and high. Once the severity level is determined, the size of the blister or blisters is measured and the problem density is then computed as a percentage of the a ected area relative to the total area. Points are then deducted from the index based on a pre-designed chart. The same is done for other
distress types. There were two questions of interest here: modeling degradation of roofs as a function of age, and assessing the impact of several explanatory variables. In this paper, we will focus on the rst problem. We selected a relatively homogeneous subset of 270 roof sections that are less than 20 years old, with no edge-metal and no interior drains. Figure 1 gives the jittered scatter plot of MCI against age. We can identify three features that are common to such datasets: skewness, heteroscedasticity, and clustering at one end. Indeed, a sizeable proportion (about 30%) of the data is clustered at the upper limit of 100 in Figure 1. Figure 1: Jittered Scatter Plot of Roofer Data
Key Words: censored quantile regression, degradation, splines, Tobit regression. Abstract:
Percentile curves for natural growth or degradation over time are often of interest. Motivated by consulting in various infrastructure studies, we consider the problem of estimation and inference for conditional percentile models. In particular, we present a study of roof condition degradation with the goal of estimating predictive curves for condition as a function of age. In the database roof conditions are reported as bounded scores, and the method of analysis needs to preserve the bounds. We present methods for modeling the age dependent distribution of roof condition scores using raw data as well as grouped quantiles. We consider both direct and latent modeling to accommodate the bounded response. replicated values at the high end of the condition index. Second, the conditional percentile curves are not expected to be globally linear. In the earlier years, there are usualldition index values at its maximum, and thus, the percentile curves may start to decline only after an initial holding period. Any parametric form for the percentile curves has to be able to allow constancy at the beginning. In this paper, we discuss and compare three di erent approaches that model the conditional percentile curves for condition indices of such type. In particular, we present a cross-sectional study of roof condition with the goal of estimating predictive curves for condition as a function of age. The same methods may be used for a variety of infrastructure studies of similar nature.
100
100 is assigned to MCI whenever the assessor believes that the severity and extent of membrane condition distress are below some given threshold levels (say, not clearly visible). Under this view, we believe that perfect membrane conditions have a latent rating of over 100. This is a convenient means to avoid downward bias that arise from those boundary values when we t a global parametric model (e.g. linear regression). With this in mind, we rst turn to a semiparametric method of censored regression quantiles.
CONDITIONAL QUANTILE CURVES WITH AN APPLICATION TO INFRASTRUCTURE STUDIES
Hanga C. Galfalvy, Xuming He, Douglas G. Simpson, University of Illinois Xuming He, 725 S. Wright Street, Champaign, IL 61820 (he@)
1 Introduction
At the Illinois Statistics O ce (ISO) we have been involved with several infrastructure studies in recent years. They require estimation of percentile curves for degradation of certain condition indices over time. Condition indices for the subject under study are generally designed and provided by eld experts to measure the extent of degradation of the subject. Such indices may vary from 0 to 100 or be set in the scale of 0 to 5. It is often the case that a maximum value is assigned to subjects without noticeable tear and wear. As a result, a large number of subjects are given the maximum value, especially in the earlier years. This makes it di cult and indeed inappropriate to use the traditional regression analysis for the following two reasons. First, the traditional regression models go after the conditional mean curve of a condition index as a function of age. Although the averages are meaningful summaries, they do not usually provide su cient information for non-Gaussian distributions. The degradation data we deal with are clearly skewed to the left. The possibility of nding a transformation to normality is excluded by a large number of
相关文档
最新文档