基于Xgboost算法的国际期货涨跌预测分析
基于机器学习算法的股指期货价格预测模型研究
基于机器学习算法的股指期货价格预测模型研究作者:***来源:《软件工程》2022年第12期摘要:人工智能技术和量化投资领域的结合,诞生了各类基于机器学习算法的价格预测模型。
为研究不同机器学习算法在股指期货价格预测中的应用效果,采用支持向量回归、长短期记忆网络、随机森林及极端梯度提升树四种常用的机器学习算法构建价格预测模型,对沪深300股指期货价格进行预测研究,并利用贝叶斯算法对模型进行超参数优化,对比贝叶斯优化对于以上四种机器学习算法预测精度的提升效果。
研究结果表明,随机森林和极端梯度提升树因其模型自身的优点,可以实现对金融时序数据的准确预测,而贝叶斯优化利用高斯过程,不断更新先验,可以显著提高支持向量回归预测效果,均方误差(MSE)、平均绝对误差(MAE)、对称平均绝对百分比误差(SMAPE)和损失适应度(LOSS)分别降低了78.6%、94.7%、95.1%和97.0%。
关键词:机器学习;支持向量机;长短期记忆网络;随机森林;极端梯度提升树中图分类号:TP312 文献标识码:AResearch on Stock Index Futures Price Prediction Modelbased on Machine Learning AlgorithmsYANG Xuewei(School of Economics and Management, Qinghai University for Nationalities, Xining 810007, China)*****************Abstract: With the combination of artificial intelligence technology and quantitative investment, various price prediction models based on machine learning algorithms have emerged. In order to study the effect of different machine learning algorithms on stock index futures price prediction, this paper proposes to use four commonly used machine learning algorithms, namely SVR (Support Vector Regression), LSTM (Long Short-Term Memory), RF (Random Forest) and XGBoost (Extreme Gradient Boosting), to construct a price prediction model, so as to predict the stock index futures price of Shanghai and Shenzhen 300. Bayesian algorithm is used to optimize the hyperparameters of the model, and the improvement effect of Bayesian optimization on the prediction accuracy of the four machine learning algorithms is compared. The research results show that RF and XGBoost can achieve accurate prediction of financial time series data due to their own advantages, while Bayesian optimization can significantly improve the prediction effect of support vector machines by using Gaussian process and constantly updating the prior. MSE, MAE,SMAPE and LOSS are reduced by 78.6%, 94.7%, 95.1% and 97.0% respectively.Keywords: machine learning; SVR; LSTM; RF; XGBoost1 引言(Introduction)宏觀经济背景、金融市场发展水平和投资者心理预期等多种复杂因素共同驱动金融工具价格变化,使得金融时序价格具有非平稳性、非线性和高噪声的复杂特性[1]。
使用机器学习算法的外汇市场预测方法
使用机器学习算法的外汇市场预测方法外汇市场一直以来都是国际经济交流中的核心领域之一。
人们常常想要利用先进的技术手段来预测外汇市场的走势,以获取更好的投资回报率。
而如今,随着机器学习算法的发展和应用,越来越多的人开始探索使用机器学习算法来预测外汇市场。
本文将介绍使用机器学习算法的外汇市场预测方法,并探讨其优势和限制。
使用机器学习算法的外汇市场预测方法首先需要有足够的历史数据作为训练集。
这些历史数据应该包含外汇市场的各种指标,如汇率、交易量、利率、经济数据等。
接下来,将这些指标作为输入,利用机器学习算法来构建预测模型。
常用的机器学习算法包括线性回归、支持向量机、决策树、随机森林等。
对于线性回归算法来说,它是一种使用线性模型来建立输入和输出之间关系的方法。
在外汇市场预测中,可以将历史数据中的各种指标作为特征,将未来汇率的变化作为目标变量,通过线性回归算法来建立模型,从而预测未来的汇率走势。
线性回归算法的优点是计算简单快速,但缺点是对于非线性问题的表现较差。
另一个常用的机器学习算法是支持向量机(SVM),它是一种基于统计学习理论的分类算法。
在外汇市场预测中,可以使用支持向量机来识别和拟合数据中的模式,并进行未来汇率的预测。
支持向量机的优点是对于非线性问题有较好的拟合能力,但缺点是在大规模数据集上训练时间较长。
决策树是一种根据特征进行决策的算法,它通过构建一棵树状结构来表示数据的分类和回归规则。
在外汇市场预测中,可以使用决策树来建立模型,从而预测未来的汇率走势。
决策树的优点是易于理解解释,但缺点是容易过拟合训练数据。
随机森林是一种基于决策树的集成学习算法,它通过构建多个决策树来进行预测。
在外汇市场预测中,可以使用随机森林算法来建立模型,从而预测未来的汇率走势。
随机森林的优点是对于非线性问题有较好的拟合能力,并且可以通过调整参数来控制过拟合的风险。
尽管使用机器学习算法的外汇市场预测方法具有一定的优势,但也存在一些限制。
融合VMD和XGBoost算法的GNSS高程时间序列预测方法
㊀2023年8月A c t aG e o d a e t i c ae tC a r t o g r a p h i c aS i n i c a A u g u s t,2023㊀㊀第52卷㊀第8期测㊀绘㊀学㊀报V o l.52,N o.8引文格式:鲁铁定,李祯,贺小星,等.融合VM D和X G B o o s t算法的G N S S高程时间序列预测方法[J].测绘学报,2023,52(8):1235G1244.D O I:10.11947/j.A G C S.2023.20220052.L U T i e d i n g,L IZ h e n,H E X i a o x i n g,e ta l.G N S S v e r t i c a lt i m es e r i e s p r e d i c t i o n m e t h o di n t e g r a t i n g VM D a n d X G B o o s ta l g o r i t h m s[J].A c t aG e o d a e t i c a e tC a r t o g r a p h i c aS i n i c a,2023,52(8):1235G1244.D O I:10.11947/j.A G C S.2023.20220052.融合V M D和X G B o o s t算法的G N S S高程时间序列预测方法鲁铁定1,2,李㊀祯1,贺小星3,周世健41.东华理工大学测绘工程学院,江西南昌330013;2.自然资源部环鄱阳湖区域矿山环境监测与治理重点实验室,江西南昌330013;3.江西理工大学土木与测绘工程学院,江西赣州341000;4.南昌航空大学,江西南昌330063G N S Sv e r t i c a l t i m es e r i e s p r e d i c t i o n m e t h o di n t e g r a t i n g V M D a n dX G B o o s t a l g o r i t h m sL UT i e d i n g1,2,L I Z h e n1,H EX i a o x i n g3,Z H O US h i j i a n41.S c h o o lo fG e o d e s y a n d G e o m a t i c s,E a s tC h i n a U n i v e r s i t y o fT e c h n o l o g y,N a n c h a n g330013,C h i n a;2.K e y L a b o r a t o r y o fM i n eE n v i r o n m e n t a lM o n i t o r i n g a n dI m p r o v i n g a r o u n dP o y a n g L a k e,M i n i s t r y o fN a t u r a lR e s o u r c e s, N a n c h a n g330013,C h i n a;3.S c h o o l o fC i v i la n dS u r v e y i n g&M a p p i n g E n g i n e e r i n g,J i a n g x iU n i v e r s i t y o fS c i e n c e a n dT e c h n o l o g y,G a n z h o u341000,C h i n a;4.N a n c h a n g H a n g k o n g U n i v e r s i t y,N a n c h a n g330063,C h i n aA b s t r a c t:A i m i n g a t t h e p r o b l e m so f i m p e r f e c t f e a t u r es e l e c t i o na n d p o o r s t a b i l i t y i nt r a d i t i o n a lG N S S e l e v a t i o nt i m e s e r i e s p r e d i c t i o n m o d e l s,a c o m b i n e df o r e c a s t i n g m o d e lb a s e d o n v a r i a t i o n a l m o d e d e c o m p o s i t i o n(V M D)a n de x t r e m e g r a d i e n t b o o s t i n g(X GB o o s t)a l g o r i t h m i s p r o p o s e d.T h em o d e l o b t a i n s t h e r e c o n s t r u c t e ds i g n a l t h r o u g h m u l t i p l eV M Ds u bGm o d e l s,a n di n p u t s i t i n t ot h eX G B o o s tm o d e la sa f e a t u r e f o r f o r e c a s t i n g o f t h eo r i g i n a l t i m es e r i e s.T ov e r i f y t h e p e r f o r m a n c eo f t h e f o r e c a s t i n g m o d e l,t h e e x p e r i m e n t s e l e c t st h ev e r t i c a l t i m es e r i e sd a t ao f4o b s e r v a t o r i e sf o r t h ef o r e c a s t i n g e x p e r i m e n t,t h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e V M Dm o d e l c a n a c c u r a t e l y e x t r a c t t h e f e a t u r e s.C o m p a r e dw i t h t h e V M DGC N NGL S T Mm o d e l,t h ee x p e r i m e n t a l r e s u l t so fV M DGX G B o o s ts h o wt h a t t h e M A Ev a l u e sa r er e d u c e db y 19.74%~35.90%a n d t h e R M S E v a l u e s a r e r e d u c e d b y22.22%~31.14%.T h e f o r e c a s t i n g r e s u l t s h a v e h i g h e r s t a b i l i t y a n da r e h i g h l y c o r r e l a t e d t o t h eo r i g i n a l t i m es e r i e s,w h i c hc a nb e t t e r p r e d i c t t h eT a r g e t e dt i m e s e r i e s.T h e r e f o r e,t h e f o r e c a s t i n g m e t h o dc a nb ea p p l i e d t oG N S Sv e r t i c a l t i m e s e r i e s f o r e c a s t i n g.K e y w o r d s:V M D;X G B o o s t;G N S S;t i m e s e r i e s;f o r e c a s t i n gF o u n d a t i o ns u p p o r t:T h e N a t i o n a l N a t u r a l S c i e n c e F o u n d a t i o n o f C h i n a(N o s.42061077;42064001;42104023);T h e N a t i o n a l N a t u r a l S c i e n c e F o u n d a t i o n o f J i a n g x i,C h i n a(N o s.20202B A B L213033;20202B A B212010);T h eJ i a n g x iU n i v e r s i t y o fS c i e n c ea n dT e c h n o l o g y H i g hGl e v e lT a l e n tR e s e a r c hS t a r t u p P r o j e c t(N o.205200100564);Y o u t h T a l e n tP l a n o f S c i e n c ea n dT e c h n o l o g y T h i n k T a n ko f C h i n aA s s o c i a t i o n f o r S c i e n c ea n dT e c h n o l o g y i n2022摘㊀要:针对传统G N S S高程时间序列预测模式存在特征选取不完善㊁稳定性差等问题,本文提出了一种融合V M D和X G B o o s t算法的预测模型.该模型通过多个V M D子模型得到重构信号,再将其作为特征输入X G B o o s t模型中进行原始时间序列的预测.为了验证预测模型的性能,试验选取4个观测站高程时间序列数据进行预测试验,试验结果表明,V M D模型能够准确地提取特征信息.与V M DGC N NGL S T M模型相比,V M DGX G B o o s t模型预测结果的M A E值降低了19.74%~35.90%,R M S E值降低了22.22%~31.14%,预测结果具有更高的稳定性且与原始时间序列呈较强相关性,可以较好地预测出目标时间序列.因此,该预测模型可应用于G N S S高程时间序列预测.关键词:V M D;X G B o o s t;G N S S;时间序列;预测Copyright©博看网. All Rights Reserved.A u g u s t2023V o l.52N o.8A G C S h t t p:ʊx b.c h i n a s m p.c o m 中图分类号:P228㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀文章编号:1001G1595(2023)08G1235G10基金项目:国家自然科学基金(42061077;42064001;42104023);江西省自然科学基金(20202B A B L213033;20202B A B212010);江西理工大学高层次人才科研启动项目(205200100564);2022年度中国科协科技智库青年人才计划㊀㊀近30年来,G N S S基准站不断积累的时间序列数据为大地测量和地球动力学研究提供了宝贵的数据基础[1G5].这些数据可以有效地反映由地球物理效应引起的长期变化趋势和非线性变化[6].因此,对G N S S坐标时间序列进行分析有助于监测地壳板块运动[7G9]㊁大坝或桥梁变形监测[10G13]㊁全球或区域坐标系维护[14G16]等领域的发展.随着G N S S相关技术的发展,G N S S数据已被可靠地应用于区域陆地运动的研究中,其中G N S S高程时间序列数据可以为研究人员进行区域垂直陆地运动分析提供有效的数据参考[17].因此通过分析G N S S高程时间序列,可以预测连续时间点的高程[18G19],为判断运动趋势提供重要依据.已有研究发现,G N S S坐标时间序列中垂直方向上的噪声分量通常大于水平方向,且噪声组合模型丰富[20G21].在目前G N S S坐标时间序列建模中,研究人员通常以趋势项㊁周期项和噪声解释G N S S坐标时间序列的构造成分.但是噪声不同于趋势项和周期项,并不具有时间特征.因此,目前构建顾及噪声影响的高精度G N S S高程时间序列预测模型困难较大[22G23].随着G N S S坐标时间序列预测研究的深入,出现了基于信号分解模型对G N S S时间序列数据进行分解,然后对各分量逐一预测,最后等权相加得到预测结果的预测模式[24].该预测模式下的模型虽然可以有效地进行G N S S坐标时间序列预测研究,但依旧存在着需要解决的问题:①该预测模式存在两个误差来源,即分解时间序列造成的误差和预测存在的误差.②有限次分解后得到的子时间序列相加结果普遍小于原始时间序列,预测模型对于不同子时间序列的预测结果误差可能存在两个方向误差,导致预测模型稳定性较差.③分解后存在数据尺度较小的子时间序列,预测模型对于数据尺度较小的时间序列预测效果相对欠佳,导致预测模型精度下降.随着人工智能技术的发展,机器学习算法愈加受到研究人员的青睐,越来越多强大的算法被应用于不同的领域.机器学习是一种可以通过手动输入特征进行时间序列预测的有效方法,其预测结果具有较强的解释性,并且机器学习算法对于预测结构化数据表现突出,其中基于决策树的算法在时间序列数据预测领域表现更加优越[25G26].文献[27]提出的极端梯度提升算法在多个领域的目标检测和预测研究中得到了应用并取得了显著的效果[28G30].虽然X G B o o s t算法展现出强大的时间序列数据预测能力,但是X G B o o s t算法在提取非平稳时间序列特征方面能力欠佳.基于上述问题,本文提出一种融合变分模态分解(v a r i a t i o n a lm o d ed e c o m p o s i t i o n,VM D)和X G B o o s t算法的G N S S高程时间序列预测方法(VM DGX G B o o s t模型).首先,VM DGX G B o o s t 模型叠加由VM D模型分解得到的分量以得到重构信号,摒弃传统预测模型分步预测的模式,以消除分解时间序列带来的误差.然后,VM DGX G B o o s t模型以重构信号作为特征,取代传统预测模型以时间作为特征的方法,达到削弱噪声对于预测精度影响的目的.最后,以重构信号作为特征的预测模式在为X G B o o s t模型提供有效特征的前提下,弥补X G B o o s t算法提取非平稳时间序列特征能力欠佳的问题,提升X G B o o s t模型预测能力.1㊀V M DGX G B o o s t模型原理1.1㊀V M D算法VM D算法是一种时频分析算法,能够将信号一次性分解成多个单分量调幅调频信号,避免了迭代过程中遇到的端点效应和虚假分量问题[31].该算法可以有效处理非线性㊁非平稳的G N S S高程时间序列,但由于它对噪声敏感,处理存在噪声的G N S S高程时间序列时,可能出现模态混叠现象.VM D的分解过程即变分问题的求解过程,在该算法中,本征模态函数(i n t r i n s i c m o d e f u n c t i o n,I M F)被定义为一个有带宽限制的调幅G调频函数,VM D算法的功能便是通过构造并求解约束变分问题,将原始信号分解为指定个数的I M F分量.6321Copyright©博看网. All Rights Reserved.第8期鲁铁定,等:融合V M D 和X G B o o s t 算法的G N S S 高程时间序列预测方法假设将一个信号分解为K 个I M F 分量,VM D 算法分解的具体流程如下[32]:(1)通过H i l b e r t 变换,得到每个模态分量μK (t )的解析信号,进而得到其单边频谱为δ(t )+j πt éëêêùûúú μK (t )(1)(2)对各模态解析信号预估一个中心频率e -jωK t,将每个模态的频谱调制到相应的基频带δ(t )+j πt æèçöø÷ μK (t )éëêêùûúúe -j ωK t(2)(3)计算上述解调信号梯度平方L 的范数,估计出各模态信号带宽,受约束的变分问题为m i n{μK },{ωK }ðKd t δ(t )+j πt æèçöø÷ μK (t )éëêêùûúúe -j ωK t 22{}(3)s .t .㊀ðKμK =f(4)式中,μK 代表分解得到的K 个I M F 分量;ωK 表示各模态对应的中心频率.为了求解该约束性变分问题,引入二次惩罚因子α和拉格朗日乘法算子λ(t ),将约束性变分问题变为非约束性变分问题.扩展的拉格朗日表达式为L ({μK },{ωK },λ)=αðK∂t δ(t )+j πt æèçöø÷ μK (t )éëêêùûúúe -j ωK t 22+f (t )-ðKμK (t )22+‹λ(t ),f (t )-ðKμK (t )›(5)式中,α为二次惩罚因子;λ(t )为拉格朗日乘法算子.其中,α可在高斯噪声存在的情况下,保证信号的重构精度,通常取拉格朗日算子使得约束条件保持严格性.利用乘法算子交替方向法解决以上无约束变分问题,通过交替更新μn +1K㊁ωn +1K和λn +1寻求扩展拉格朗日表达式的 鞍点.1.2㊀X G B o o s t 算法X G B o o s t 算法是一个开源机器学习项目.该算法在水文时间序列预测㊁环境质量指标预测和网络异常入侵检测[33]等研究有着较好的应用,但在G N S S 坐标时间序列相关研究未见报道.X G B o o s t 算法属于集成学习中的B o o s t i n g分支,其每一次的计算都是为了减少上一次的残差,进而在负梯度方向上建立一个新的树模型,即前面决策树的训练和预测效果会影响建立下一棵树模型时的样本输入.与同属于树模型算法的G B D T 算法相比,X G B o o s t 算法更为高效,并且在算法上也进行了改进.X G B o o s t 算法使用了二阶的泰勒展开式逼近目标函数的泛化误差部分,简化了目标函数的计算;X G B o o s t 算法通过在目标函数中加入正则项降低模型预测的波动性及改善模型过拟合现象.X G B o o s t 算法具体流程如下:假设有一个数据集A ={(x i ,y i ):i =1,2, ,n ,x i ɪm,y i ɪ},其中含有n 个观测值,每个观测值有m 个特征和一个对应的变量y .定义一个值^y i ,并通过广义模型表示为^y i =ϕ(x i )=ðKK =1f k (x i )(6)式中,f k 表示一棵决策树,f k (x i )表示第k 棵树赋予第i 个观测值的分数.同时,使用函数f k 时,下述的正则化目标函数应该被最小化为L (ϕ)=ðil (y i ,^y i )+ðkΩ(f k )(7)式中,l 为损失函数.为了防止模型过于复杂,模型将惩罚项Ω设置为Ω(f k )=γT +12λw 2(8)式中,γ为控制惩罚项中枝叶数量T 的参数;λ为控制惩罚项中枝叶重量w 的参数.设置Ω(f k )项不仅可以简化算法生成的模型,且可以防止模型过于拟合.X G B o o s t 算法采用迭代法最小化目标函数.模型通过增加f j 项在第j 次迭代得到减小的目标函数为L j=ðni =1l (y i ,^y (j -1)i +f j (x i ))+Ω(f j )(9)式(9)可以通过泰勒展开进行简化,并且可以推导出树从给定节点分裂后的损失减少公式为L s p l i t =12(ði ɪI Lg i )2ði ɪI L h i +λ+(ði ɪI Rg i )2ði ɪI R h i +λ-(ði ɪI g i )2ði ɪIh i +λéëêêêùûúúú-γ(10)式中,I 是当前节点中可用观测数据的一个子集;I L 和I R 分别为分裂后左右节点中可用观测数据的一个子集.函数g i 和h i 定义分别为g i =∂^y (j -1)i l (y i ,^y (j -1)i )(11)h i =∂2^y (j -1)il (yi ,^y (j -1)i )(12)从推导L s pl i t 的公式中找到任意给定节点的最佳分裂,这个函数只依赖于损失函数和正则化7321Copyright ©博看网. All Rights Reserved.A u gu s t 2023V o l .52N o .8A G C S h t t p :ʊx b .c h i n a s m p .c o m 参数γ.同时,基于式(10),X G B o o s t 算法可以优化任何损失函数,并且提供一阶和二阶梯度.1.3㊀V M D GX G B o o s t 模型VM D GX G B o o s t 模型通过使用VM D 算法构造特征取代X G B o o s t 算法提取特征的模块,从而将VM D 算法和X G B o o s t 算法进行融合.G N S S 高程时间序列数据通常为一维时间序列数据,具有统一的时间间隔.将G N S S 高程数据按照时间顺序一维排列为X 1,X 2, ,X n (13)通过VM D 算法将时间序列分解为K 个I M F 分量,分解结果可表达为X 1I M F 1X 2I M F 1 X n I M F 1X 1I M F 2X 2I M F 2 X n I M F 2⋮⋮⋮X 1I M F KX 2I M F KX n I M F Kéëêêêêêùûúúúúú(14)式中,X n I M F K 表示X n 在第K 个I M F 分量中的值.已有的分部预测模式中,研究人员将通过预测模型对各个分量时间序列进行预测然后叠加得到预测结果,但由于时间序列没有被完全分解,导致预测结果存在二次误差.为了避免该情况发生,VM D GX G B o o s t 模型通过将各I M F 分量叠加生成与原始时间序列高度相关的新时间序列,并通过设置m 个各不相同的K 值得到m 个新时间序列,m 个新时间序列可整合为X 1VM D 1X 1VM D 2X 1V MD m X 2VM D 1X 2VM D 2 X 2VM D m ⋮⋮⋮X n VM D 1X n VM D 2X n VM D m éëêêêêêùûúúúúú(15)式中,X n VM D m 表示当K =m 时,X n 由VM D 算法分解后叠加所得到的值.然后将整合的m 维时间序列加入原始时间序列生成一个(m +1)维时间序列X 1VM D1X 1VM D 2X 1VM D m X 1X 2VM D 1X 2VM D 2X 2VM D mX 2⋮⋮⋮⋮X n VM D 1X n VM D 2X n VM D m X n éëêêêêêùûúúúúú(16)在X G B o o s t 模型中,将生成的(m +1)维时间序列中的前m 列时间序列数据作为特征取代X G B o o s t 模型提取特征步骤;将最后一列时间序列数据即原始时间序列数据作设置为目标序列进行预测,从而得到预测结果.1.4㊀精度评价指标本文使用平均绝对误差(m e a n a b s o l u t ee r r o r ,MA E )和均方根误差(r o o t m e a ns qu a r e e r r o r ,R M S E )作为模型预测精度的评价指标[20].MA E 与R M S E 分别为MA E =1n ðni =1(y i -^yi )(17)R M S E =1n ðni =1(y i -^y i )2(18)式中,y i 为原始值;^y i 为预测值.MAE 和R M S E 的值越小,代表模型的预测精度越高,更适用于该时间序列.反之,则代表模型的预测精度越低,在该时间序列中适用性较差.通过引入皮尔森相关系数判断预测时间序列和原始时间序列之间的相关性.皮尔森相关系数将时间序列视为变量,从而计算两个时间序列的相关性,皮尔森相关系数可表达为R Y ^Y=E (Y ^Y )-E (Y )E (^Y )σY σ^Y(19)式中,Y 和^Y 分别代表进行皮尔森相关系数计算时将原始时间序列和预测时间序列视为的变量.式(19)值域为[-1,1],R Y ^Y >0,则两时间序列正相关;R Y ^Y <0,则两时间序列负相关;R Y ^Y =0,则两时间序列不相关.同时,R Y ^Y 绝对值越接近1,两时间序列相关性越强.2㊀数据与试验2.1㊀数据选取本文试验数据均来自中国地震局G N S S 数据产品服务平台,试验数据集包含了中国大陆构造环境监测网络中B J G B 站(119.1ʎE ,40.6ʎN )㊁H E Z J 站(114.8ʎE ,40.8ʎN )㊁X J S S 站(90.2ʎE ,42.8ʎN )和Y N R L 站(97.8ʎE ,24.0ʎN )共4个观测站各1095个历元的单日解高程数据.试验按照2ʒ1的比例划分训练集和测试集,即训练集包含各测站730个历元数据,测试集包含各测站365个历元数据.2.2㊀构建V M D GX G B o o s t 模型VM D GX G B o o s t 模型预测流程如图1所示.基于VM D 模型改进的G N S S 高程时间序列预测模型(VM D GX G B o o s t 模型)具体预测步骤如下:(1)数据准备.G N S S 坐标时间序列是通过实际观测或求解得到的,它应在周㊁天㊁小时㊁秒等维度具有一致性.本文选取4个G N S S 观测站单日解高程时间序列数据作为试验数据.8321Copyright ©博看网. All Rights Reserved.第8期鲁铁定,等:融合V M D和X G B o o s t算法的G N S S高程时间序列预测方法图1㊀VM DGX G B o o s t模型流程F i g.1㊀F l o w c h a r t o fVM DGXG B o o s tm o d e l㊀㊀(2)通过V M D模型构造子序列.首先通过V M D模型进行时间序列分解,然后将分解得到的时间序列叠加得到子时间序列.试验中该步骤通过设置不同的K值得到5个子时间序列.为了保证试验的科学性,训练集和测试集数据需要分别处理,试验按照2ʒ1的比例划分训练集和测试集.(3)构造数据集.将子时间序列和原始时间序列放入同一数据集,将子时间序列作为原始时间序列的特征.(4)X G B o o s t模型预测.首先将试验数据集中的训练集输入X G B o o s t模型中,同时为了更好地体现模型的泛化能力,在训练集中随机抽取20%个历元进行预测并通过五折交叉验证得到最终预测模型及输入特征的特征评价结果.然后将试验数据集输入训练好的X G B o o s t模型中.(5)统计V M DGX G B o o s t模型预测结果.通过设置不同的预测时间跨度统计该时间跨度内预测精度指标值,以评判模型预测的稳定度.试验共设置了7㊁30㊁90㊁180㊁365d共5个时间跨度进行统计.3㊀试验结果与分析3.1㊀试验结果3.1.1㊀信号重构结果试验中K值的选取会直接影响特征集的构成,从而影响预测结果.K值较大时,相邻模态分量的中心频率则会相距较近,导致模态重复或产生额外的噪声,因此试验中K值取值不应过大.若追求预测效率,研究人员可以缩小K值的取值范围,减轻模型载荷;若追求更高的预测精度,研究人员可以适当扩大K值的取值范围,但并不是K值越大就必定会取得更高精度的预测结果.因此,顾及模型载荷会随着K值的增大而呈梯度上升的问题,试验将VM D模型的参数K 分别设置为4㊁5㊁6㊁7㊁8,从而得到不同的5个子时间序列.图2为Y N R L站信号重构结果.图2㊀Y N R L站信号重构结果F i g.2㊀S i g n a l r e c o n s t r u c t i o n r e s u l t s o fY N R Ls t a t i o n图2包含了5个VM D子模型信号重构结果和Y N R L站原始时间序列数据,每条曲线包含1095个历元.蓝色曲线为Y N R L站原始时间序列;橘黄色曲线为K=4时,VM D模型信号重构结果;绿色曲线为K=5时,VM D模型信号重构结果;红色曲线为K=6时,VM D模型信号重构结果;紫色曲线为K=7时,VM D模型信号重构结果;棕色曲线为K=8时,VM D模型信号重构结果;红色直线为训练集和测试集分界线,左侧为训练集,右侧为测试集.3.1.2㊀预测结果根据试验设置,试验通过训练730个历元数据预测365个历元数据.图3为Y N R L站VM DGX G B o o s t模型预测结果.图3㊀Y N R L站VM DGX G B o o s t模型预测结果F i g.3㊀VM DGXG B o o s t m o d e lf o r e c a s t i n g r e s u l t sa tY N R Ls t a t i o n9321Copyright©博看网. All Rights Reserved.A u gu s t 2023V o l .52N o .8A G C S h t t p :ʊx b .c h i n a s m p .c o m 图3中蓝色曲线为Y N R L 站原始时间序列数据,共1095个历元;橘黄色曲线为训练集中VM D GX G B o o s t 模型拟合结果,共730个历元;绿色曲线为测试集中VM D GX G B o o s t 模型预测结果,共365个历元;红色直线为训练集和测试集分界线.3.2㊀试验分析3.2.1㊀重构信号质量分析试验以MA E 值和R M S E 值作为指标评价VM D 子模型重构信号的质量,通过皮尔森相关系数R 评价重构信号和原始时间序列间相关性.同时试验通过在训练集中对20%个随机历元进行预测,得到不同子时间序列在预测模型中的得分情况,从而进行重构信号质量分析.表1为4个观测站重构信号精度.表1㊀各观测站重构信号精度T a b .1㊀R e c o n s t r u c t i o n s i g n a l a c c u r a c y of e a c ho b s e r v a t i o n s t a t i o n测站KMA E /mm R M S E /mmRB J G B42.673.490.9052.243.000.9362.012.670.9471.662.170.9781.431.870.98H E Z J42.593.400.9052.182.890.9361.852.400.9671.682.170.9781.341.750.98X J S S42.703.660.9052.293.060.9361.992.670.9571.732.280.9781.532.010.97Y N R L43.184.110.9352.773.590.9562.403.070.9672.102.700.9781.802.300.98由表1可知,随着K 值的增大,重构信号越接近原始时间序列,且重构信号均与原始时间序列呈极强相关性.虽然K 越大,重构信号误差越小,但当重构信号作为特征进行预测时并非与原始时间序列相关性越高,对于预测的贡献越大.通过X G B o o s t 算法内置的特征评价模块统计后,各观测站重构信号在训练集中得分情况如图4 图7所示.图4㊀B J G B 站重构信号得分情况F i g .4㊀S c o r e o f r e c o n s t r u c t e d s i gn a l o fB J G Bs t a t i on 图5㊀H E Z J 站重构信号得分情况F i g .5㊀S c o r e o f r e c o n s t r u c t e d s i gn a l o fH E Z J s t a t i on 图6㊀X J S S 站重构信号得分情况F i g .6㊀S c o r e o f r e c o n s t r u c t e d s i gn a l o fX J S Ss t a t i o n ㊀㊀由图4 图7可知,当K =4或8时,重构信号得分最高,即对于模型预测提供了更为重要的帮助,这也证明了试验将K 的取值范围设置为4~8的合理性.3.2.2㊀预测结果分析C N N GL S TM 模型在多个领域的时间序列预测研究中得到良好的应用[34G36],因此,试验以VM D GX G B o o s t 模型的构建思路构建VM D GC N N GL S T M 模型作为参照模型.0421Copyright ©博看网. All Rights Reserved.第8期鲁铁定,等:融合V M D和X G B o o s t算法的G N S S高程时间序列预测方法图7㊀Y N R L站重构信号得分情况F i g.7㊀S c o r e o f r e c o n s t r u c t e d s i g n a l o fY N R Ls t a t i o n㊀㊀试验以MA E值和R M S E值作为指标评价VM DGX G B o o s t模型的预测精度,通过皮尔森相关系数R评价预测时间序列和原始时间序列间相关性.在进行4个观测站高程时间序列预测试验时,通过训练730个历元数据,预测365个历元的数据.表2为各观测站预测结果精度.表2㊀各观测站预测结果精度T a b.2㊀F o r e c a s t i n g a c c u r a c y o f e a c ho b s e r v a t i o n s t a t i o n测站模型预测天数/dMA E/mmR M S E/mm RB J G B VM DGX G B o o s tVM DGC N NGL S T M ㊀70.971.430.87300.991.280.98901.341.690.961801.912.390.943651.632.100.973652.102.700.92H E Z J VM DGX G B o o s tVM DGC N NGL S T M ㊀70.921.120.94301.021.230.97901.341.670.961802.413.090.953651.752.410.973652.733.500.92X J S S VM DGX G B o o s tVM DGC N NGL S T M ㊀72.762.840.77302.062.320.95901.922.210.941802.292.690.943651.872.330.973652.333.130.92Y N R L VM DGX G B o o s tVM DGC N NGL S T M ㊀71.621.920.94301.221.590.95901.391.710.961802.633.680.943652.112.980.983653.024.060.95通过对比VM DGX G B o o s t模型和VM DGC N NGL S T M模型的预测结果可以得出,在进行长时间跨度的预测时,V M DGX G B o o s t模型精度更高.相较于V M DGC N NGL S T M模型,在B J G B㊁H E Z J㊁X J S S㊁Y N R L4个站,V M DGX G B o o s t模型预测结果的MA E值分别降低了22.38%㊁35.90%㊁19.74%㊁30.13%,R M S E值分别降低了22.22%㊁31.14%㊁25.56%㊁26.60%.因此,在进行G N S S 高程时间序列预测时,X G B o o s t模型更为稳定.由表2可知,当以VM D模型的重构信号作为特征时,X G B o o s t算法在不同时间跨度的时间序列预测中表现出良好的预测能力.通过对比VM DGX G B o o s t模型在4个观测站不同时间跨度预测结果的精度可以得出,VM DGX G B o o s t模型具有较强的稳定性,虽然预测精度会随着时间跨度的增长出现波动,但仍然保持着较高的预测精度,且预测结果与原始时间序列间相关性略有提升.因此,VM DGX G B o o s t模型对于观测站高程方向上的运动趋势和变化规律拥有良好的预测效果.由表2可知,随着预测天数的增加,皮尔森相关系数R呈现先增大后减小再增大的现象.这一现象与预测时间跨度和预测误差存在关联性.首先,R第一次增大出现在预测时间跨度由7变为30时,这是由于当预测时间跨度为7时,预测点数较少,每个点对于相关系数影响较大;在预测时间跨度由30~365变化时,R出现先减小后增大的现象,通过对比预测误差的变化可以得出,模型在预测第90~180个历元的数据时误差较大,从而导致相关系数降低,但由于预测时间跨度的增长,大部分历元的预测精度较高,所以虽然出现减少的想象,但不会低于初始值,然后随着预测时间跨度的增长,模型依旧保持着良好的预测精度,削弱了预测较差部分对于R的影响,R呈增大趋势.此外,通过对比X G B o o s t模型在4个测站的预测结果可以得出,模型在第90~180个历元区间出现较大预测误差的因素并非是时间跨度,而是时间序列的峰值在该区间占比较高.因此, VM DGX G B o o s t模型对于峰值的预测精度有待提升.表3为H E Z J站预测精度最差的10个历元.由表3可知,H E Z J站预测精度最差的10个历元分布在第106~160个历元,验证了在H E Z J 站VM DGX G B o o s t模型预测精度出现下滑的区间.图8为VM DGX G B o o s t模型在H E Z J站的预测结果.1421Copyright©博看网. All Rights Reserved.A u gu s t 2023V o l .52N o .8A G C S h t t p :ʊx b .c h i n a s m p .c o m 表3㊀H E Z J 站预测精度最差的10个历元T a b .3㊀T h e t e ne p o c h sw i t h t h ew o r s t f o r e c a s t i n g a c c u r a c yo fH E Z J s t a t i o nm测站历元真实值预测值绝对误差H E Z J1320.012540.018820.006281510.015900.022190.006291600.003430.009880.006451310.012070.018820.00675158-0.001500.005340.00684130-0.001180.005990.007171060.014950.022190.007241440.014140.022190.008051490.010450.018870.008421360.013490.022190.00870图8㊀H E Z J 站预测结果F i g .8㊀F o r e c a s t i n g re s u l t s o fH E Z J s t a t i o n 图8中,蓝色曲线为H E Z J 站原始原始时间序列;绿色曲线为VM D GX G B o o s t 模型预测结果;10个红色星号标记为VM D GX G B o o s t 模型在H E Z J 站预测精度最差的10个点.由图8可以看出,预测结果与原始时间序列保持较好的一致性,对于原始时间序列的上升或下降趋势有着良好的预见性.根据红色星号标记分布规律可以得到,预测精度最差的10个点虽然不是原始时间序列的峰值点,但都分布在时间序列峰值附近,因此,VM D GX G B o o s t 模型预测误差主要来源于峰值区域.上述试验说明了模型在高相关性特征的作用下可以得到高精度的结果,但上述试验使用目标时间序列构造特征.因此为了完善试验设置,试验通过VM D 算法重构与目标时间序列邻近的观测站数据,将重构得到的低噪声时间序列作为特征进行目标时间序列的预测.表4为4个观测站的预测结果精度.表4中,X J S S 和Y N R L 站预测结果的MA E值和R M S E 值较大的原因是X J S S 和Y N R L 站真实观测值的绝对值较大.对比表2和表4可以看出,VM D GX G B o o s t 模型在4个测站的预测精度均有降低,这是因为试验初期为了验证模型的性能,试验通过目标序列构造特征,使得特征中含有目标时间序列信息.后续试验中,为了完善预测试验的严谨性,试验通过邻近观测站获得特征信息,所以预测精度出现下滑,这说明了特征与目标时间序列的相关性是影响预测精度的因素之一,构造与目标时间序列相近的特征是VM D GX G B o o s t 模型的关键.表4㊀4个观测站的预测结果T a b .4㊀F o r e c a s t i n g re s u l t s of f o u rG N S S s t a t i o n s mm测站特征观测站MA E R M S E RB J G B T J B D3.274.320.83H E Z JH E C C 3.164.080.86X J S S X J B E 4.445.540.75Y N R LY N T H 6.468.320.834㊀结㊀论本文提出了一种融合VM D 和X G B o o s t 算法的G N S S 高程时间序列预测方法,即VM D GX G B o o s t 模型,给出了预测模型的数据处理策略,深入研究了VM D GX G B o o s t 模型的特点和优势.本文首先分析了传统时间序列预测模式存在的问题,在此基础上,构建了VM D GX G B o o s t 模型;然后评定了通过VM D 算法取代X G B o o s t 算法特征提取模块的有效性,并根据特征得分情况对K 值的选取进行分析;最后基于VM D GX G B o o s t 模型进行G N S S 高程时间序列预测试验.结果表明,在不同的时间跨度预测中,VM D GX G B o o s t 模型保持着良好的稳定性,预测结果与原始时间序列相关性较强;VM D GX G B o o s t 模型具有较高的精度,以VM D GC N N GL S T M 模型作为对比,精度提升可以达到19.74%~35.90%.特征相关性是影响VM D GX G B o o s t 模型预测精度的因素之一,多源的地学数据同样可以为模型预测提供有效特征[37].因此,在后续研究中需要针对如何科学有效地获取高相关性特征展开进一步研究,以提高预测框架的适用性.参考文献:[1]㊀D E N GL i a n s h e n g ,J I A N G W e i p i n g,L IZ h a o ,e t a l .A s s e s s G2421Copyright ©博看网. All Rights Reserved.第8期鲁铁定,等:融合V M D和X G B o o s t算法的G N S S高程时间序列预测方法m e n t o f s e c o n dGa n dt h i r dGo r d e r i o n o s p h e r i ce f f e c t so nr eGg i o n a l n e t w o r k s:c a s e s t u d y i n C h i n a w i t h l o n g e rC MO N O CG P S c o o r d i n a t e t i m e s e r i e s[J].J o u r n a l o f G e o dGe s y,2017,91(2):207G227.[2]㊀WU W e i w e i,WUJ i c a n g,M E N GG u o j i e.As t u d y o f r a n kd e f e c t a n d n e t w o r k e f f e c t i n p r o c e s s i n g t h eC MO N O Cn e tGw o r ko nB e r n e s e[J].R e m o t eS e n s i n g,2018,10(3):357.[3]㊀姜卫平,王锴华,李昭,等.G N S S坐标时间序列分析理论与方法及展望[J].武汉大学学报(信息科学版),2018,43(12):2112G2123.J I A N G W e i p i n g,W A N G K a i h u a,L IZ h a o,e ta l.P r o s p e c ta n d t h e o r y o fG N S Sc o o r d i n a t et i m es e r i e sa n a l y s i s[J].G e o m a t i c s a n d I n f o r m a t i o nS c i e n c eo fW u h a nU n i v e r s i t y,2018,43(12):2112G2123.[4]㊀Y A OY i b i n,Y A N GY u a n x i,S U N H e p i n g,e t a l.G e o d e s yd i s c i p l i n e:p r o g re s s a n d p e r s p e c t i v e[J].J o u r n a l o fG e o d e s y a n dG e o i n f o r m a t i o nS c i e n c e,2021,4(4):1G10.[5]㊀R E N Y i n g y i n g,L I A N L i z h e n,WA N GJ i e x i a n.A n a l y s i s o fs e i s m i cd e f o r m a t i o nf r o m g l o b a lt h r e eGd e c a d e G N S Sd i s p l a ce m e n t s:i m p l i c a t i o n sf o rat h r e eGd i m e n s i o n a l e a r t hG N S S v e l o c i t y f i e l d[J].R e m o t e S e n s i n g,2021,13(17):3369.[6]㊀W A N G J i a n,J I A N G W e i p i n g,L I Z h a o,e t a l.An e w m u l t iGs c a l e s l i d i n g w i n d o w L S T Mf r a m e w o r k(M S S WGL S T M):a c a s e s t u d y f o rG N S St i m eGs e r i e s p r e d i c t i o n[J].R e m o t eS e n s i n g,2021,13(16):3328.[7]㊀S T A L L E R A,ÁL V A R E ZGGÓM E Z JA,L U N A MP,e t a l.C r u s t a lm o t i o na n dd e f o r m a t i o ni nE c u a d o r f r o m c G N S St i m e s e r i e s[J].J o u r n a l o f S o u t hA m e r i c a nE a r t hS c i e n c e s,2018,86:94G109.[8]㊀H O B B SB,O R DA.N o n l i n e a r d y n a m i c a l a n a l y s i s o fG N S Sd a t a:q u a n t i f i c a t i o n,p re c u r s o r sa n ds y n c h r o n i s a t i o n[J].P r o g r e s s i n E a r t ha n d P l a n e t a r y S c i e n c e,2018,5(1):1G35.[9]㊀X U K,H E R,L IK,e ta l.S e c u l a rc r u s t a ld e f o r m a t i o nc h a r a c t e r i s t i c s p r i o rt ot h e2011T o h o k uGO k ie a r t h q u a k ed e t e c t e d f r o m G N S Sa r r a y,2003 2011[J].A d v a n c e s i nS p a c eR e s e a r c h,2021.[10]㊀X IR,J I A N G W,M E N GX,e t a l.R a p i d i n i t i a l i z a t i o nm e t h o di n r e a lGt i m e d e f o r m a t i o nm o n i t o r i n g o f b r i d g e sw i t h t r i p l eGf r e q u e n c y B D Sa n d G P S m e a s u r e m e n t s[J].A d v a n c e s i nS p a c eR e s e a r c h,2018,62(5):976G989.[11]㊀C H E NQ u s e n,J I A N G W e i p i n g,M E N GX i a o l i n,e t a l.V e r t i c a ld e f o r m a t i o n m o n i t o r i n g o ft h es u s p e n s i o n b r i d g et o w e ru s i n g G N S S:a c a s es t u d y o f t h e f o r t hr o a db r i d g e i nt h eU K[J].R e m o t eS e n s i n g,2018,10(3):364.[12]㊀X I NJ i n g z h o u,Z H O UJ i a n t i n g,Y A N GS,e t a l.B r i d g e s t r u cGt u r e d e f o r m a t i o n p r e d i c t i o n b a s e d o nG N S S d a t a u s i n g K a lGm a nGA R I MAGG A R C H m o d e l[J].S e n s o r s,2018,18(1):298.[13]㊀Z HA N G R u i c h e n g,G A O C h e n g f a,P A N S h u g u o,e ta l.F u s i o no fG N S Sa n ds p e e d o m e t e rb a s e do n VM Da n d i t sa p p l i c a t i o n i nb r i d g e d e f o r m a t i o nm o n i t o r i n g[J].S e n s o r s,2020,20(3):694.[14]㊀A L T AM I M I Z,R E B I S C HU N GP,MÉT I V I E RL,e t a l.I T R F2014:an e wr e l e a s eo f t h e I n t e r n a t i o n a lT e r r e s t r i a lR e f e r e n c eF r a m e m o d e l i n g n o n l i n e a rs t a t i o n m o t i o n s[J].J o u r n a l o fG e o p h y s i c a lR e s e a r c h:S o l i dE a r t h,2016,121(8):6109G6131.[15]㊀L A H T I N E NS,J I V A L LL,HÄK L I P,e t a l.D e n s i f i c a t i o n o f t h e I T R F2014p o s i t i o na n dv e l o c i t y s o l u t i o n i n t h eN o r d i ca n dB a l t i cc o u n t r i e s[J].G P S S o l u t i o n s,2019,23(4):1G13.[16]㊀L I Z,C H E N W,D A M T,e t a l.C o m p a r a t i v e a n a l y s i s o f d i fGf e r e n t a t m o s p h e r i c s u r f a c e p r e s s u r em o d e l sa n dt h e i r i mGp a c t s o nd a i l y I T R F2014G N S Sr e s i d u a l t i m es e r i e s[J].J o u r n a l o fG e o d e s y,2020,94(4):1G20.[17]㊀K OWA L C Z Y KK,P A J A KK,W I E C Z O R E KB,e t a l.A na n a l y s i s o f v e r t i c a l c r u s t a lm o v e m e n t s a l o n g t h eE u r o p e a nc o a s t f r o ms a t e l l i t e a l t i m e t r y,t ide g a u g e,G N S S a n d r a d a ri n t e r f e r o m e t r y[J].R e m o t e S e n s i n g,2021,13(11):2173.[18]㊀鲁铁定,李祯.基于P r o p h e tGX G B o o s t模型的G N S S高程时间序列预测[J].大地测量与地球动力学,2022,42(9):898G903.L U T i e d i n g,L I Z h e n.P r e d i c t i o no fG N S Sv e r t i c a l c o o r d iGn a t et i m es e r i e sb a s e d o n p r o p h e tGX G B o o s t m o d e l[J].J o u r n a lo f G e o d e s y a n d G e o d y n a m i c s,2022,42(9):898G903.[19]㊀L I Z h e n,L UT i e d i n g.P r e d i c t i o n o fm u l t i s t a t i o nG N S S v e r t i c a lc o o rd i n a te t i m e s e r i e s b a s e do nX G B o o s t a l g o r i t h m[M]ʊL e c t u r e n o t e s i n e l e c t r i c a l e n g i n e e r i n g.S i n g a p o r e:S p r i n g e rN a t u r eS i n g a p o r e,2022:275G286.[20]㊀L IW e n h a o,L IF e i,Z H A N GS h e n g k a i,e t a l.S p a t i o t e mGp o r a lf i l t e r i n g a n d n o i s e a n a l y s i s f o r r e g i o n a l G N S Sn e t w o r k i n A n t a r c t i c a u s i n g i n d e p e n d e n t c o m p o n e n ta n a l y s i s[J].R e m o t eS e n s i n g,2019,11(4):386.[21]㊀N I S T O RS,S U B A NS,MA C I U K K,e t a l.A n a l y s i so f n o i s e a n dv e l o c i t y i n G N S SE P NGr e p r o2t i m es e r i e s[J].R e m o t eS e n s i n g,2021,13(14):2783.[22]㊀贺小星,花向红,鲁铁定,等.时间跨度对G P S坐标序列噪声模型及速度估计影响分析[J].国防科技大学学报,2017,39(6):12G18.H EX i a o x i n g,HU AX i a n g h o n g,L UT i e d i n g,e t a l.E f f e c to f t i m e s p a no nG P St i m e s e r i e sn o i s em o d e l a n dv e l o c i t ye s t i m a t i o n[J].J o u r n a l o fN a t i o n a lU n i v e r s i t y o fD ef e n s eT e c h n o l o g y,2017,39(6):12G18.[23]㊀李威,鲁铁定,贺小星,等.基于P r o p h e tGR F模型的G N S S 高程坐标时间序列预测分析[J].大地测量与地球动力学,2021,41(2)116G121.L IW e i,L U T i e d i n g,H E X i a o x i n g,e t a l.P r e d i c t i o na n da n a l y s i s o fG N S Sv e r t i c a l c o o r d i n a t e t i m es e r i e sb a s e do np r o p h e tGR F m o d e l[J].J o u r n a l o fG e o d e s y a n dG e o d y n a mGi c s,2021,41(2)116G121.[24]㊀T A O R u i,L U T i e d i n g,C H E N G Y u a n m i n g,e t a l.A n i mG3421Copyright©博看网. All Rights Reserved.。
基于XGBoost_机器学习模型的信用评分卡与基于逻辑回归模型的对比
第 42 卷第 6 期2023年 11 月Vol.42 No.6Nov. 2023中南民族大学学报(自然科学版)Journal of South-Central Minzu University(Natural Science Edition)基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比张利斌,吴宗文(中南民族大学经济学院,武汉430074)摘要分别基于逻辑回归模型和XGBoost机器学习模型构建了信用评分卡,比较了两种模型在个人信用评分上的表现,指出XGBoost机器学习模型在“AUC、KS、F1和Accuracy值”上表现更加优秀.首先,从数据的包容性、可解释性以及模型的准确性方面对两个模型进行了对比;其次,使用住房贷款违约风险预测的竞赛数据,分别构建了基于逻辑回归模型和XGBoost机器学习模型的信用评分卡,并使用了AUC、KS、F1和Accuracy来评估这两个模型的分类效果和预测准确程度;最后,通过对比两个模型的评估结果,分析了XGBoost机器学习模型相较于逻辑回归模型更加优秀的原因.结论指出:XGBoost机器学习模型在测试集上的AUC、KS、F1和Accuracy值比逻辑回归模型分别提升了19.9%、17.5%、15.4%和11.9%,其原因在于XGBoost机器学习模型纳入了更多的维度信息、更加科学的缺失值处理方式以及考虑了正则化项的算法原理.关键词逻辑回归模型;XGBoost机器学习模型;信用评分卡中图分类号TP181;F832.51 文献标志码 A 文章编号1672-4321(2023)06-0846-07doi:10.20056/ki.ZNMDZK.20230616Credit scoring card based on XGBoost machine learning modelCompared with logistic regression modelZHANG Libin,WU Zongwen(School of Economics, South-Central Minzu University, Wuhan 430074, China)Abstract A credit scoring card based on logistic regression model and XGBoost machine learning model are constructed respectively. The performance of the two models are compared in personal credit scoring,and it is pointed out that XGBoost machine learning model performs better in “AUC, KS, F1 and Accuracy values”. Firstly, a comparative analysis of the two models is made from the aspects of data inclusiveness, interpretability and model accuracy. Secondly, using the competition data of housing loan default risk prediction,credit scoring cards based on logistic regression model and XGBoost machine learning model are constructed respectively, and AUC, KS, F1 and Accuracy are used to evaluate the classification effect and prediction accuracy of the two models. Finally,by comparing the evaluation results of the two models,the reason why XGBoost machine learning model is better than logistic regression model is analyzed. The conclusion points out that the values of AUC, KS, F1 and Accuracy of XGBoost machine learning model in the test set are increased by 19.9%, 17.5%, 15.4% and 11.9% respectively compared with logistic regression model. The reason is that XGBoost machine learning model includes more dimensional information, more scientific missing value processing method and better algorithm principle considering regularization term.Keywords logistic regression model; XGBoost machine learning model; credit score card在金融风控领域,如何根据贷款客户的基本信息和行为数据等,利用一定的分类模型,将贷款客户区分为违约客户和非违约客户,从而减少贷款机构的信用风险,是金融贷款机构孜孜不倦的追求.收稿日期2022-03-15作者简介张利斌(1973-),男,教授,博士,研究方向:产业经济学,E-mail:*****************基金项目中南民族大学研究生创新基金项目资助项目(3212021sycxjj195)第 6 期张利斌,等:基于XGBoost机器学习模型的信用评分卡与基于逻辑回归模型的对比当前有两种主流分类模型——统计学模型和机器学习模型.逻辑回归模型是最常用的统计学模型,其优点主要体现在:第一,理论基础成熟,适合二分类问题[1];第二,可解释性较强,易于理解[2];第三,模型训练时间短[3].缺点主要体现在:第一,容易产生过拟合,泛化能力弱[4];第二,特征空间很大时,分类性能不好[5].近年来,XGBoost机器学习模型在分类问题中表现优秀,受到越来越多风控人员的青睐,其优点主要体现在:第一,计算复杂度低,运行速度快,准确度高[6];第二,可处理数据量大[7].缺点主要体现在:第一,建模过程不透明,模型较难解释[8];第二,理论基础不够成熟,布置上线较困难[9].在分类模型的评价方面,当前学者主要使用AUC、KS、F1和Accuracy值等来评价逻辑回归模型和XGBoost机器学习模型的效果,并指出XGBoost 机器学习模型比逻辑回归模型在AUC、KS、F1和Accuracy值上表现更加优秀,但是并未解释更加优秀的原因.本文拟从维度信息的损失程度、缺失值的处理方式以及模型的算法原理三方面来解释其中的原因.1 模型对比1.1 逻辑回归模型逻辑回归模型[10]是线性回归模型的改进,是一种“广义的线性回归模型”,该模型是分类问题中最常用的统计学模型.逻辑回归模型的一般形式见式(1)所示,如下:f(x)=11+e-()β0+β1x1+β2x2+⋯+βn x n,(1)其中,β0~βn为模型的估计参数,x1~x n为模型的变量.在金融风控领域,以贷款客户的违约与否作为逻辑回归模型的因变量,一般称为“非违约客户”和“违约客户”,用0或1来表示,即f(x)<0.5为0;f(x)>0.5为1.1.2 XGBoost机器学习模型XGBoost机器学习模型[11]比传统的GBDT (Gradient Boosting Decision Tree,以下简称GBDT)更加进步的原因在于:传统的GBDT只利用了一阶的导数信息,而XGBoost机器学习模型对损失函数进行了二阶的泰勒展开,求得模型最优解的效率更高.具体如下:将XGBoost机器学习模型进行t次迭代之后,此时的目标函数为:L()t=∑i=1n l()yiyit-1+f t(x i)+Ω(f t),(2)将目标函数进行泰勒二阶展开可得:L t≈∑i=1néëêêùûúúl()yi,y i(t-1)+g i f t(x i)+12h i f2t()x i+Ω(f t),(3)gi=∂y(t-1)l(y t,y∧(t-1))为每个样本的一阶导数,12h i=12∂2y(t-1)l(y i,y∧(t-1))为每个样本的二阶导数.1.3 模型优缺点逻辑回归模型和XGBoost机器学习模型的优缺点如表1所示.相较于XGBoost机器学习模型,逻辑回归模型更加方便实现,并且可解释强;XGBoost 机器学习模型在处理大数据时精度更高,并且可以有效防止过拟合.2 实证分析本文的实证分析思路如下:首先,分别运用逻辑回归模型和XGBoost机器学习模型来构建信用评分卡,并运用AUC、KS、F1和Accuracy这四个指标评估模型的效果.其次,从维度信息的损失程度、缺失值的处理方式以及模型的算法原理三个方面对比两个模型,分析XGBoost机器学习模型比逻辑回归表1 逻辑回归模型和XGBoost机器学习模型的优缺点Tab. 1 Advantages and disadvantages of logistic regression model and XGboost machine learning model模型逻辑回归模型XGBoost机器学习模型优点适用于二分类问题简单易理解,可解释性强训练速度快精度高能有效处理缺失值能有效防止过拟合缺点对自变量的多重共线性表现敏感特征空间很大时,分类性能不好容易产生过拟合,分类精度不高建模不透明,不易理解处理低偏差、高方差的数据效果不好847第 42 卷中南民族大学学报(自然科学版)模型更加优秀的原因.2.1 逻辑回归模型2.1.1 数据介绍实验数据来自于kaggle 官网(https ://www./c/home -credit -default -risk/overview )的住房贷款违约风险预测的竞赛数据.本文的实验数据集包括20000个训练数据和5000个测试数据,其中实验数据集共有121列,包括个人基本信息、所在地区情况、借贷信息状况以及公司相关状况等.本文为更好地解释实证部分,将实验数据集的英文变量翻译为中文变量,如表2所示.2.1.2 数据预处理(1) 无效值处理原始数据表中的SK_ID_CURR 变量在实际建模中的用处不大,且包含用户的隐私信息,故需直接删除.(2) 缺失值处理根据jupyter 分析软件可得,121个变量中共有65个有缺失值.其中,共有57个变量的缺失比例大于10%,将其直接删除,对剩余的缺失变量做相应的填充处理,具体处理方式如表3所示.2.1.3 入模变量筛选对逻辑回归模型来说,入模变量的选择至关重要.本文选择WOE 分箱、IV 值筛选法以及相关性检测相结合的方法筛选入模变量,具体思路如下:首先,根据变量的阈值以及业务趋势进行WOE 分箱;其次,根据WOE 分箱计算变量的IV 值,筛选IV 值大于0.3的变量(IV 值大于0.3有较高的预测能力);最后,对IV 值大于0.3变量进行相关性检测,剔除相关性大于0.5中IV 值较小的那个变量.一般来说,建立逻辑回归模型只需选择10~12个变量[12].本文选择IV 值排名靠前且通过相关性检测的11个变量作为入模变量,具体如表4所示.2.1.4 逻辑回归模型的建立根据SPSS 软件,确定x 1~x 11各变量的估计参数,从而建立逻辑回归模型,具体表达式如(4)式所示:f (x )=11+e -()-1.132+0.535x1+0.462x 2+0.769x 3+0.713x 4+0.976x 5+0.875x 6+0.568x 7+0.760x 8+0.375x 9+0.179x 10+0.268x 11,(4)表2 变量解释表Tab. 2 Variable interpretation英文变量名称TARGETNAME_EDUCATION_TYPE AMT_INCOME_TOTAL DAYS_EMPLOYED DAYS_BIRTH FLAG_OWN_REALTYREGION_RATING_CLIENTREG_CITY_NOT_WORK_CITYFLAG_OWN_CAR FLAG_MOBILNAME_INCOME_TYPENAME_FAMILY_STATUSREGION_RATING_CLIENT_W_CITYCODE_GENDER AMT_CREDITNAME_HOUSING_TYPEDEF_30_CNT_SOCIAL_CIRCLE…DEF_60_CNT_SOCIAL_CIRCLE REG_CITY_NOT_LIVE_CITY BASEMENTAREA_AVG ORGANIZATION_TYPE中文变量名称违约情况教育程度收入就业年数年龄不动产拥有情况所在地区评级常驻地址和工作地址匹配情况车辆情况家庭电话提供情况收入类型家庭状况所在城市的评级性别贷款金额住房情况违约60天的天数…违约30天的天数常驻地址和联系地址匹配情况房屋的面积大小公司的组织情况解释0:正常还款;1:违约客户受教育程度客户的年总收入申请人就业年数客户申请贷款时的年龄Y :有;N :没有1:最高;2:中等;3:较差1:相同;0:不相同(城市级别匹配)Y :有;N :没有1:有;0:没有客户的收入类型客户的家庭状况1:最高;2:中等;3:较差F :女;M :男客户的贷款金额客户的住房情况(租房or 与父母同住)客户违约30天的次数…客户违约60天的次数1:相同;0:不相同(城市级别匹配)客户居住房屋的面积大小客户工作的组织类型848第 6 期张利斌,等:基于XGBoost 机器学习模型的信用评分卡与基于逻辑回归模型的对比其中x i (i =1⋯11)为11个入模变量;f (x )为预测结果.2.1.5 信用评分卡的建立根据传统的信用评分机制,可以制作信用评分卡,标准的信用评分卡如表5所示.表中,A 、B 为假设的基础分值,本文设为500和50,θ0~θn 为x 1~x n 的估计参数,ω11~ωnk n为x 1~x n 各分量的WOE 值.根据评分转换原理,计算出11个入模变量的各分量得分值,具体结果如表6所示.利用表6的信用评分卡对5000个测试集样本进行评分转换,得测试集样本的最终得分情况见表7.从表7的得分情况可以看出,随着用户得分的上升,高分段的坏样本占比呈现出不断下降的趋势,这也说明了信用评分卡可以较好地识别信用风险.2.1.6 模型的效果评价对于分类模型而言,可以从分类能力和预测的准确程度来评价模型的效果.一般来说,使用AUC 和KS 来评估模型的分类能力以及F1和Accuracy 来评估模型的预测准确程度[13].通过对训练集和测试集的样本测试,得到相关的评价指标如表8所示.从表8可以看出该模型在测试集上拥有0.7294的AUC 和0.5378的KS ,这表示模型具有较好的分类能力.同时该模型在测试集上拥有0.8218的F1和0.8325的Accuracy ,这表示模型具有较高的预测准确程度.2.2 XGBoost 机器学习模型2.2.1 朴素的XGBoost 机器学习模型首先,用训练数据来建立默认参数下的XGBoost 机器学习模型;其次,对所构建的XGBoost 机器学习模型进行效果评价.具体结果如表9所示.由表9可知,在没有超参数约束的情况下,XGBoost 机器学习模型在训练集上完全拟合,而在测试集上的表现相对一般,这表明该模型的泛化能力较弱.造成这种现象的原因是XGBoost 机器学习模型是基于决策树的集成模型,如果不限制其增表3 缺失变量处理表Tab. 3 Missing variable processing table 变量名称COMMONAREA_AVGCOMMONAREA_MODE COMMONAREA_MEDINONLIVINGAPARTMENTS_AVGNONLIVINGAPARTMENTS_MODE …AMT_REQ_CREDIT_BUREAU_HOUR AMT_REQ_CREDIT_BUREAU_DAYAMT_REQ_CREDIT_BUREAU_WEEK NAME_TYPE_SUITEOBS_30_CNT_SOCIAL_CIRCLE DEF_30_CNT_SOCIAL_CIRCLE OBS_60_CNT_SOCIAL_CIRCLEDEF_60_CNT_SOCIAL_CIRCLEEXT_SOURCE_2AMT_GOODS_PRICEDAYS_LAST_PHONE_CHANGE缺失比例0.699250.699250.699250.693550.69355…0.134700.134700.134700.004150.003600.003600.003600.003600.002500.000750.00005处理方式删除变量删除变量删除变量删除变量删除变量…删除变量删除变量删除变量众数填充中位数填充中位数填充中位数填充中位数填充中位数填充中位数填充中位数填充表5 标准评分卡Table. 5 Standard score card变量基准点x 1x 2…x n WOE 分箱—12…k 112…k 2 (12)…k n分值(A -Bθ0)-(Bθ1ω11)-(Bθ1ω12)…-(Bθ1ω1k)-(Bθ2ω21)-(Bθ2ω22)-(Bθ2ω2k)…-(Bθn ωn 1)-(Bθnωn 2)…-(Bθn ωnk)表4 入模变量表Table. 4 Molding variables变量教育程度(x 1)收入(x 2)就业年数(x 3)年龄(x 4)不动产拥有情况(x 5)所在地区评级(x 6)常驻地址和工作地址匹配情况(x 7)车辆情况(x 8)家庭电话提供情况(x 9)收入类型(x 10)家庭状况(x 11)IV0.96300.92130.89760.84320.81340.75030.74180.72120.70190.68180.6745相关性检测全部变量均通过相关性检测849第 42 卷中南民族大学学报(自然科学版)长,它可以学习到适应所有训练样本的规则.但是如何提高该模型在测试集上的表现,才是我们真正所关心的,因此需要对模型进行调参优化.2.2.2 调优的XGBoost机器学习模型XGBoost的超参数可以归为三个核心部分:通用参数,Booster参数和任务参数[14].本文在通用参数、Booster参数以及学习目标参数这三类参数的具体选择如表10所示.本文使用网格搜索交叉验证得到的最优超参数为:eta为0.02,min_child_weight为2,gamma=0.2,max_depth为5,num_boost_round为110.使用该参数组合的XGBoost机器学习模型对训练数据和测试数据进行效果评价,具体结果如表11所示.从表11可以看出,该模型在测试集上拥有0.8746的AUC和0.6318的KS,这表示模型具有很好的分类能力.同时该模型在测试集上拥有0.9487的F1和0.9318的Accuracy,这表示模型具有很高的预测准确程度.将该模型与朴素的XGBoost机器学习模型在测试集上的表现进行对比,得到的结果如表12所示.从表12可知,调优的XGBoost机器学习模型相表8 模型结果评估Tab. 8 Evaluation of model results数据集训练集测试集分类能力评价AUC0.76820.7294KS0.55360.5378预测准确程度评价F10.83790.8218Accuracy0.84190.8325表9 朴素的XGBoost机器学习模型结果Tab. 9 Results of simple XGBoost machine learning model数据集训练集测试集分类能力评价AUC0.99620.8362KS0.99740.5546预测准确程度评价F10.99540.8871Accuracy0.99130.8916表6 基于逻辑回归模型的信用评分卡Tab. 6 Credit scoring card based on logistic regression model变量名称基础分值教育程度年龄常驻地址和工作地址收入类型WOE分箱—Lower secondarySecondary /secondary specialIncomplete higherHigher education20~4040~6060~80不相同相同WorkingCommercial associatePensionerState servantElse分值5576111419510133935321变量名称基础分值收入不动产拥有情况车辆情况家庭状况WOE分箱—<100000100000~200000200000~300000>300000有无无有MarriedSingle / not marriedCivil marriageSeparatedWidow分值55771013154112842431变量名称基础分值就业年数所在地区评级家庭电话提供情况WOE分箱—0~1010~2020~3030~50123否是分值5576101214491037表7 测试集样本得分情况统计Tab. 7 Statistics of sample scores of test set得分区间[599,609)[609,619)[619,629)[629,639)[639,649)[649,659)[659,669)[669,672]好样本132140645712865778712678坏样本3525535663473524总计167165698768928825747702好样本占比79%84.8%92.4%92.7%93.2%94.3%95.3%96.6%坏样本占比21%15.2%7.6%7.3%6.8%5.7%4.7%3.4%总体占比3.34%3.3%13.96%15.36%18.56%16.5%14.94%14.04%信用等级DCBA说明信用风险很高,不建议贷款有一定的信用风险,需要对资产和信誉做进一步评估后考虑是否贷款信用风险较低,需要对贷款的流向关注后考虑贷款信用风险极低,建议贷款850第 6 期张利斌,等:基于XGBoost 机器学习模型的信用评分卡与基于逻辑回归模型的对比比于朴素的XGBoost 机器学习模型,AUC 、KS 、F1和Accuracy 都有所提升,这说明调优后的XGBoost 机器学习模型更加优秀.2.2.3 信用评分卡的构建为了更加具体地观察调优的XGBoost 机器学习模型输出结果,本文考虑引入传统的信用评分机制,进而将机器学习模型输出的概率值转换为常见的信用评分值.通过对测试集样本的信用评分统计,具体的信用评分卡如表13所示.从表13可以看出,XGBoost 机器学习模型输出的概率值可以通过信用评分机制转换为信用评分值.随着得分的提高,好样本的占比逐渐提升,坏样本的占比逐渐降低,这说明所建立的信用评分卡能够较好地识别信用风险.2.3 模型对比分析根据上文的实验结果,将逻辑回归模型和调优的XGBoost 机器学习模型在测试集上的AUC 、KS 、F1和Accuracy 进行比较,如表14所示.从表14可以看出,XGBoost 机器学习模型在测试集上的AUC 、KS 、F1和Accuracy 均高于逻辑回归模型.通过对两种建模方式的比较,XGBoost 机器学习模型更加优秀的原因主要有以下三点:(1) 维度信息损失程度更低在建立逻辑回归模型,运用WOE 分箱、IV 值筛选法以及相关性检测相结合的方法从121个原始变量中挑选出11个变量来建立逻辑回归模型,该方法损失了较多的维度信息,仅列出Ⅳ最高的11个变量.然而,在建立XGBoost 机器学习模型时,将121个变量经过数据处理后全部输入到模型中,几乎没有原始数据的信息损失.单从数据维度来看,XGBoost 机器学习模型纳入更多的维度信息是机器学习模型相对于逻辑回归模型更加优秀的原因之一.(2) 缺失值的处理方式更加科学在建立逻辑回归模型时,一般删除缺失比例超表10 XGBoost 的调参参数Tab. 10 Adjusted parameters of XGBoost超参数通用参数Booster 参数学习目标参数参数标签booster=tree etamin_child_weight gamma max_depth num_boost_roundobject=binary :logisticeval_metric :auc ,ks ,f1,accuracy参数含义决策树学习率最小叶节点样本权值gamma 值基决策树最大深度迭代轮数逻辑回归算法误差评判标准参数作用使用决策树作为基学习器控制基学习器的特征权重更新大小控制基学习器的叶子节点分裂情况控制基学习器的叶子节点总数控制基学习器的最大深度控制算法的迭代次数控制每次迭代的目标损失函数评估模型的分类性能表12 朴素的XGBoost 与调优的XGBoost 机器学习模型对比结果Tab. 12 Comparison results of simple XGboost and optimizedXGboost machine learning models模型朴素的XGBoost 机器学习模型调优的XGBoost 机器学习模型AUC0.83620.8746KS0.55460.6318F10.88710.9487Accuracy 0.89160.9318表11 调优的XGBoost 机器学习模型结果Tab. 11 Results of optimized XGboost machine learning model 数据集训练集测试集分类能力评价AUC0.88690.8746KS0.65280.6318预测准确程度评价F10.95380.9487Accuracy 0.94190.9318表13 基于XGBoost 机器学习模型的信用评分卡Tab. 13 Credit scoring card based on XGBoost machine learning model输出概率(0.0,0.5](0.5,0.6](0.6,0.7](0.7,0.8](0.8,0.9](0.9,1.0]得分区间(-∞,500](500,509](509,528](528,558](558,606](606,+∞)好样本528755876985728660坏样本12510397814715总体6538589731066775675好样本占比/%80.8688.0090.0392.4093.9497.78坏样本占比/%19.1412.009.977.606.042.22总体占比/%13.0617.1619.4621.3215.5013.50信用等级D C B A说明信用风险很高,不建议贷款有一定的信用风险,需要对资产和信誉做进一步评估后考虑是否贷款信用风险较低,需要对贷款的流向关注后考虑贷款信用风险极低,建议贷款表14 逻辑回归模型与调优的XGBoost 机器学习模型对比结果Tab. 14 Comparison results between logistic regression model andoptimized XGboost machine learning model模型逻辑回归模型调优的XGBoost 机器学习模型AUC0.72940.8746KS0.53780.6318F10.82180.9487Accuracy 0.83250.9318851第 42 卷中南民族大学学报(自然科学版)过10%的缺失值,同时用众数填充类别型缺失变量和中位数填充连续型缺失变量,该方法有一定的人工干预,处理缺失值方式不够严谨.然而,XGBoost 机器学习模型采用内置算法处理数据的缺失值,该方法处理缺失值更加科学.单从缺失值的处理方式来看,XGBoost机器学习模型科学地处理缺失值是该模型相对于逻辑回归模型更加优秀的原因之一.(3) 模型的算法原理考虑了正则化项在建立逻辑回归模型时,没有考虑正则化项,导致该模型复杂度较高,有过拟合的风险,评估效果一般.然而,在建立XGBoost机器学习模型时,考虑了正则化项,降低了过拟合风险,评估效果得到了有效提升.单从模型的算法原理来看,XGBoost机器学习模型考虑了正则化项是该模型相对于逻辑回归模型更加优秀的原因之一.3 结论与思考本文比较了逻辑回归模型和XGBoost机器学习模型在信用评分卡构建中的具体表现,通过对比两个模型的AUC、KS、F1和Accuracy值,得出了以下结论:(1)逻辑回归模型在测试集上的分类效果以及预测准确程度不如XGBoost机器学习模型.逻辑回归模型的AUC、KS、F1和Accuracy均低于XGBoost 机器学习模型,这表明XGBoost机器学习模型在分类效果以及预测准确程度上均表现更优.(2)逻辑回归模型建模过程较XGBoost机器学习模型更易于理解.在建立逻辑回归模型时,通过特征筛选从121个变量中筛选出11个变量建立逻辑回归模型,该方法建模过程透明,易于理解.然而,XGBoost机器学习模型以编程和调整参数的形式来建立模型,具有一定的不透明性,不易于理解.(3)维度信息损失程度更低、缺失值的处理方式更加科学以及模型的算法原理更加科学(考虑了正则化项)是XGBoost机器学习模型相较于逻辑回归模型在分类效果以及预测准确程度上更加优秀的原因.如何融合逻辑回归模型和XGBoost机器学习模型,使其两者在风控领域可以优势互补,在提高模型效果的同时又增强解释能力?是值得我们下一步深入研究的问题.参考文献[1]WIGINTON,J C. A note on the comparison of logit and discriminant models of consumer credit behavior[J]. TheJournal of Financial and Quantitative Analysis, 1980, 15(3): 757-770.[2]涂艳,王翔宇. 基于机器学习的P2P网络借贷违约风险预警研究——来自“拍拍贷”的借贷交易证据[J]. 统计与信息论坛, 2018, 33(6): 69-76.[3]毛毅,陈稳霖,郭宝龙,等. 基于密度估计的逻辑回归模型[J]. 自动化学报, 2014, 40(1): 62-72.[4]COSTA S E, LOPES I C, CORREIA A, et al. A logistic regression model for consumer default risk[J]. Journal ofApplied Statistics, 2020, 47(13-15): 2879-2894.[5]周毓萍,陈官羽. 基于机器学习方法的个人信用评价研究[J]. 金融理论与实践, 2019(12): 1-8.[6]CHEN T,GUESTRIN C. XGBoost:A scalable tree boosting system[J]. IEICE Transactions on Fundamentalsof Electronics, Communications and Computer Sciences,2016:785-794.[7]严武,冯凌秉,蒋志慧,等. 基于机器学习模型的P2P 网贷平台风险预警研究[J]. 金融与经济, 2019 (9):18-25.[8]黄卿,谢合亮. 机器学习方法在股指期货预测中的应用研究——基于BP神经网络、SVM和XGBoost的比较分析[J]. 数学的实践与认识, 2018, 48(8): 297-307.[9]WANG Kui,LI Meixuan,CHENG Jingyi;et al.Research on personal credit risk evaluation based onXGBoost[J]. Procedia Computer Science Volume, 2022,199: 1128-1135.[10]洪文洲,王旭霞,冯海旗. 基于Logistic回归模型的上市公司财务报告舞弊识别研究[J]. 中国管理科学,2014,22(S1):351-356.[11]王重仁,韩冬梅. 基于超参数优化和集成学习的互联网信贷个人信用评估[J]. 统计与决策, 2019,35(1):87-91.[12]刘志惠,黄志刚,谢合亮. 大数据风控有效吗——基于统计评分卡与机器学习模型的对比分析[J]. 统计与信息论坛, 2019, 34(9): 18-26.[13]张佳倩,李伟阮,素梅. 基于机器学习的贷款违约风险预测[J]. 长春理工大学学报(社会科学版). 2021,34(4):105-111.[14]周庆岸. 基于遗传XGBoost模型的个人网贷信用评估研究[D]. 南昌:江西财经大学,2019.(责编&校对雷建云)852。
xgboost模型原理
xgboost模型原理
Xgboost模型是一种分类和回归的机器学习算法,它是著名的一个梯度boosting框架,能够准确的进行数据预测和分类。
Xgboost
模型是一种快速、准确、可扩展的机器学习算法,被广泛用于数据分析和金融领域,其原理和优点已经在多种场景中得到了验证。
本文将介绍Xgboost模型的基本原理,以及它的主要优点。
首先,我们来看Xgboost模型的基本原理。
Xgboost模型基于统计学习理论,使用基本的决策树作为弱学习器,并进行多次迭代,来学习和构建出更复杂的决策树模型。
由于使用了统计学习理论来构建模型,Xgboost模型能够自动避免过拟合,有效抑制噪声,提高模型准确率。
其次,我们来看一下Xgboost模型的主要优点。
首先,Xgboost 模型具有非常高的准确性,能够实现高精度的分类预测。
此外,Xgboost模型的计算速度非常快,有助于解决一些复杂的问题,比如大规模数据分析和金融分析。
同时,Xgboost模型所使用的算法本身也能够自动避免过拟合,使模型更加稳健。
此外,Xgboost模型也具有优越的可扩展性,能够在较低的硬件资源上实现较高的处理效率。
总而言之,Xgboost模型是一种非常有效的机器学习算法,具有高度准确、快速、可扩展的特性,因此能够有效抑制各种影响模型性能的因素,提供高精度的分类和回归预测。
今天,Xgboost模型已经得到了越来越多应用,特别是在数据挖掘、金融分析等领域,它能够非常有效地完成分类和预测,对于数据分析和金融领域来说,Xgboost
模型无疑是一个强大的武器。
xgboost原理
xgboost原理
XGBoost是一种梯度提升决策树(Gradient Boosting Decision Tree)算法,是由天池大赛的比赛创始人陈天奇所提出的一种
基于GBDT的机器学习算法。
XGBoost的核心思想是通过对弱分类器(决策树)进行加权组合,不断迭代提升模型的预测性能。
在每一轮迭代中,XGBoost会根据上一轮的预测结果计算残差,然后针对残差训练一个新的决策树模型。
新训练的决策树会尽量拟合之前模型预测错误的样本,从而减少残差。
为了避免过拟合,XGBoost在树的构建过程中引入了正则化项。
它通过控制树的最大深度、叶子节点的权重和节点的最小样本数等方式,限制树的复杂度。
同时,还采用了Shrinkage和列
抽样(Column Subsampling)等方法来降低过拟合风险,提高
模型的泛化能力。
为了加速训练过程,XGBoost实现了一系列优化技术。
其中包括近似算法,将每个特征的取值按照分位数进行离散化,减少了计算的复杂度。
另外,XGBoost还支持并行计算,在多个处理器上同时训练多个树模型,提高了训练速度。
XGBoost在许多数据竞赛和实际应用中都取得了显著的成绩。
它在预测准确性、处理大规模数据和稀疏数据、特征选择和模型解释等方面具有优势。
因此,XGBoost成为了许多数据科学家和机器学习从业者喜爱和应用广泛的算法之一。
改进的XGBoost模型在股票预测中的应用
改进的XGBoost模型在股票预测中的应用改进的XGBoost模型在股票预测中的应用摘要:随着金融市场的飞速发展和信息技术的进步,股票市场分析和预测越来越重要。
传统的预测方法并不能准确地预测股票市场的走势,因此需要寻找更加准确有效的预测模型。
本文介绍了一种改进的XGBoost模型,并应用于股票预测中。
通过对比实验和结果分析,我们发现改进的XGBoost模型在股票预测中取得了较好的预测效果,能够提高预测精度和稳定性,对于投资者和分析师具有重要的参考价值。
一、引言股票市场的波动性较大,投资者和分析师需要准确地预测股票的走势,以制定投资策略。
传统的预测方法如线性回归、时间序列模型等存在一定的局限性和不足,不能很好地适应股票市场的变化。
随着机器学习和大数据技术的迅猛发展,预测模型的准确性得到了极大的提高。
XGBoost作为一种强大的机器学习算法,已经在多个领域得到了广泛的应用。
本文将介绍一种改进的XGBoost模型,并将其应用于股票预测中,以提高预测精度和稳定性。
二、XGBoost模型简介XGBoost是一种梯度提升树算法,结合了梯度提升算法和决策树算法的优点。
它通过迭代地训练多个决策树模型,并将它们组合起来进行预测。
XGBoost具有较高的准确性和稳定性,对于大规模数据的处理也很高效。
三、改进的XGBoost模型为了进一步提高XGBoost模型的预测精度和稳定性,本文提出了三个改进措施。
1. 特征工程特征工程是指通过选择合适的特征并对其进行处理和转换,以提高模型的预测效果。
在股票预测中,我们可以根据市场情况和相关因素,选取适当的特征并进行处理。
例如,可以选择股票的历史价格、成交量、市场指数等作为特征,计算它们的均值、方差等统计量,以及它们的滞后值等等。
通过合理的特征工程,可以提取出更加有效的特征,提高XGBoost模型的预测效果。
2. 参数调优XGBoost模型有多个参数需要调优,包括树的深度、学习率、正则化参数等。
基于xgboost的特征筛选
基于xgboost的特征筛选基于XGBoost的特征选择是一种利用集成学习方法来选择最重要特征的技术。
XGBoost是一种基于梯度增强决策树的机器学习算法,它通过迭代地训练多个弱学习器来提高整体预测性能。
特征选择是机器学习中非常重要的一个环节,它可以帮助我们减少模型复杂度、提高模型泛化能力,并且能够提供更好的解释性。
在大数据时代,我们经常会面对成千上万个特征的问题,但其中很多特征并不一定对模型的预测结果有任何帮助,甚至可能会引入噪声和过拟合的风险。
因此,选择最重要的特征对于提升模型性能是非常关键的。
XGBoost通过自带的特征重要性评估方法来进行特征选择。
在XGBoost中,特征重要性是通过计算每个特征在决策树中分裂节点时,对模型目标函数的贡献来衡量的。
贡献越大,说明该特征对目标函数的预测有更强的能力。
具体而言,XGBoost的特征选择过程可以分为以下几个步骤:1. 训练初始模型:首先,我们需要使用所有特征训练初始的XGBoost模型。
这个模型可能并不是最优的,但它可以提供一个基准性能。
2. 评估特征重要性:使用训练好的模型,我们可以通过XGBoost自带的特征重要性方法评估每个特征的重要性。
这个重要性指标可以衡量每个特征对目标函数的贡献。
3.移除重要性低的特征:根据特征重要性得分,我们可以按照一定的阈值筛选掉重要性较低的特征。
通常情况下,我们会选择一个合理的阈值来保留重要性较高的特征,而移除重要性较低的特征。
4. 重新训练模型:在移除低重要性特征后,我们需要使用保留下来的特征重新训练XGBoost模型。
这个新模型会考虑到特征选择的结果,从而提供更好的性能。
5.重复上述步骤:我们可以多次重复上述步骤,直到达到我们的要求。
每次迭代时,特征重要性的评估和特征筛选都会发生改变,从而可能得到更好的特征选择结果。
需要注意的是,特征重要性的评估结果可能受到许多因素的影响,比如输入数据、参数设置等。
因此,在进行特征选择时,我们需要进行交叉验证或者使用其他稳定性评估方法来确保结果的可靠性。
基于XGBoost算法的多因子量化选股方案策划
基于XGBoost算法的多因子量化选股方案策划基于XGBoost算法的多因子量化选股方案策划一、引言量化投资是通过建立各种数学模型和算法来分析投资对象,选取有效的因子,从而实现投资组合的优化和收益最大化。
而多因子量化选股作为量化投资研究的重要方向之一,旨在通过结合多个因子指标,筛选出具备较高潜力和回报的股票,以实现持续稳定的投资收益。
本文将基于XGBoost算法,设计一套多因子量化选股方案,以提高投资决策的科学性和准确性。
二、多因子选股的理论基础1.1 CAPM模型资本资产定价模型(Capital Asset Pricing Model,CAPM)是描述资本市场上风险与收益之间关系的经济模型。
通过构建市场组合和无风险资产组合之间的投资组合,可以得到股票的期望收益率。
1.2 Fama-French三因子模型Fama-French三因子模型基于CAPM模型,加入市值因子和账面市值比因子,进一步解释了股票投资收益的来源。
该模型认为,股票的超额收益与市场因子、市值因子和账面市值比因子相关。
1.3 市场效率与反转效应有效市场假说认为,市场上信息是公开和充分的,股票的价格已经反映了全部可获得信息。
然而,反转效应表明在一定时间周期内,过去表现差的股票未来表现往往比表现好的股票更具有回报。
三、多因子选股方案的设计3.1 因子选择挑选适用的因子是多因子选股方案设计的关键环节。
在设计本方案中,我们选择以下因子:(1)市场因子:以市场指数收益率作为参考标准,衡量股票相对于整个市场平均收益的波动性。
(2)价值因子:通过衡量股票的账面市值比或市盈率等指标,选取具备较低估值或较高盈利能力的股票。
(3)成长因子:通过衡量股票的盈利增长率或销售增长率等指标,选取具备较高成长潜力的股票。
(4)动量因子:通过衡量股票的价格走势或短期收益率,选取具备较高涨幅或较强势的股票。
3.2 数据获取与预处理为了构建模型,首先需要获取相关的因子数据和股票数据。
改进的NSGA-III-XGBoost算法在股票预测中的应用
改进的NSGA-III-XGBoost算法在股票预测中的应用改进的NSGA-III-XGBoost算法在股票预测中的应用随着信息技术的快速发展,股票市场成为了投资者关注的热点之一。
对于投资者而言,准确地预测股票市场的变化越来越重要,以便能够做出明智的投资决策。
然而,股票市场的变动受到许多因素的影响,包括经济状况、行业趋势、政府政策等等,因此,预测股票市场的准确性一直是一个挑战。
近年来,机器学习方法在股票市场预测中得到了广泛应用。
其中,XGBoost(eXtreme Gradient Boosting)算法以其强大的性能和高效的计算速度而受到了广泛的关注和应用。
XGBoost是一种梯度提升树算法,通过迭代地训练多个弱分类器,并通过自适应的学习策略将它们组合成一个强分类器。
它在特征选择、分类和回归等任务中表现出色。
然而,在股票市场的预测中,传统的XGBoost算法也存在一些问题。
首先,股票市场的数据特点较为复杂,包含大量的噪声和非线性关系。
传统的XGBoost算法可能无法很好地捕捉这些特征。
其次,传统的XGBoost算法缺乏对多目标优化问题的处理能力,而在股票市场预测中,我们往往需要考虑多个目标指标,如收益率、波动率等。
因此,结合改进的优化算法来提高XGBoost算法的预测性能是非常有必要的。
为了解决上述问题,本文引入了改进后的NSGA-III(Non-dominated Sorting Genetic Algorithm III)算法,并将其与XGBoost算法相结合,构建了改进的NSGA-III-XGBoost算法。
NSGA-III算法是一种多目标优化算法,通过将目标函数的优化转化为多个子问题的优化,并通过种群的不断进化来获得一组非劣解集合。
改进后的NSGA-III算法在原有的NSGA-III算法基础上进行了一些改进,包括引入新的拥挤度距离计算方法、修正快速非支配排序等等,以提高算法的收敛性和解集的多样性。
xgboost算法原理
xgboost算法原理XGBoost(ExtremeGradientBoosting)是近几年比较流行的机器学习算法,可以用于分类和回归预测。
XGBoost是基于梯度提升决策树(Gradient Boosting Decision Tree)的可扩展的、高效的、开源的实现,它具有快速的训练时间,自动处理数据不平衡,自动选择合适的特征等优点。
本文将介绍XGBoost算法的原理,分析它的优势,以及它在实际应用中的经验。
第二部分:基本概念XGBoost是一种基于梯度提升决策树(GBDT)的机器学习算法,它以树模型为基础,使用不同的正则化技术来处理过拟合和建立初步结构。
XGBoost算法通过在弱学习器(weak learners)之间构建一个有序而又复杂的集成模型,从而实现得到较强的预测精度。
XGBoost 算法使用了目标函数(objective function)、正则化项(regularization term)和损失函数(loss function)来训练模型,能够自动学习各个特征的权重,并且具有很高的准确率。
第三部分:算法原理XGBoost算法是一种基于梯度提升的机器学习算法,它的基本原理如下:(1)目标函数(Objective Function):XGBoost算法的目标函数是为了提升模型的性能而定义的。
它包含三项:损失函数(Loss Function)、正则化(Regularization)和其他项(Other Items)。
(2)损失函数(Loss Function):XGBoost算法使用常见的损失函数,如二分类损失函数、多分类损失函数以及回归损失函数。
(3)正则化(Regularization):XGBoost算法使用L1和L2正则化,以及自动学习率(auto-learn rate)来防止过拟合。
(4)其他项(Other Items):XGBoost算法还有一些其他参数,例如行深度(row depth)、叶子数量(leaf number)、最小叶子样本数量(minimum leaf sample number)等,这些参数可以在算法训练过程中通过超参数调优来提高性能。
基于S-XGBoost_融合模型的中国进境快件风险水平评价研究
51
3 Smote 算法
在进境快件实际监管中, 无风险包裹是占据绝大多数的, 相对来说异常包裹数量是微乎其
微的, 反映在获取到的进境 B 类快件多维度特征数据集中, 则体现为类别不平衡, 这就会对学
习过程造成困扰。 为此, 本文提出了构建 S - XGBoost 风险评估融合模型, 即为使用 smote 算法
代快件业务开始在中国生根发芽。 改革开放后, 进出口外贸业务的蓬勃发展, 进出境快件业务
随之应运而生。 自 1985 年海关总署发布 《 海关对进出口快递物品监管办法》 , 明确进出境快件
业务的监管方式后, 随着互联网经济的飞速发展, 快件凭借网络优势和技术优势不断冲击和改
变着传统产业的发展形态, 海关业务将应纳税货物从进出境快件渠道移除, 使得进出境快件业
管与违法企业为切入点, 构建形成博弈模型, 重点围绕税率、 货值、 处罚损失、 商誉损失、 海
关奖励和查验成本等模型变量开展讨论, 观察对海关查验概率和电商企业违法概率造成的影
响, 最终提出应整合、 再造海关监管流程等对策建议。[3] Xu ( 2022) 为了加快快件通关效率,
使用 ZBAR 算法和 Tesseract -OCR 技术建立了一种快速识别方法, 帮助物流中心从数据库中准
最邻近生成异常包裹数据进而增大异常数据的比重, 从而提升 XGBoost 模型对于风险数据的敏
感度, 以期对进境快件的风险评估提供技术支持。
基于 S -XGBoost 融合模型的
中国进境快件风险水平评价研究
刘昌伟 谢 晶 邹廉青 梅云鹏 Kashif Abbass ∗
摘 要: 党的二十大报告指出要增强维护国家安全能力, 推进国家安全体系和
大数据挖掘的分类算法应用——以XGBoost为例
大数据挖掘的分类算法应用——以XGBoost为例近年来,随着大数据技术的快速发展,大数据挖掘在各行各业中扮演着越来越重要的角色。
而分类算法作为其中一种核心技术,被广泛应用于数据挖掘和机器学习任务中。
本文将以XGBoost为例,探讨大数据挖掘中分类算法的应用。
一、XGBoost简介XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升树(Gradient Boosting Decision Tree)的机器学习算法。
它通过集成多个弱分类器来构建一个强分类器。
XGBoost作为一种高效优化的算法,不仅在学术界得到广泛关注,也在工业界得到了实际应用。
二、大数据挖掘中的分类问题在大数据挖掘中,分类问题是最常见的任务之一。
分类算法通过对数据进行学习和训练,将其划分到不同的类别中。
这些类别可以是离散的,也可以是连续的。
分类问题的应用场景非常广泛,例如垃圾邮件过滤、股票市场预测、医学诊断等。
三、XGBoost在大数据挖掘中的应用1. 数据预处理:在使用XGBoost之前,我们需要对数据进行预处理,包括数据清洗、特征选择和特征转换等。
数据预处理对于算法的性能和效果至关重要。
2. 模型训练:XGBoost通过不断迭代的方式,逐步构建一个强分类器。
在训练过程中,XGBoost采用了一种特殊的梯度提升树算法,使得模型的准确率和泛化能力得到了有效提升。
3. 参数调优:XGBoost中有许多参数需要调整,例如学习率、树的个数和深度等。
通过合理调整参数,可以提高模型的性能和稳定性。
参数调优是使用XGBoost的重要步骤之一。
4. 特征重要性评估:XGBoost提供了可靠的特征重要性评估方法,可以帮助我们确定哪些特征对于分类结果具有更大的影响力。
这有助于我们选择最相关的特征,提高模型的预测能力。
四、XGBoost算法的优势相比于其他分类算法,XGBoost具有以下几个明显的优势:1. 高效性:XGBoost在处理大规模数据时表现出色,其采用了并行计算和快速分布式训练的方式,大大提升了算法的效率。
xgboost原理
xgboost原理XGBoost原理。
XGBoost是一种高效的、可扩展的机器学习算法,它在各种数据科学竞赛和实际应用中都取得了很好的效果。
XGBoost的全称是eXtreme Gradient Boosting,它是一种基于决策树的集成学习算法。
在本文中,我们将深入探讨XGBoost的原理,帮助读者更好地理解这一强大的机器学习工具。
首先,让我们来了解一下XGBoost的基本原理。
XGBoost通过集成多个决策树来进行预测,每棵树都是基于前一棵树的残差进行训练。
这种残差的训练方式使得XGBoost能够不断优化模型的预测效果,从而得到更准确的结果。
在每一轮训练中,XGBoost都会计算出当前模型的梯度和Hessian矩阵,然后利用这些信息来构建新的决策树,最终得到一个强大的集成模型。
XGBoost的另一个重要特点是它的正则化策略。
通过对目标函数添加正则化项,XGBoost能够有效地控制模型的复杂度,避免过拟合的问题。
此外,XGBoost还引入了Shrinkage和列抽样等技术,进一步提高了模型的泛化能力。
除了基本原理和正则化策略,XGBoost还有一些其他的重要特性。
例如,XGBoost支持自定义损失函数,这使得它可以灵活地应用于各种不同类型的问题。
此外,XGBoost还能够处理稀疏数据,并且对缺失值有很好的容忍度。
这些特性使得XGBoost成为了一个非常通用的机器学习工具,能够适用于各种不同的应用场景。
在实际应用中,XGBoost通常会通过交叉验证来进行参数调优,以得到最佳的模型效果。
在训练过程中,XGBoost还会输出每一轮迭代的训练误差和验证误差,帮助用户监控模型的训练情况。
此外,XGBoost还支持并行计算,能够充分利用多核处理器和分布式计算框架,加速模型训练的过程。
总的来说,XGBoost作为一种集成学习算法,具有很强的预测能力和鲁棒性。
它通过多棵决策树的集成来进行预测,利用正则化策略和其他技术来提高模型的泛化能力,适用于各种不同类型的问题。
基于SARIMAX-XGBoost模型的区域能耗预测
基于SARIMAX-XGBoost模型的区域能耗预测基于 SARIMAX-XGBoost 模型的区域能耗预测随着社会经济的快速发展和人民生活水平的提高,城市化进程也日益加快。
城市的能耗问题成为一个日益突出的挑战,正对环境和资源产生巨大压力。
因此,精确预测城市区域的能源消耗是实现可持续发展的关键因素之一。
在此背景下,基于SARIMAX-XGBoost模型的区域能耗预测应运而生并得到广泛关注。
SARIMAX-XGBoost模型是使用统计学时间序列分析和机器学习方法相结合的一种能耗预测模型。
其主要由 SARIMAX (Seasonal Autoregressive Integrated Moving Averagewith exogenous variables) 模型和 XGBoost (Extreme Gradient Boosting) 模型组成。
SARIMAX模型是一种经典的时间序列分析方法,可以建模和预测具有时序特征的数据。
而XGBoost模型则是一种基于决策树的机器学习算法,能够有效处理非线性关系和高维数据。
两者相结合,形成了一个强大的能耗预测模型。
首先,SARIMAX模型从历史能耗数据中学习和捕捉时间序列的趋势、季节性和周期性特征。
它考虑了自身滞后项,移动平均项和外生变量,构建了一个适应于能耗预测的时间序列模型。
SARIMAX模型可以对长期趋势进行建模,并通过引入季节项来捕获季节性特征,提高了预测的准确性。
其次,XGBoost模型利用决策树的优势来处理非线性关系,并能够处理高维数据。
它通过不断迭代,逐步生成一系列的决策树模型,并通过集体决策的方式提高预测的准确性。
XGBoost模型具有很好的泛化能力和鲁棒性,在数据量较大、特征维度较高的情况下表现出色。
将SARIMAX模型和XGBoost模型结合起来,可以充分发挥两者的优势。
SARIMAX模型可以作为XGBoost模型的外生变量,为XGBoost模型提供更多的相关信息,增强模型的解释能力和预测能力。
基于Xgboost量化选股的指数增强策略设计
基于Xgboost量化选股的指数增强策略设计基于Xgboost量化选股的指数增强策略设计随着金融市场的快速发展和信息技术的不断成熟,越来越多的投资者开始关注量化投资策略。
量化投资以数据分析和数学模型为基础,通过高效的算法选股和交易来实现超越市场表现的目标。
在这篇文章中,我们将探讨一种基于Xgboost的指数增强策略设计。
指数增强是一种旨在超越市场指数表现的投资策略。
它通过精心挑选的股票组合来获取超额收益,并保持与市场指数相对稳定的波动性。
Xgboost是一种基于梯度提升树的机器学习算法,具有优秀的性能和灵活的应用场景,特别适用于处理结构化数据和预测问题。
因此,我们选择Xgboost作为量化选股的核心算法。
首先,我们需要确定选股的因子。
因子是量化投资中衡量股票投资价值和风险的指标,可以是基本面因子、技术指标、市场情绪因子等。
在指数增强策略中,我们可以选择一些具有稳定预测能力的因子,如市盈率、市净率、股息率等。
这些因子可以通过对历史数据的统计分析得出,也可以利用机器学习算法训练得到。
接下来,我们利用Xgboost算法对选定的因子进行训练和预测。
Xgboost通过在每一轮迭代中不断增加树的数量,从而逐步拟合和优化模型。
在训练过程中,我们需要将历史数据分为训练集和验证集,用于模型训练和验证。
训练集用于学习因子与股票收益之间的关系,验证集则用于评估模型的泛化能力。
通过交叉验证等方法,我们可以选择最优的模型参数,以使模型达到最佳的预测效果。
在模型训练完成后,我们可以利用训练好的模型对未来的股票收益进行预测。
根据预测结果,我们可以构建一个股票组合,选择预测获得较高收益的股票进行投资。
在构建股票组合时,我们可以考虑一些约束条件,如股票权重、行业分布等,以控制投资组合的风险和波动性。
最后,我们需要考虑交易成本和流动性风险。
在实际操作中,我们需要根据交易成本和流动性风险的考量,确定具体的买入和卖出时机。
同时,我们还需要制定有效的调仓策略,根据市场情况和模型预测结果,及时调整投资组合。
XGBOOST回归用法和官方参数解释
XGBOOST回归用法和官方参数解释XGBoost是一种常用的机器学习算法,被广泛应用于回归问题。
它是一种基于梯度提升决策树(Gradient Boosting Decision Trees,GBDT)的集成学习算法,通过多个弱学习器的累积来预测目标变量的值。
XGBoost回归算法的基本原理是利用多个决策树去逐步逼近目标变量的真实值。
每个决策树都是在前一棵树的残差基础上建立的,以最小化残差和目标变量之间的差异。
该算法使用梯度增强技术来最小化误差函数,并通过添加正则化项来控制模型的复杂度。
XGBoost回归的官方参数有很多,下面分别进行解释:1. booster(booster="gbtree"):指定使用的基础学习器的类型,可以是决策树("gbtree")或线性模型("gblinear")。
2. objective(objective="reg:linear"):指定回归问题的损失函数类型,常用的有线性回归("reg:linear")、逻辑回归("binary:logistic")和多类别分类("multi:softmax")。
3. learning_rate(learning_rate=0.1):决定每个弱学习器权重的收缩速度,以避免模型过拟合。
较小的学习率需要更多的弱学习器来建立一个强大的模型。
4. n_estimators(n_estimators=100):决定要构建的弱学习器的数量。
较大的值可以增加模型的复杂性,但也可能导致过拟合。
5. max_depth(max_depth=3):每个决策树的最大深度。
较大的值可以增加模型的复杂性,但也容易导致过拟合。
6. min_child_weight(min_child_weight=1):每个叶子节点上样本权重的最小和。
XGBOOST回归用法和官方参数解释
XGBOOST回归用法和官方参数解释XGBoost是一种梯度提升树算法,用于解决回归问题。
它的创新之处在于在训练过程中引入了正则化项,使得模型更加准确和稳定。
本文将介绍XGBoost回归的使用方法和官方参数解释。
一、XGBoost回归的使用方法:1. 数据准备:首先,需要准备回归问题的训练数据集和测试数据集。
通常,可以使用Pandas库来加载和处理数据。
2. 参数设置:在使用XGBoost进行回归时,需要设置一些参数。
这些参数包括学习率(learning rate)、树的数量(n_estimators)、树的最大深度(max_depth)等。
在官方文档中,有详细的参数说明和默认值,可以根据实际情况进行调整。
3. 模型训练:使用XGBoost的XGBRegressor类来创建回归模型,并通过fit方法对模型进行训练。
在训练过程中,XGBoost会逐步构建多个回归树,并优化模型的损失函数。
4. 模型预测:训练完成后,可以使用训练得到的模型进行预测。
通过predict方法传入测试集数据,即可得到回归结果。
5. 模型评估:最后,可以使用均方误差(Mean Squared Error,MSE)等指标对模型进行评估。
较小的MSE值表示模型预测效果较好。
二、XGBoost官方参数解释:1. learning_rate(学习率):控制每棵树权重的缩减,用于减小每棵树对于最终结果的影响。
较小的学习率可以使模型更加稳定,但需要增加树的数量来保持模型的表达能力。
2. n_estimators(树的数量):指定训练期间要构建的树的数量。
较大的数值可以提高模型的表达能力,但也会增加训练时间。
3. max_depth(树的最大深度):指定每棵树的最大深度。
较深的树可以学习更复杂的特征,但也容易过拟合。
通常,可以通过交叉验证来选择最优的最大深度。
4. subsample(子样本比例):指定用于训练每棵树的样本比例。
较小的比例可以减少过拟合的风险,但也可能降低模型的准确度。
xgboost模型原理
xgboost模型原理Xgboost(即eXtremeGradientBoosting)是一个分布式的,基于决策树的机器学习算法,是一种受欢迎的梯度提升算法,在数据科学竞赛和Kaggle中已被广泛使用。
Xgboost的优化使得它在精确性和运行时间上表现优异,并且可以使用任何数据类型,如稀疏矩阵,可以有效地处理大规模或高维度数据集。
Xgboost通过新的决策树算法和新的树结构构建器来调整建模流水线,以提供更准确的结果,减少调参时间。
它通过增强基模型使其更准确,并且可以满足不同类型的学习任务,包括回归和分类。
Xgboost的主要算法原理包括树模型的体系结构、损失函数优化、调参技巧、基于梯度的提升、终端节点分裂技术、特征重要性评估等方面,借助这些算法原理,Xgboost可以实现准确的模型预测。
首先,Xgboost的框架是基于决策树的,即迭代多棵树,通过添加新的树到采用者来提高模型表现,这是一种强大的算法,可以实现准确的预测及精确的特征工程。
此外,Xgboost还使用损失函数来优化模型,以减少误差,提高性能。
它还使用了调参技术,即将模型参数调整到最佳性能,这可以有效地避免模型拟合问题,从而提高模型准确性。
此外,Xgboost还引入了基于梯度的提升算法。
这是一种加速模型调整和精度提升的有效方法,它可以迅速地找到更好的模型,更快地收敛到最佳解决方案。
Xgboost还支持终端节点分裂技术,可以在建立模型时,将当前节点进行分裂,从而获得更多的准确性。
最后,xgboost也支持特征重要性评估,可以评估特征的贡献度,同时也可以指定重要的特征在模型中的权重,从而更好地理解数据的结构。
综上所述,Xgboost拥有众多强大的算法原理,如树结构构建器、损失函数优化、基于梯度的提升、终端节点分裂技术、特征重要性评估等,可以有效地处理大规模或高维度数据集。
Xgboost的优化使得它在精确性和运行时间上表现优异,并且可以满足不同类型的学习任务,包括回归和分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Finance 金融, 2018, 8(5), 211-220Published Online September 2018 in Hans. /journal/finhttps:///10.12677/fin.2018.85025Analysis of the Rise and Fall of International Futures Based on Xgboost AlgorithmJinqiang Li, Lei LaCollege of Information, University of International Business and Economics, BeijingReceived: Aug. 22nd, 2018; accepted: Sep. 7th, 2018; published: Sep. 14th, 2018AbstractBased on an efficient and complex xgboost algorithm, a classification prediction model was con-structed to train and test the daily transaction data of international futures in the past three years.The model traverses all parameter combinations through the reference tool to obtain the optimal parameters. Then, it is compared with decision tree, random forest, support vector machine algo-rithm, and combined with multiple evaluation indicators for comprehensive evaluation. Experi-ments show that the indicators of the model constructed by the xgboost algorithm are higher than other algorithms, and the overall prediction ability is better. At the same time, it also provides an effective new method for forecasting futures prices.KeywordsFutures, Xgboost, Change Forecast基于Xgboost算法的国际期货涨跌预测分析李进强,喇磊对外经济贸易大学信息学院,北京收稿日期:2018年8月22日;录用日期:2018年9月7日;发布日期:2018年9月14日摘要基于高效复杂的xgboost算法构建了分类预测模型,对最近三年国际期货的日交易数据进行了训练测试。
该模型通过调参工具遍历所有参数组合,得出最优参数。
然后,对比于决策树、随机森林、支持向量机算法,结合多个评价指标进行综合评价。
实验表明,xgboost算法构建的模型各项指标均高于其他算法,李进强,喇磊综合预测能力更好。
同时,也为期货价格预测提供了一种有效的新方法。
关键词期货,Xgboost,涨跌预测Copyright © 2018 by authors and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY)./licenses/by/4.0/1. 引言期货作为基础金融产品的重要衍生品,在经济活动中具有转移风险和价格发现的功能,因此,期货市场是市场经济的重要组成部分,对于促进社会资源的有效配置具有重要作用。
期货市场又分为国际期货市场和国内期货市场,国际期货市场相比国内期货市场品种更为齐全,覆盖面更广。
期货价格的涨跌反映了期货市场的运行状况,在一定程度上也体现出当前经济状况,所以对期货价格变化的准确预测,对国家经济发展研究具有重要作用。
同时,期货交易者能否取得较高收益,关键也在于对期货涨跌趋势的预判是否准确。
相对于国内期货,国际期货涨跌走势的预测更为复杂,也更为重要。
传统的预测期货价格的方法主要有基本分析法、技术分析法和组合分析法。
但是,随着科技金融化的到来,以及投资者对量化投资策略的青睐,传统的期货预测方法已无法满足海量数据及数据多样化,而机器学习在金融经济领域的应用正好解决了这一问题。
2. 相关研究文献评述金融市场的一切数据都具有随机性,概率论与数理统计可以从数学角度来处理随机数据,而精通金融理论的人进行技术分析时又往往会陷入习惯思维,所以数理统计和金融理论的结合建模可以挖掘到更深层次的信息[1]。
魏宇[2]以沪深300股指期货仿真交易的5分钟高频数据为例,证明了已实现波动率模型以及加入附加解释变量的扩展随机波动模型预测精度高于基于日收益数据的历史波动率模型。
Chunyang Wang [3]以大豆期货为例,基于自回归相关系数、差分时间、及移动平均数构建ARIMA预测模型,实验表明,该模型对大豆期货收盘价的趋势预测较为准确,并将其运用于其他农产品预测,取得了不错的效果。
董贺[4]制定了一套具有理论支撑的量化投资策略,设定合理的开仓规则以及警戒点,筛选出了国内期货市场农产品和金属大类的协整关系,为期货价格预测提供了有价值的参考。
刘海玥和白艳萍[5]构建AR模型、RBF模型和GRNN模型滚动预测了上证指数开盘价、最高价、最低价和收盘价,并与实际价格做对比,发现三种模型预测误差均很小。
Weina Wang [6]结合了模糊集合论和经典时间序列方法来预测股票价格,在股票价格预测理论上做出了贡献。
但是,大数据时代的到来,期货市场积累了大量的数据,依靠数学及金融理论构建的预测模型的效率已经无法满足需求。
随着人工智能理论的发展成熟,以机器学习算法构建量化投资预测模型的方法备受关注。
人工智能以其强大的数据抓取能力和惊人的计算速度,将进军证券投资领域,促进金融市场资源配置的效率[7]。
Sheng-Hsun Hsu [8]结合自组织映射(SOM)算法和支持向量机(SVM)算法构建两阶段架构模型来预测股票价格,显著的提高了股票预测的性能。
赵永进[9]运用决策树ID3算法选取具有代表性的股票相关财务指标,并把关联规则应用到股票时间序列的发现上。
结果表明,比传统分析方法具有更李进强,喇磊高的准确率。
B Qian和K Rasheed [10]使用自动互信息和假近邻法生成训练模型所需的参数,并通过神经网络、决策树和K近邻算法构建模型的相互集成,实现了较高的股票价格预测精度。
王刚和许晓兵[11]基于小波分析方法对股票每日最高价、最低价以及开盘价进行小波去燥处理,然后再使用神经网络进行预测分析,发现精度获得了大幅度提高。
Karathanasopoulos A [12]等基于支持向量机算法进行了算法优化,引入了一种股票预测的混合方法,并与四个传统的投资策略进行了对比,结果表明,提出的方法具有更好的表现。
可以看出,近年来,国内外学者将机器学习应用于量化投资领域更多的是预测股票走势及选出较好的量化选股方案等,将其应用于期货领域的较少,国际期货的预测研究更是缺乏,期货市场对经济发展也起着重要作用,所以对于国际期货的预测研究是很必要的。
Xgboost算法是2016年由陈天奇[13]博士提出的,该算法已经在众多领域取得了优异的成绩。
张昊[14]将xgboost算法应用于商品推荐中,基于阿里巴巴的真实用户数据进行建模,得到了较准确的预测结果,对个性化推荐系统的完善具有重要的意义。
蒋晋文和刘伟光[15]将xgboost算法应用与制造业质量预测中,处理了制造业生产过程中积累的大量数据,实现了准确预测产品质量的目的。
李想[16]基于xgboost算法成功设计出了超越沪深300指数的超额收益率的多因子量化选股方案,并与随机森林、支持向量机进行了对比,验证了xgboost算法的稳定性与效果。
由此看出,数理统计和金融理论构建的传统预测模型在数据量很大的情况下,已经无法达到准确预测的效果。
机器学习在金融经济领域的应用为股票期货价格预测开启了新篇章,这几年很多学者将机器学习算法构建的模型应用于股票价格预测领域,都取得了优异的成绩,但是,应用到国际期货价格预测领域的研究很少。
传统期货预测方式已经在准确性和效率上都已经不满足要求,应用机器学习算法构建预测模型已成为趋势。
xgboost算法作为新出现的高效机器学习算法,在各个领域备受关注。
所以,本文将使用xgboost算法构建模型预测国际期货价格涨跌。
3. 数据分析从公开数据库下载的近三年期货日交易原始数据无法直接用于建模预测,必须对原始数据进行预处理,比如应用特征筛选、缺失值填充、量纲化等方式对原始数据进行加工处理。
数据处理的好坏也影响着模型精度的高低,所以数据处理是分类建模的关键第一步。
(一) 数据描述本文所使用的数据来自国泰安数据库,该数据是2015年1月1日到2018年3月30日的国际期货日交易数据,数据量为70,950条。
数据集每条数据记录包含14个特征属性,分别是交易日期、GTA代码、合约名称、交易品种、日开盘价、日最高价、日最低价、日收盘价、涨跌值、涨跌幅度、成交量、持仓量、持仓量变化、标签,其中标签属性是在后续数据处理中新增加属性列。
通过随机划分函数将数据集划分为训练集和测试集,训练集和测试集的样例个数比例为2比1,随机划分数据集避免了因人工划分所带来的误差,准确性更高。
下面对数据集进行特征描述,见表1。
(二) 缺失值填充缺失值的存在通常会影响到建模和预测质量,该数据集中关键属性列存在缺失值的数据记录占总数据集的7%左右。
在缺失值比例不是很高的情况下,一般缺失值处理的方式是删除缺失值,但本文为了进一步提高模型精度,选择缺失值填充的方式,其中对于非数值型数据不进行填充。
经过验证,该数据集缺失值填充为平均值最为合适。
由于该数据集时间跨度较大,所以采用分时间段均值填充。
分别计算出2015年1月1日到2018年3月30日期间,每3个月即一个季度的平均值,将其作为对应时间段的缺失值填充值。
比如,首先计算2015年1月到3月时间段中每个属性列的均值,将其作为这个时间段内缺失值填充值。
李进强,喇磊Table 1. Introduction to the characteristics of the data set 表1. 数据集特征属性介绍属性列名称 含义 值Trddt 交易日期 时间,如2018-03-30 Agmtcd GTA 代码 如:TOPL1810 Agmtnm 合约名称 如:白金1810 Trdvar 交易品种 如:白金、原油 Exgnur 交易所代码 如:TOCOM Ffdt001 日开盘价 数值,范围:0.0~66710.0 Ffdt002 日最高价 数值,范围:0.0~67900.0 Ffdt003 日最低价 数值,范围:0.0~66480.0 Ffdt004 日收盘价 数值,范围:0.0~67900.0 Ffdt005 涨跌值 数值,范围:−4530.0~4570.0 Ffdt006 涨跌幅度 数值,范围:−6.73~6.8 Ffdt007 成交量 数值,范围:0.0~115834.0 Ffdt008 持仓量 数值,范围:0.0~90242.0 Ffdt008 持仓量变化 数值,范围:−29662.0~55710.0Label标签数值:0和1(三) 特征工程原始数据的所有属性都用于统计建模是不切合实际的,必须根据模型要求和属性值特征进行特征工程构建。