高斯过程在机器学习中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西安郵電大学
科研训练报告书
基于高斯过程在机器学习中的应用
摘要
高斯过程是近年来发展起来的一种新的机器学习方法,它有着严格的统计学习理论基础,对处理高维数非线性小样本复杂问题具有良好的适应性。对列车精准停车问题的这种复杂的非线性问题,将高斯过程机器学习方法应用于此问题,并提出相应的模型,减少数据间复杂的内在物理或其他关系。很多工程实例研究表明,高斯过程机器学习模型是科学可行的,预测精度高,简单实用,对很多问题问题具有较好的适用性。
关键词:高斯过程;机器学习;列车精准停车
Abstract
Gaussian processes ( GP) is a newly developed machine learning method based on the strict statistical learning theory. GP is capable of solving the highly nonlinear problem with small samples and high dimensions.Precise train stopping complex nonlinear problem, GP machine learning model applied to this problem, and propose a model to reduce the complexity of data between the intrinsic physical or other relationship. Case studies show that many of the works, GP machine learning model is scientific and feasible, the prediction accuracy is high, simple and practical, on many issues the problem has good applicability.
Key Words:Gaussian processes;machine learning;precise train stopping
1引言
列车(包括火车、地铁、轻轨等轨道交通工具)的精确停车是轨道交通控制系统中的一项关键技术。对于有效使用站台屏蔽门、保证乘客安全、较少乘客换乘时间等有着至关重要的作用。然而就实际物理模型建模时收到很多方面的制约,且耗费大量的金钱。通过研究,将实际上依赖于物理模型的建立和控制参数的调整,而采用对数据本身的练习进行学习和建模。如果能从数据中学习到列车精确停车的规律,则可以在保证列车达到精确停车所需指标的同时,大量节省硬件方面的费用,并建立数据规律,同时使结果与实际模型相联系,促进物理模型的建立。因此,在利用机器学习来分析列车精确停车问题时,不需要过多关注各种复杂的如轨道坡度、摩擦系数、天气状况、乘客数量等外在因素,而只需关注对精度有明显影响的因素如停车的初始速度及距离等。
在本文中,将研究机器学习领域的高斯过程(Gaussian Process,GP),并以实际的列车停车
数据做了相关评测。
2 .高斯过程
在机器学习领域中,GP 是指在高斯随机过程与贝叶斯学习理论基础上发展起来的一种机器学习方法。在统计学理论中,GP 是这样的一个随机过程:其任意有限变量集合的分布都是高斯分布,即对任意整数1≥n 及任意的一族随机变量 X ,与其对应的 t 时刻的过程状态)(x f 的联合概率分布服从 n 维高斯分布。GP 的全部统计特征完全由它的均值)(t m 和协方差函数 ),('t t k 来确定,其定义式表示如下 :
)),(),((~)('t t k t m GP t f (1)
GP 可用于解决回归和分类两类问题,受篇幅限制,本文仅对GP 回归模型的基本原理做简单介绍,具体参见文献[ 1]。
假设有 n 个观察数据的训练集 },...,1|),{(n i y x D i i ==,d 维输入矢量 d i R x ∈, 相应的输出标量R y i ∈。如果 X 表示n d ⨯维输入矩阵,y 表示输出矢量,那么训练集 ),(y X D =, 对于新的输入*x ,GP 模型的任务是根据先验知识预测出与*x 相对应的输出值*
y 。
假设观察目标值y 被噪声腐蚀, 它与真实输出值t 相差ε:
ε+=t y (2) 其中ε为独立的随机变量,符合高斯分布,均值为0,方差为2n σ,即
),0(~2n N σε (3) 观察目标值y 的先验分布为
),0(~2I K N y n σ+ (4) 式中:),(X X K K =为n n ⨯阶对称正定的协方差矩阵,矩阵中的任一项ij K 度量了i x 和j x 的相关性。
n 个训练样本输出y 和1个测试样本输出*y 所形成的联合高斯先验分布为: ⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧⎥⎥⎦⎤⎢⎢⎣⎡+⎥⎦⎤⎢⎣⎡),(),(),(),(,0~****2*x x k x X K x X K I X X K N y y n σ(5)
式中, ),(*x X K 是测试点*x 与训练集的所有输入点 X 的1⨯n 阶协方差矩阵, 可简写为)(*x k ;),(**x x k 是测试点*
x 自身的协方差。
GP 可选择不同的协方差函数。协方差函数需要满足:对任一点集都能够保证产生一个非负正定协方差矩阵。常用的协方差函数为:
pq n q p f q p x x l x x k δσσ2222)(21exp ),(+⎥⎦⎤⎢⎣⎡--= (6) 协方差函数的超参数 l 、f σ、n σ 对预测结果的影响甚大。最优超参数可通过极大似然法获得,即通过建立训练样本条件概率的对数似然函数对超参数求偏导,再采用共轭梯度优化方法搜索出超参数的最优解。对数似然函数的形式为:
(7) 获得最优超参数后,下一步就可以进行预测,具体过程是:
根据贝叶斯原理在训练集的基础上预测出与*x 对应的最可能的输出值。采用贝叶斯原理的目的是利用观察到的真实数据不断更新概率预测分布,即给定新的输入*x 、 训练集的输入值X 和观察目标值y 的条件下,推断出*y 的最大可能的预测后验分布 ),,|(**y X x y p ,预测后验分布是高斯型的:
⎥⎦
⎤⎢⎣⎡)(),(~,,|*^*^**x x y N y X x y σ (8) *
y 的均值和方差为
y I K x k x y n T 12**^))(()(-+=σ (9) )())((),()(*12****^x k I K x k x x k x n T -+-=σσ (10) 2 . 2 建立列车精准停车的高斯过程模
( 1) 根据列车精准停车的若干实测值建立学习样本k i y x i i ,...,1),,(=,输入向量i x 代表列车精准停车的影响因素;输出标量i y 代表实测地下水位埋深 。
(2) 当列车精准停车的各影响因素的数量级相差较大或同一控制因素的离散性过大时,不利于 GP 的学习,需要对样本数据和预测样本数据进行如下标准化处理 :
s x p i i /= (11)
2
112)(11⎥⎦
⎤⎢⎣⎡--=∑=n i i x x n s ∑==n i i x n x 11 式中:i p 为标准化后的值 ,i x 第i 个指标 。
( 3) 对学习样本进行学习,通过学习样本的对数似然极大化获得最优的超参数 。
( 4) 根据式 ( 9) 获得测试样本*x ( 新的影响列车精准停车的主要因素) 对应的列车精准停πσσ2ln 2
||ln 21)(21)|(ln 212n I K I K y X y p L n n T -+-+-==-