道路结冰分类预报
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三基于C4.5决策树方法的道路积冰预报预警模型
3.1 方法
决策树算法是数据挖掘中重要的分类方法,目的是从归档的数据库中得到决策步骤,发现规则、模式和知识。根节点、分支以及叶节点是决策树的必要组成部分。其中,每个内部节点表示在一个属性上的检测,每个分支代表一个检测的输出,每个树的叶节点代表一个类或者类分布。C4.5算法是一种常用的决策树算法,这种算法通过特殊处理方式可以恰当地选择每个节点上的属性变量。决策树的结构是由每个节点在属性上的检测决定的。在任意给定的节点中,C4.5算法根据能够带来最大信息增益的属性拆分样本,第一次拆分确定样本子集,随后通常根据另一个属性进行下一次拆分。最后重新检验,将那些对模型没有显著贡献的样本子集进行修剪和剔除。这一算法的理论基础是信息论中熵的概念,目标是找到保持分类最小差异性所需最低限度的信息。令S 为包括s 个数据样本的训练集,s i 为s 中属于第i 类的样本个数,即∑==m
i i S s 1。此时训练集S 的信息(熵)定义为: ()∑
=⎥⎦⎤⎢⎣⎡=m
i i i s s lb s s S H 1-(3.1) 接着通过属性A 将信息S 分为{S1,S2,…,Sn } ()()∑==n j j
S H s s A S H 1
(3.2) 信息增益为:
()()()A S H A
S G A S R =(3.3) 其中:
()()()
A S H S H A S G -=(3.4) 3.2预报预警模型的构建
选取京沪高速19个测站中比较有代表性的三站进行建模,其中选取
2010-2014年经过处理后的逐日冬季的数据作为训练集,将2015年的数据作为测试集用以验证。选取信息增益最大的属性对总样本进行划分,一直递归调用
到每个划分中的样本属于同一类别,从而构成决策树。接着对决策树进行剪枝处理,以确保模型不过度拟合,从而提高模型的鲁棒性,选取枝叶点最小样本数大小作为是否剪枝的依据(选取总样本数的%5)。
预报因子主要选取日降水量、积雪、以及日最高和最低气温。首先对积雪深度、日降水量、日最低气温、日最低道路气温等数据进行处理;接着通过2.1节所述的阈值条件筛选出道路积冰的分类数据集;第三部将上述数据作为模型输入变量,道路是否结冰最为模型目标变量进行建模(可选用SPSS Modeler
软件),从而得到预报规则集;最后利用未参与计算的数据对模型进行验证。