时间窗-时间依赖中国邮路问题的图转换算法
基于模糊时间窗的车辆调度问题研究

基于模糊时间窗的车辆调度问题研究王旭坪;张凯;胡祥培【摘要】An increasing number of enterprises are focusing on the vehicle routing problems (VRP) because of expanded logistics support. VRP belongs to typical NP-Hard problems. An enterprise typically spends 25% to 30% of total expenses on vehicle routing problems because they can affect economic efficiency and customer benefits. Therefore, it is important to research VRP and optimize logistics activities.Exiting literature has focused on the vehicle routing problem with hard time and soft time windows. In the VRP with hard time window, the service time must fall within each customer' s time window. Due to the limitation of hard time window and the number of available vehicles, it is often unable to find feasible schedules. To deal with issues pertaining to the violation of time window, researchers have proposed the concept of "soft time window". In the VRP with soft time window, a penalty cost is added once a time window is violated, and the penalty cost is often assumed to be linear with the degree of violation. In some cases, violation of time window does not directly incur any penalty cost, although the satisfaction levels of customers may drop and lead to benefit loss in the long term. In many realistic applications, the hard time window or soft time window does represent customer requirements very well. Under these circumstances, the fuzzy processing of time window can reflect customers' requirements well and truly. Until now, few studies have addressed VRP-with fuzzy timewindow when the number of vehicle is limited. There are many real-life situations where the number of vehicle is limited, such as logistics distribution, post express and so on. Thus, this paper proposes and solves vehicle routing problems based on the fuzzy time window and a definite number of vehicles. In this paper, a fuzzy membership function is used to characterize customers' satisfaction levels by analyzing customers' practical requirements of the service time window.A multi-objective model with two goals is formatted. The objective considered here is to maximize customers' service level and minimize the total cost. In the model, customers' satisfaction is quantified as the fuzzy membership function of starting service time and time window based on fuzzy processing. To solve the multi-objective model, a genetic algorithm that can optimize fuzzy information is developed. The algorithm adopts an improved chromosome representation based on customer requirements, which can obtain the optimal number of vehicles automatically. Compared with other chromosome representation, our approach can maximize the number of customers to be serviced. A new handling constraint method based on genetic algorithm is designed. The method can help avoid the difficulty of incorporating the penalty factor into penalty strategy and simplify the handling of constraints. Another benefit is to solve the situation that not enough vehicles are available to service all customers and the value of customer sequence number is limited. More importantly, a fuzzy optimization procedure is applied to decide the optimal starting service time for each customer.Our experimental results demonstrate that theefficiency of our proposed model and algorithm in solving vehicle routing problems and maintaining an acceptable customer satisfaction level. Moreover, the proposed model can also optimize vehicle routing problems with the hard time window by setting parameters of all customers' satisfaction level as 1.%基于现实生活中配送企业车辆责源有限和顾客对服务时间要求并非完全刚性的特征,通过时间窗模糊化处理将顾客服务的满意度量化为配送服务开始时间的模糊隶属度函数.在一定满意度下,构建了基于模糊时间窗的车辆调度模型,根据模型的特点,改进了基于客户的染色体编码方式,设定了一种新的约束处理方法,避免了惩罚策略中选取惩罚因子的困难.在算法中用模糊优化程序处理问题的模糊特征,通过对顾客服务时间的局部调整来确定最佳服务时间.最终通过实例验证与原结果比较发现,引用模糊时间窗函数不仅可以降低配送成本,而且有利于节省运力资源.【期刊名称】《管理工程学报》【年(卷),期】2011(025)003【总页数】7页(P148-154)【关键词】模糊时间窗;车辆调度;多目标优化;混合遗传算法;顾客满意度【作者】王旭坪;张凯;胡祥培【作者单位】大连理工大学系统工程研究所,辽宁大连116023;大连理工大学系统工程研究所,辽宁大连116023;大连理工大学系统工程研究所,辽宁大连116023【正文语种】中文【中图分类】TP18车辆调度问题是典型的组合优化问题,属于NP-Hard难题,其在邮政投递、物流配送和交通运输系统等领域都有着重要的应用。
终稿-数学建模与数学实验-最短路问题-行遍性问题

M= 1 1 0 1 0 v2
0 0
0 1
1 1
1 0
0 1
v3 v4
对有向图G,其关联矩阵M= (mij ) ,其中:
1 mij 1
0
若vi
是e
的起点
j
若vi
是e
的终点
j
若vi与e j不关联
返回
邻接矩阵
对无向图G,其邻接矩阵 A (aij ) ,其中:
v1
e1
v2
e4
e5 e2
v4
e3
e6 v3
v5
e7
e8
v7 e9
v6
情形2 G 有2n 个奇次顶点(n 2)
Edmonds 最小对集算法:
基本思想:
先将奇次顶点配对,要求最佳配对,即点对之间距离总和 最小.再沿点对之间的最短路径添加重复边得欧拉图 G*,G*的 欧拉巡回便是原图的最佳巡回.
算法步骤:
C= v1,v2,… ,vi,,vj , vj-1,… , vi+1,vj+1, …,vn,v1 (3)对 C 重复步骤(2),直到条件不满足为止,最后得到的 C 即 为所求.
例 对以下完备图,用二边逐次修正法求较优H圈.
返回
数学建模与数学实验 最短路问题
实验目的 实验内容
1.了解最短路的算法及其应用 2.会用MATLAB软件求最短路
中.
欧拉图
定义1 设 G=(V,E)是连通无向图 (1)经过 G 的每边至少一次的闭通路称为巡回. (2)经过 G 的每边正好一次的巡回称为欧拉巡回. (3)存在欧拉巡回的图称为欧拉图. (4)经过 G 的每边正好一次的道路称为欧拉道路.
归纳中国邮递员问题.pptx

精品文档
4
– 第二步:考虑到从配货中心出发的送货车辆,在送完所有的门店货物 后,仍需要返回配货中心,故再需对生成的最小树采用中国邮递员线 路的算法进行扩充。
奇点有:V0,V1,V3,V4,V6,V7,V8,V9,V10,V12。故需增加边 V3V5,重复边V0V1,V5V6,V4V9,V9V10,V7V12,V8V12,V9V12等 7条。
精品文档
6
– 第四步:检查有重复边的线路是否是多余的。即检查重复边的两端是
否已有其他线路相连通,如有的话,可将重复边连同原边从线路图中 删去。发现重复边V4V5的两端可通过其他线路相连,可将V4V5及重复 边一起从线路图中删去。即可得送货线路如下:V0—V1—V2—V3— V5—V6—V10—V9—V12—V7—V8—V12—V9—V4—V11—V1—V0。线 路的总长度减少为215千米。总长度较前减少了20千米。
精品文档
7
– 第五步:要综合考虑问题,在优化第三步时,同时考虑第四步有没有 重复边是多余的。此例题发现:圈V0—V1—V2—V13—V0中,加重复 边的长度为23, 不加重复边的长度为15+9+8=32,故不需要改进,但 是,去掉重复边V0V1,增加重复边V1V2,V0V13,V13V2。则V1V2成 为重复边,发现重复边V1V2的两端可通过其他线路相连,可将V1V2及 重复边一起从线路图中删去。这样去掉重复边V0V1和V1V2,总和长度 为31千米,增加V0V13和V13V2,总和长度为24千米,总长度较前减少 了7千米。即可得送货线路如下: V0—V1—V11—V4—V9—V12—V7— V8—V12—V9—V10—V6—V5—V3—V2—V13—V0。线路的总长度减少 为208千米。
基于PPO 算法的旅行商问题求解模型

第29卷第4期北京电子科技学院学报2021年12月Vol.29No.4JournalofBeijingElectronicScienceandTechnologyInstituteDec.2021基于PPO算法的旅行商问题求解模型∗贝世之㊀严嘉钰㊀章㊀乐北京电子科技学院ꎬ北京市㊀100070摘㊀要:旅行商问题ꎬ即TSP(TravelingSalesmanProblem)问题ꎬ是经典计算模型中的NP ̄hard问题ꎮ也因为其为NP ̄hardꎬ所以从理论上来说目前并没有多项式时间的算法可以快速计算出给定图的实例所对应的TSP旅行路线ꎬ即tourꎮ近些年来ꎬ对于小规模的图(顶点数不超过100ꎬ称为TSP100)ꎬ人们提出了基于神经网络模型的方法去计算出tourꎮ特别的ꎬ在[Kwon等人ꎬNIPS2020]中ꎬKwon等人提出了POMO(PolicyOptimizationwithMultipleOptima)模型ꎬ对TSP100问题可以给出接近目前启发式策略所能获得的最短tourꎬ且相应的计算时间相比较于启发式策略加快了近一个数量级ꎮ本文基于PPO(ProximalPolicyOptimization)算法ꎬ对该模型进行了微调(fine ̄tune)ꎬ将其在TSP100相关的测试集上的平均tour长度从7 80改进到7 791ꎬ而目前不基于学习的启发式算法所能找到最短的平均tour长度为7 76ꎮ本文中的结果更加接近于目前的最好结果ꎬ但相比启发式策略ꎬ得到结果的时间大大缩短ꎮ关键词:旅行商问题ꎻ强化学习ꎻ策略梯度算法中图分类号:TM344 1㊀㊀㊀文献标识码:A文章编号:1672-464X(2021)4-88-95∗㊀基金项目:受中央高校基本科研业务费项目328201904资助∗∗㊀作者简介:贝世之(2000-)ꎬ男ꎬ信息管理与信息系统专业2019级本科生ꎮ严嘉钰(2001-)ꎬ男ꎬ信息管理与信息系统专业2019级本科生ꎮ章乐(1987-)ꎬ男ꎬ通信作者ꎬ讲师ꎬ博士ꎬ主要研究方向:深度强化学习ꎬ理论计算机科学ꎬ计算机视觉ꎮ引言旅行商问题ꎬ即TSP问题ꎬ是图论中最著名的问题之一ꎬ即 给定一个n个顶点的完全图ꎬ每条边都有一个长度ꎬ求总长度最短的且经过每个顶点正好一次的封闭回路 ꎮTSP具有重要的实际意义和工程背景ꎮ它一开始是为交通运输而提出的ꎬ比如飞机航线安排㊁送邮件㊁快递服务㊁设计校车行进路线等等ꎮ实际上ꎬ其应用范围扩展到了许多其他领域ꎮTSP的研究历史很久ꎬ最早的描述是1759年欧拉研究的骑士环游问题ꎮ1954年ꎬG.Danzig等人用线性规划的方法取得了旅行商问题的历史性的突破ꎬ即割平面法[1]ꎬ并利用其解决了一个49个城市的实例上的TSPꎻ这种方法在整数规划问题上也广泛应用ꎮ周建军等人还提到了一种方法叫做分枝限界法[2]ꎬ所谓限界ꎬ就是求出问题解的上㊁下界ꎬ通过当前得到的限界值排除一些次优解ꎬ为最终获得最优解提示方向ꎮ每次搜索下界最小的分枝ꎬ可以减小计算量ꎮ在经典计算模型下ꎬTSP问题为NP ̄hard问题ꎮ这意味着目前尚未有快速的确切算法(exactalgorithm)可以对给定的图的实例计算出相应的最优tourꎮ本文中考虑的为二维欧几里德平面上的图的TSP问题ꎮ在二维平面上ꎬTSP问题存在一个2近似算法[7]ꎬ其依赖于三角不等. All Rights Reserved.第29卷基于PPO算法的旅行商问题求解模型㊀式ꎬ即对于三个顶点u㊁v㊁wꎬ要求代价函数c满足:c(uꎬw)ɤc(uꎬv)+c(vꎬw)ꎬ而该不等式在二维平面上显然是满足的ꎮ但即使是要求代价函数满足三角不等式ꎬTSP问题在这种情况下仍然可以被证明为NP ̄hard问题ꎮ近些年来ꎬ随着神经网络模型在各个领域的应用ꎬ人们开始尝试利用机器学习的方式去构建可以解决小规模二维平面中图的实例上的TSP问题ꎮGoogleBrain的IrwanBello等人首次尝试利用神经网络和强化学习的方法来解决此类问题[8]ꎮ其神经网络结构为常见的encoder ̄decoder模型ꎬ都是由LSTM(LongShort ̄TermMemory)细胞构成ꎮ在此基础上ꎬ其利用强化学习去训练该网络的权值ꎮ实验表明ꎬ在100个顶点的二维平面中图的实例上ꎬ若在评估阶段采取的为贪心策略的话(也就是所谓的单条轨迹方式ꎬ即single ̄trajectory)ꎬ则平均的tour长度为8 30ꎮKool等人将注意力机制引入到神经网络中ꎬ并修改了强化学习的算法(引入了一个基于贪心策略的基准线)[4]ꎮ在single ̄trajectory时ꎬ其可以给出平均tour长度为8 12的结果ꎮKwon等人利用了TSP问题中的性质ꎬ即从给定最优的tourꎬ从任意一点出发得到的最优tour的长度是相等的ꎬ因此提出了多个最优点的策略(MultipleOptima)[5]ꎮ其在强化学习中使用了该策略ꎬ最终的模型称为POMO(PolicyOptimi ̄zationwithMultipleOptima)ꎮ相关的实验表明ꎬ该模型在all ̄trajectories(考虑从各个顶点出发的共n条tourꎬ若顶点的个数为n的话)的情况下ꎬ可以得到平均tour长度为7 80的结果ꎮ该结果也是迄今为止ꎬ基于学习的模型在all ̄trajectories的前提下所谓state ̄of ̄the ̄art结果ꎮ若不考虑计算的时间ꎬ在当前情况下基于启发式策略的算法如Concorde[12]ꎬ相比较基于学习的模型ꎬ确实能够计算得到更短的tourꎮ但一方面启发式策略中的策略是一些规则ꎬ所以这些规则是否可以被模型中的参数所刻画是一个重要的问题ꎮ目前ꎬ基于学习的模型所给出的结果ꎬ非常接近于Concorde等算法的计算结果ꎮ这表明这些启发式策略至少是可以被这些参数所部分描述的ꎮ同时ꎬ另一方面ꎬ神经网络模型中的参数ꎬ能否在训练过程中可以去表达更好的策略也是一个重要的问题ꎮ采取本文中的改进训练方法ꎬ模型得到的tour更加逼近Concorde等算法所能获得的结果ꎮ这说明模型是有可能逐步学习到更好的策略ꎮ如何更加逼近启发式策略的结果ꎬ甚至超过这些结果ꎬ将是一个可以被继续研究的问题ꎮ最后ꎬ本文考虑使用强化学习中的PPO算法ꎬ并将Kwon等人提出的多个最优点的策略应用到其中ꎬ得到了all ̄trajectories下的改进结果ꎮ具体来说ꎬ本文的贡献如下:1)充分利用了PPO算法在samplecomplexity(样本复杂度)上的优势ꎬ让模型接受当前策略在更多图的实例上所得到的tour数据上的训练ꎬ从而保证模型的优化更加稳定ꎮ这一点可以对比常见的强化学习中策略梯度算法的实现ꎮ后者因为是on ̄policy算法ꎬ当前模型只能在当前的策略产生的数据上进行一次训练ꎻ2)针对于TSP问题ꎬ验证了所谓多个最优点的策略可以被应用到PPO算法中ꎻ3)实验表明ꎬ针对于TSP100问题ꎬ在all ̄trajectories的情况下ꎬ得到了基于学习的模型所能获得的state ̄of ̄the ̄art的结果7 791ꎮ预训练的模型可以从该url①中获取ꎬ其表现可以通过该GitHub项目②进行验证(测试集由另一GitHub项目提供③)ꎮ98①②③https://drive.google.com/file/d/18xPw05nhEpjk2L5KBYp44MQtXv1lVqGf/view?usp=sharinghttps://github.com/yd ̄kwon/POMOhttps://github.com/wouterkool/attention ̄learn ̄to ̄route. All Rights Reserved.北京电子科技学院学报2021年1㊀POMO模型简介POMO模型[5]中的神经网络结构部分直接采取了Kool等人工作中所提出的AM(AttentionModel)模型ꎮ因本文改进的是学习的算法ꎬ对未修改的神经网络模型这部分将不再详述ꎮ如下先简要介绍POMO模型中的强化学习过程ꎮTSP问题的输入为n个顶点的二维坐标ꎬ可用(x1ꎬy1)ꎬ ꎬ(xnꎬyn)表示ꎮ每个顶点(xkꎬyk)将先被转化为一个128维的顶点向量ꎮ之后的神经网络结构ꎬ和一般的Transformer结构[9]是类似的ꎮ从强化学习的角度ꎬ可以将模型视为一个智能体ꎮ当前的状态st为编码器所产生的㊁对各个顶点进行编码的向量信息ꎬ以及目前为止已经输出的TSP的tour的信息ꎮ基于stꎬ神经网络AM需要输出tour中下一步要走的顶点πtꎮ在训练阶段ꎬπt的选择一般是根据解码器所预测的πt的概率分布(常为Softmax层输出)进行随机抽样得到ꎮ在POMO模型中ꎬ智能体执行动作πt(也就是选择顶点πt时)的奖励值一般为0ꎬ而只有当tour已经穷尽了所有顶点时ꎬ才会给出最后的奖励值ꎬ即该tour的长度ꎮ给定一个二维平面上的图的实例ꎬ从不同的起始点出发ꎬ可以利用上述的方式抽样得到n条不同的轨迹(trajectory)ꎬ每条trajectory都是n个顶点的一个排列ꎮPOMO模型训练时利用TSP问题如下的性质:给定TSP的最优tourꎬ那么从该tour的任意一点出发ꎬ理论上都可以获得最优的tourꎮ具体来说ꎬ在POMP模型中Kwon等人提到ꎬ在TSP问题中ꎬ如果τ=(v1ꎬv2ꎬv3ꎬv4ꎬv5)是一个有5个顶点的TSP的最优解ꎬ则τ0=(v2ꎬv3ꎬv4ꎬv5ꎬv1)也表示相同的最优解ꎮ也就是说ꎬ无论从v1ꎬv2ꎬv3ꎬv4ꎬv5中哪个顶点出发ꎬ都能产生相同的最优解ꎮ这一重要性质在之前的其他工作[4ꎬ8]中却并未被使用ꎮ基于上述观察ꎬ在训练过程中这n条trajec ̄tories的长度的平均值可作为一个基准线:高于该基准线的trajectoryꎬ应当予以奖励ꎻ低于该值的trajectoryꎬ则给予惩罚ꎮ若神经网络的权值为θꎬ而对于trajectoryτiꎬ其路径长度为R(τi)ꎬ智能体期望能生成的tour长度为J(θ)ꎬ且所选的㊁不同的起始点个数为Nꎬ则上述想法可以用如下的策略梯度表示:∇θJ(θ)=1NðNi=1R(τi)-1NðNj=1R(τj)æèçöø÷∇θlogpθ(τi|s)ꎬ(1-1)其中pθ(τi|s)=ᵑtpθ(πt|sꎬπ1ꎬ ꎬπt-1)ꎬ而s表示编码器所编码的所有顶点的向量信息ꎬtrajectoryτi=(π1ꎬ ꎬπn)ꎬ智能体选择顶点πt的概率为pθ(πt|sꎬπ1ꎬ ꎬπt-1)ꎮ在POMO模型训练中ꎬ一般N选择为nꎬ也就是说会考虑从每一个顶点出发根据模型预测的概率抽样得到的trajectoryꎬ即all ̄trajectoriesꎮ2㊀基于PPO的改进算法本节先简要介绍PPO算法ꎮ但在将PPO算法应用到POMO模型的训练时ꎬ并非是简单的目标函数替换ꎬ因此这里将详细讨论具体的PPO算法的应用过程ꎮ相同的神经网络模型ꎬ在采取本文中所描述的训练算法时ꎬ对于相同的TSP100问题实例ꎬ平均情况下将会得到更短的tourꎮ2 1㊀PPO算法简介PPO算法由Schulman等人提出[3]ꎬ其可以理解为对所谓的TRPO(TrustRegionPolicyOpti ̄mization)算法[10]的一种改进的实现方式ꎮ如下首先讨论一下TRPO算法的主要思想ꎮTRPO算法是根据旧的策略pθold产生的trajectories来作为训练数据ꎬ对当前的策略pθ进行训练ꎬ而训练的目标函数为:09. All Rights Reserved.第29卷基于PPO算法的旅行商问题求解模型㊀maximizeθE^tpθ(at|st)pθold(at|st)éëêêùûúúA^tsubjecttoE^tKL[pθold( |st)ꎬpθ( |st)][]ɤδ.(2-1)其中E^t[ ]表示估计的期望值ꎬKL[ ꎬ ]表示两个概率分布的KL-散度ꎮ上式中要求pθold和pθ的KL-散度不大于一个常数δꎬ而A^t表示优势函数的估计值ꎬ和公式(1-1)中的R(τi)-1NðNj=1R(τj)是类似的意义ꎮ当θ=θold时ꎬ公式(2-1)退化为一般的策略梯度算法ꎬ此时公式(2-1)和公式(1-1)是等同的ꎮ为了避免在优化过程中还需要考虑pθold和pθ的KL-散度需要满足公式(2-1)中的约束条件ꎬPPO算法采取了如下的优化目标函数:LCLIP(θ)=E^t[min(rt(θ)A^tꎬclip(rt(θ)ꎬ1-εꎬ1+ε)A^t)](2-2)其中rt(θ)=pθ(at|st)pθold(at|st)ꎬ而clip(rt(θ)ꎬ1-εꎬ1+ε)表示将rt(θ)裁剪到[1-εꎬ1+ε]这个区间内ꎬ最后ε表示一设定的常数ꎬ一般可取为如0 2等ꎮSchulman等人在其的工作[3]中ꎬ针对于对pθold和pθ的KL-散度约束ꎬ阐述了PPO算法如何实现了TRPO算法中的类似约束效果ꎮ在将PPO算法应用到TSP求解模型的训练过程中时ꎬ并非仅仅是将POMO模型训练的目标函数从公式(1-1)修改为公式(2-1)ꎮ在本文的初步实验中ꎬ这样直接的替换也并不能得到效果更优的求解模型ꎮ接下来本文先分析POMO模型中所能存在的一些问题ꎬ并再详细讨论如何修改PPO算法ꎬ从而克服这些不足之处ꎮ2 2㊀一般策略梯度算法的不足在POMO模型ꎬ其采用了一般的策略梯度算法ꎮ如下针对这种方法的不足之处进行讨论:1)在POMO模型的代码实现中ꎬ因为其采取了一般的策略梯度算法ꎬ所以ꎬ训练过程中所考虑的batchsize是受到GPU内存限制的(在POMO模型中为64)ꎮ这是由于通常的策略梯度算法是on ̄policy的ꎬ因此ꎬ参数θ只能在这样的训练数据上进行训练:这些数据都是根据策略pθ(πt|sꎬπ1ꎬ ꎬπt-1)而产生的ꎮ蕴含当前策略的参数θ只有一次被训练的机会:经过梯度下降算法的更新得到θᶄꎬ后续的训练数据将是根据θᶄ所蕴含的策略而产生ꎮ所以ꎬ在策略梯度算法中可能会存在这样的风险:由于batchsize的大小有限ꎬ因此ꎬ策略梯度中对梯度的估计只能基于batchsize这么多条训练数据来进行ꎮ由于抽样个数的有限(均为batchsize)ꎬ估计值的方差将会很大ꎬ所以梯度估计值的反方向不一定能够准确表示公式(1-1)中J(θ)下降最快的方向ꎬ所以ꎬθᶄ并不能肯定优于θꎮ但由于θ在一次更新后就成为θᶄꎬ而下一批的训练数据都是根据θᶄ所蕴含的策略而产生ꎬ所以ꎬ如此反复的迭代ꎬ可能会导致训练数据的质量越来越差ꎮ2)公式(1-1)的计算中涉及项pθ(τi|s)ꎬ虽然pθ(τi|s)= tpθ(πt|sꎬπ1ꎬ ꎬπt-1)ꎬ但在策略梯度的实际数学推导中(如参考文献[11])ꎬ考虑的是每个动作所选择的概率ꎬ而不是pθ(τi|s)中所表达的给定状态sꎬ得到整条轨迹τi的概率ꎮ从这个角度ꎬ公式(1-1)的项∇θlogpθ(τi|s)应修改为1nðt∇θlogpθ(πt|sꎬπ1ꎬ ꎬπt-1)ꎮ同时ꎬ因为在TSP的tour中ꎬ每个顶点只能被访问一次且仅一次ꎬ所以ꎬ对于trajectoryπ来说ꎬ智能体选择最后一个顶点πn时ꎬ此时并没有其他的顶点可以被选择ꎬ因此ꎬ可以在1nðt∇θlogpθ(πt|sꎬπ1ꎬ ꎬπt-1)的求和中去掉项∇θlogpθ(πn|sꎬπ1ꎬ ꎬπn-1)ꎬ因为pθ(πn|sꎬπ1ꎬ ꎬπn-1)为常数1ꎬ相应的对于θ的梯度也应该为0ꎮ2 3㊀在POMO模型训练中应用PPO上一节中讨论了在对策略梯度进行抽样估19 . All Rights Reserved.北京电子科技学院学报2021年计时ꎬbatchsize大小的重要性ꎮ这里讨论如何修改PPO算法的一般实现方式ꎬ从而间接地实现对batchsize的增加ꎮ在一般的PPO的实现中ꎬ其所关注的主要因素是所谓的样本复杂度ꎬ也就是说ꎬ如何实现对有限样本的充分利用ꎬ从而尽可能少地使用过多的抽样数据ꎮ采取该方式的主要原因在于:一般的强化学习过程ꎬ都是智能体和模拟器或真实环境进行交互ꎮ样本的产生依赖于和模拟器或真实环境的交互过程ꎬ而这样的交互过程往往是非常耗时的ꎮ所以针对于这一不足ꎬ一般采取的是:a)根据当前权值θ所蕴含的策略和模拟器进行交互ꎬ并得到一些抽样数据ꎻb)利用这些抽样数据对当前的智能体进行多个epoch的训练ꎮ本文中修改上述的实现方式:对当前权值θ所蕴含的策略所得到的抽样数据仅仅进行一个epoch的训练ꎮ但同时会利用当前的策略产生大量的抽样数据ꎬ至少是一般的PPO实现中抽样数据的k倍ꎬ其中k表示一般的PPO实现中对抽样数据进行训练的epoch的个数ꎮ如下对这一修改的合理性进行分析ꎮ在TSP求解模型的训练中ꎬ可以观察到样本复杂度是不太需要被关注的ꎮ一方面产生抽样的训练数据对于该问题而言并不是一个耗时的环节ꎬ因为这里的模拟器或真实环境是被隐式定义的:给定智能体所返回的TSPtourꎬ可以直接计算出该tour的长度ꎻ同时ꎬ智能体执行一个动作ꎬ仅仅是在已经输出的部分tour后再添加一个顶点的信息ꎮ另一方面ꎬ对比对样本复杂度的不关心ꎬ本文中提出的方法更加关注公式(1-1)中的策略梯度的估计值是否能够准确估计真实的策略梯度ꎮ因为同样由于GPU内存的限制ꎬ一次训练也是采取了相同的batchsizeꎬ但是ꎬ这里是根据很多条训练数据对θ进行训练得到θᶄ之后ꎬ才使用θᶄ产生新的训练数据ꎮ也就是说ꎬ会使用当前的策略产生大量的训练数据ꎬ而不仅仅只是batchsize条数据ꎮ在上述做法中ꎬ梯度的估计值从理论上来说能够更加准确地表达出真实的梯度方向ꎮ因为一次batchsize条训练数据得到的梯度估计值的不准确而产生的错误ꎬ在后续可能会被其他batchsize条训练数据得到的梯度估计值所修正ꎮ注意ꎬ这些数据都是根据相同的θ而产生得到ꎮ这里可以对比一般的策略梯度算法ꎬ后者仅仅使用batchsize条训练数据进行训练后ꎬ就使用θᶄ产生新的训练数据ꎮ除了上述两个方面的修改ꎬ在将PPO算法应用到TSP求解模型的构建中ꎬ本文中也对一般的PPO算法实现做了其他一些细微修改:1)公式(2-2)中的A^t被替换为R(τi)-1NðNj=1R(τj)ꎬ这是将POMO模型中的主要性质应用到PPO算法中ꎻ2)不再对公式(2-2)中的A^t进行规范化操作ꎬ即减去其的均值再除以标准差ꎮ这一点和一般的PPO算法实现不同ꎻ3)去掉了进行梯度下降之前ꎬ对梯度进行裁剪的步骤ꎮ一般的PPO算法实现中ꎬ会对梯度的L2范式进行根据预先设定阈值的缩放ꎬ若相应的L2 ̄norm大于设定的阈值的话ꎮ上述第2㊁3点虽看似改动很小ꎬ但在本文的初始实验中ꎬ确实会观察到这些修改会带来模型的稍微更好的表现ꎮ3㊀实验结果如第1节中所述ꎬPOMO模型中所使用的神经网络为AMꎬ且根据Kwon等人的阐述[5]ꎬ最终得到POMO模型在单个TitanRTXGPU花费了大概的一周的时间才得到了all ̄trajectories下的7 80的结果ꎬ因此ꎬ为节省计算资源ꎬ本文中的模型训练是直接在该POMO模型上进行fine ̄tuneꎮ为了实验对比的公平性ꎬ除因为采取了29. All Rights Reserved.第29卷基于PPO算法的旅行商问题求解模型㊀fine ̄tune的方式而选择了更小的学习率5e-6ꎬ其他的超参数如batchsize等ꎬ均和POMO模型是一致的ꎮ另外ꎬ对于第2 3节中所讨论的重要参数ꎬ即利用当前的策略产生多少条训练数据进行一次epoch的训练ꎬ本文中取为128∗batchsizeꎬ其中ꎬ值128可以对比一般的策略梯度算法中的值1(后者因为on ̄policy的要求ꎬ该值只能为1)ꎮ本文中的训练过程均在单个NVIDIATeslaT4GPU上进行ꎮ3 1㊀衡量方法模型的测试均基于Kool等人在其的工作[4]中所使用的10ꎬ000个随机生成的图的实例ꎮ作为对比的基准线ꎬ这里采取了之前的工作中的做法ꎬ利用Concorde[12]计算出这一工具在这些图的实例上其所能发现的最短tourꎮ在上述的10ꎬ000个随机生成的图的实例上ꎬConcorde所能计算出的平均tour长度为7 76ꎮ不管是POMO模型ꎬ还是本文中提出的基于PPO算法进行fine ̄tune之后的模型ꎬ在对这10ꎬ000个随机生成的图的实例计算TSPtour时ꎬ对每一个图的实例ꎬ都会考虑从N=n个不同的顶点出发ꎮ最后返回的tour为这N条tour中的最短tour的长度ꎮ这也是所谓的all ̄trajec ̄tories的方式ꎮ3 2㊀结果对比本文中将所介绍的PPO算法应用到现有模型的fine ̄tune过程ꎮ具体来说ꎬ在fine ̄tune中ꎬ对POMO模型进行了91个epochs的训练ꎮ每个epoch中将会处理10ꎬ000个图的实例ꎮ训练时采取的batchsize和POMO模型一致ꎬ为64ꎮ如前文中所述ꎬ在fine ̄tune中ꎬ只有当处理完128次batchsize条训练数据之后ꎬ才会使用当前的权值所蕴含的模型生成新的训练数据ꎮ所以ꎬ从某种程度上来说ꎬ这里将batchsize增加到了128∗batchsizeꎮ相关的结果对比如表1ꎬ其中有关Concorde㊁AM(sampling)㊁POMO(alltrajectories)的结果均来自于Kwon等人的工作[5]中的实验结果ꎮ需要注意的是ꎬ本文中的模型和POMO模型在神经网络结构上是一致的ꎬ都是采取了AM模型ꎮ唯一不同的是ꎬ相同的模型所接受的训练过程是不同的ꎮ也因为这一点ꎬPOMO+PPO(alltrajectories)和POMO(alltrajectories)在相同的硬件上ꎬ会有相同的推理时间ꎬ因为两者的神经网络结构是一致的ꎬ且所采取的推理算法也是相同的ꎮ表1㊀不同计算方法/模型在TSP100问题上的结果类型算法AverageTourLengthTime启发式策略Concorde7 761h基于学习的模型AM[4]ꎬsampling7 9222mPOMOꎬalltrajectories7 8011sPOMO+PPOꎬalltrajectories[本文的结果]7 79111s㊀㊀可以看到对于同样的10ꎬ000个随机生成的图的实例ꎬ在all ̄trajectories的模式下ꎬ到目前为止ꎬPOMO+PPO的训练方法得到了基于学习的模型的最好结果ꎮ对比原本的POMO模型ꎬ虽同样基于神经网络ꎬPOMO+PPO的训练方式得到的模型可以计算出长度更短的tourꎮ同时ꎬ作为目前基于启发式策略的算法在该问题上所能获得的最好结果ꎬConcorde虽然能够计算出更短的tourꎬ但其的运行时间过长ꎬ和神经网络的推理时间相比为1hv.s.11sꎮ虽然计算时间大大增加ꎬ但tour长度的上的改进却小于0 031ꎮ4㊀结论本文针对TSP100问题ꎬ利用PPO算法改进了目前的㊁基于神经网络的计算模型的训练过39 . All Rights Reserved.北京电子科技学院学报2021年程ꎮ给定一个图的实例ꎬ模型同时计算出从不同的顶点出发的tourꎬ并取最短的tour作为模型最终所返回的结果ꎮ本文中所讨论的PPO算法的训练过程ꎬ利用了PPO算法不完全是on ̄policy算法的特点ꎬ使得当前的智能体可以在当前的策略中进行充分的训练后才切换到新的策略中ꎬ避免了训练数据过少而导致的对策略梯度的估计值不够准确的现象ꎮ同时ꎬ本文也对如何成功应用PPO算法的其他细节做出了阐释和探索ꎮ参考文献[1]㊀陆雄文.管理学大辞典:[M].上海:上海世纪出版股份有限公司上海辞书出版社.[2]㊀周建军ꎬ詹芹.回溯法与分支限界法的用法取向探讨[J].九江学院学报(社会科学版)ꎬ2009ꎬ28(3):18-20.[3]㊀SchulmanꎬJohnꎬetal."Proximalpolicyopti ̄mizationalgorithms."arXivpreprintarXiv:1707 06347(2017).[4]㊀KoolꎬWouterꎬHerkeVanHoofꎬandMaxWelling."Attentionꎬlearntosolveroutingproblems!."arXivpreprintarXiv:1803 08475(2018).[5]㊀KwonꎬYeong ̄Daeꎬetal."POMO:PolicyOptimizationwithMultipleOptimaforRein ̄forcementLearning."NeurIPS2020.[6]㊀WilliamsꎬRonaldJ."Simplestatisticalgradi ̄ent ̄followingalgorithmsforconnectionistrein ̄forcementlearning."Machinelearning8 3-4(1992):229-256.[7]㊀CormenꎬThomasH.ꎬetal.Introductiontoal ̄gorithms.MITpressꎬ2009.[8]㊀BelloꎬIrwanꎬetal."Neuralcombinatorialop ̄timizationwithreinforcementlearning."arXivpreprintarXiv:1611 09940(2016).[9]㊀VaswaniꎬAshishꎬetal."Attentionisallyouneed."arXivpreprintarXiv:1706 03762(2017).[10]㊀SchulmanꎬJohnꎬetal. TrustRegionPolicyOptimization. ProceedingsofThe32ndInter ̄nationalConferenceonMachineLearningꎬ2015ꎬpp.1889-1897.[11]㊀SuttonꎬR.S.ꎬandA.G.Barto.ReinforcementLearning:AnIntroduction.MITpressꎬ2018.[12]㊀DavidApplegateꎬRobertBixbyꎬVasekCh ̄vatalꎬandWilliamCook.ConcordeTSPsolverꎬ2006.URLhttp://www.math.uwaterloo.ca/tsp/concorde.html.ATravelingSalesmanProblemSolverBasedonProximalPolicyOptimizationBEIShizhi㊀YANJiayu㊀ZHANGLeBeijingElectronicScienceandTechnologyInstituteꎬBeijing100070ꎬP.R.ChinaAbstract:TheTravelingSalesmanProblem(TSP)isanNP ̄hardproblemintheclassiccomputationalmodel.AsitisNP ̄hardꎬtheoreticallyꎬtheredoesnotexistanypolynomialalgorithmforit.Soforagiv ̄engraphinstanceꎬwecannotgettheTSPtourefficiently.Inrecentyearsꎬforgraphsofmoderatesize(thenumberofverticesisnogreaterthan100ꎬreferredtoasTSP100)ꎬtherearemodelsproposedbasedonneuralnetworks.Especiallyin[Kwonetal.ꎬNIPS2020]ꎬKwonetal.proposedPOMO(Pol ̄icyOptimizationwithMultipleOptima)ꎬwhichgivesnearlyidenticalshortesttourscomparedwiththoseresultsachievedbyheuristicapproaches.Alsoꎬtheinferencetimeisspedupbymorethananorderof49 . All Rights Reserved.59 第29卷基于PPO算法的旅行商问题求解模型㊀magnitudeꎬcomparedwithheuristicalgorithms.HereinthepaperꎬweproposedatrainingmethodbasedonPPO(ProximalPolicyOptimization)ꎬwhichfine ̄tunesoverthePOMOmodelꎬimprovingtheaveragetourlengthfrom7 80to7 791.Atthesametimeꎬthebestresultsofarobtainedbyalgorithmsbasedonheuristicandnotlearning ̄basedachievesthetourlengthof7 76.Theresultinthepaperisclosertothisbestresult.Alsoꎬcomparedtoheuristicapproachesꎬthetimetogetthetourismuchless.Keywords:travelingsalesmanproblemꎻreinforcementlearningꎻpolicyoptimizationalgorithms(责任编辑:张艳硕) . All Rights Reserved.。
中国邮递员问题——欧拉巡回

案例2:铲雪车的行驶路线问题
铲雪车的行驶路线问题(MCM 90B题)
返回
案例1:双车道公路扫雪模型
问题 某地区的双车道公路如图1的图G(单 位是千米),路上积满了雪 。一辆扫雪车从 v1点出发,扫除公路上的所有积雪,最后回 到v1 。 要求1) 请你为扫雪车选择一条路径,使它 经过的总路程最短。 要求2) 现在先进的喷气扫雪车只需沿公 路一侧行驶,就能清除两个车道的积雪。如 果改用喷气扫雪车来扫雪,再请你为它选择 一条路径,使它经过的总路程最短。
6 8 v4 5 7 3 v5
5 4
9 6 v9 1 v10 2 v15
v6 5 v12
v7
4 3
2 v8
3
v11 1 1 v13 v14
案例1:双车道公路扫雪模型
深度优先搜索法遍历求解
要求1)的解法2 还可用深度优先搜索法(迷宫法则),遍历所有边,且 每边正好来回各走一次。 迷宫任务:从迷宫入口处出发,每个走廊都要搜索,最后 再从入口出来.
求解中国邮递员问题的算法
最小权对集法(Edmonds) 设G是连通加权图。 1) 求G的所有奇次顶点之间的最短路径及其 长度; 2) 以G的所有奇次顶点为顶点集作一完全图, 各条边上的权赋为两端点在原图中的最短路径长度, 得到一个加权完全图,记为G1;求G1的最小权理想 匹配M, 得到奇次顶点的最佳配对; 3)在G中,沿最佳配对奇次顶点间的最短路径 添加重复边得欧拉图G*,G*的欧拉巡回即为所求。
基本概念与基本结论
无向图的情形
结论一:连通图G是欧拉图的充要条件是G无奇次顶 点。
结论二:连通图G有欧拉道路的充要条件是ቤተ መጻሕፍቲ ባይዱ最多有 两个奇次顶点。 结论三:任何无向图的奇次顶点数目必为偶数。
中国邮递员问题的求解实例

中国邮递员问题的求解实例前面已经讲过,对于欧拉图,可以直接用Fleury算法找出一条欧拉巡回路线;对于半欧拉图,可以先求出奇点u和v之间的最短路径P,令G =G P,贝U G *为欧拉图,然后用Fleury算法来确定一个G *的欧拉巡回,它就是G的最优巡回。
当G有2n个奇点(n>1),可以用Edmonds算法解决,步骤如下:(1) 用Floyd算法求出所有奇点之间的最短路径和距离矩阵。
(2) 用匈牙利法或0-1规划法求出所有奇点之间的最佳配对。
(3) 在原图上添加最佳配对所包含的两两顶点之间的最短路得到欧拉图G *。
⑷用Fleury算法确定一个G *的欧拉巡回,这就是G的最优巡回。
以上步骤的关键是找出2n个奇点的最佳配对,举例如下。
例图3是某区街道示意图,各边的长度数据如下表所示。
现在需要对每条街道找最优巡回,需要先求26个奇点的最佳配对。
先用Floyd算法求出所有42个顶点之间的最短路距离和路径。
程序如下:E=[1 2 10261 4 402........ 注:每一行代表一条边(两个顶点和边长),此处省略59行40 39 198];for i=1:42for j=1:42if j==ia(i,j)=0; elsea(i,j)=inf; end end endfor k=1:62 i=E(k,1);j=E(k,2);a(i,j)=E(k,3);a(j,i)=E(k,3); end[D,R]=floyd(a);图3某区街道示意图然后求26个奇点的最优配对,这可以用Lin go 求解,编写程序如下:MODEL: SETS:4U12°26"30 O3539 40413*27 21 4128* 3338仆2934O114251015• 1724,25201922 23 32313637dot/2,4,5,6,8,9,10,11,12,13,14,15,17,18,19,20,22,24,25,26,28,29,30,36,40,41/;LINKS(dot,dot)| &2 # GT # & 1:C,X;ENDSETSDATA:C=1319 1065 651 650 939 1228 1463 1500 1213 617 895 1590 1709 1377 1033 1112 1652 1761 1853 1418 1832 2124 2151 2479 1687254 668 1173 1462 1751 198 181 402 1140 1418 2113 453 601 945 1635 2175 2284 597 1941 2355 868 1463 1498 2104414 919 1208 1497 1732 435 148 886 1164 1859 679 347 691 1381 1921 2030 823 1687 2101 1094 1689 1724 1850505 794 1083 1318 849 562 472 750 1445 1058 726 382 967 1507 1616 1202 1273 1687 1473 2005 2103 1541289 578 813 1354 1067 471 245 940 1563 1231 887 462 1002 1111 1707 768 1182 1978 2005 2333 1541 289 524 1643 1356 760 534 651 1852 1520 1176 504 828 886 1996 594 1008 2267 2197 2525 1733235 1932 1645 1049 823 362 2141 1809 1465 793 706 597 2285 883 890 2556 2486 2814 20222167 1880 1284 1058 163 2376 2044 1700 1028 507 398 2520 1105 691 2766 2658 2986 2194306 1321 1599 2294 272 505 849 1571 2111 2220 416 1877 2291 687 1282 1317 20081034 1312 2007 531 199 543 1265 1805 1914 675 1571 1985 946 1541 1576 1702360 1411 1203 871 527 577 1117 1226 1347 883 1297 1618 1534 1862 10701101 1563 1231 887 217 757 866 1707 523 937 1978 1894 2222 14302282 1950 1606 884 344 235 2426 942 528 2603 2495 2823 2031332 676 1398 1938 2047 144 1704 2118 415 1010 1045 1824344 1066 1606 1715 476 1372 1786 747 1342 1377 1503722 1262 1371 820 1028 1442 1091 1623 1721 1159540 649 1542 306 720 1813 1729 2057 1265109 2082 598 184 **** **** 2479 16872191 707 293 2368 2260 2588 17961848 2262 271 866 901 1680414 1711 1603 1931 11392075 1967 2295 1503595 630 1409360 832792;ENDDATA图4 26个奇点的最优配对MIN=@SUM(LINKS:C *X);@FOR(LINKS:@BIN(X));@FOR(dot(l):@SUM(LINKS(J,K)| J #EQ# I #OR# K #EQ# I:X(J,K))=1);END运行以上程序,得到最优配对结果为:2与6、4与12、5与13、8与9、10与11、14 与15、17 与25、18 与26、19 与20、22 与28、24 与29、30 与36、40 与41。
中国邮递员问题小论文

中国邮递员问题摘要:一名邮递员带着要分发的邮件从邮局出发,经过要分发的每个街道,送完邮件后又返回邮局.如果他必须至少一次走过他管辖范围内的每一条街道,如何选择投递路线,使邮递员走尽可能少的路程.这个问题是由我国数学家管梅谷先生(山东师范大学数学系教授)在1962年首次提出的,因此在国际上称之为中国邮递员问题本文主要介绍了中国邮递员问题的基本分析、求解中国邮递员问题的方法以及有关欧拉回路的算法实现。
关键词:中国邮递员欧拉图欧拉回路一、中国邮递员问题的分析中国投递员问题是1960年我们从生产实际中提出的一个数学问题,它是从下述实际问题中抽象出来的:“一个投递员应该怎么选择一条线路,才能既把所有由他负责的信件都送到,而所走的路程又最短”。
在我们开始研究中国投递员问题以前,国外有人研究过所谓旅行售货员的问题,即:“一个售货员要到n个城市去售货,问他应该选择怎样的一条线路,才能既走遍所有城市,并且走的路程最短”。
这是一个著名的难题.当n较大时,即使使用大型电子计算机,也很难解决。
投递员面临的问题显然可以归纳为旅行售货员问题,事实上,只要把投递员必须送的每一个地点看成是一个城市就行了.但是一般来说,投递员每次要到约二、三百个地点送信,如果归纳为旅行售货员问题来解决,将是一个规模很大的问题,是无法解决的.但是,在仔细分析了投递员面临的问题后,我们发现这个问题具有一定的特点,即需要送信的地点一般都是比较密集的排列在街道上的,因此,实际上,我们称这个问题为“最短投递线路问题”,1965年后国外称之为“中国投递员问题”(这个问题是我国数学家管梅谷先生在20世纪60年代提出来的)用图论的语言来描述就是在一个带权图G中,能否找到一条回路C,使C包含G的每条边至少一次且C的长度最短?如若他所管辖的街道构成一欧拉回路,则这欧拉回路便是所求路径。
如若不然,即存在度数为奇数的顶点,必然有些街道需要多走至少一遍,这时用中国邮路问题算法可求出最短路径。
图论与网络模型_中国邮递员问题

Edmonds-Johnson 算法
有奇点的中国邮路问题,这种情形下,有的边要通过至少两次。下图中,边旁写的是权。
图3
(1)在图 3 中,奇点集合为
V 0={v1 , v2 , v3, v4}
(5,6),(9,7)。
邮递员问题
一位邮递员从邮局选好邮件去投递,然后返回邮局,他必须经过由他负责投递的每条街 道至少一次,为这位邮递员设计一条投递线路,使其耗时最少。
用图的语言来描述,就是给定一个连通图 G,在每条边 e 上有一个非负的权 w(e),要寻 求一个回路 W,经过 G 的每条边至少一次,并且回路 W 的总权数最小。
图论中的图是由点和点与点之间的线所组成的。 通常,我们把点与点之间不带箭头的线叫做边,带箭头的线叫做弧。
如果边 [ vi, v j]∈ E ,E 是边集合,那么称 vi, vj 是边的端点,或者称 vi, vj 是相邻的。 如果一个图 G 中,一条边的两个端点是相同的,那么称为这条边是环。 如果两个端点之间有两条以上的边,那么称为它们为多重边。 一个无环,无多重边的图标为简单图。 一个无环,有多重边的图标图称为多重图。
∑ w(e )=min
e∈W
如果 G 是欧拉图,则所求的 W 就是一条欧拉回路。 由于这个问题是我国菅梅谷同志于 1962 年首先提出来的,因此国际上长称它为中国邮递 员问题。
求无奇点连通图的中国邮递员问题的算法(Fleury 算法)
就是求欧拉回路。算法思想:“过河拆桥,尽量不走独木桥”。 例如,下图是欧拉图,设从 v1 开始,寻找一条欧拉回路,如果开始三步是 v1v3v2v1,那 么就失败了,因为回到 v1 之后发现左侧的 v3 上的边还没有用过,而 v1 的关联边已全用过, 不能从 v1 再去通过左侧那些未用过的边了(注意每边只能用一次)。
时间依赖网络中国邮路问题

时间依赖网络中国邮路问题
孙景昊;孟亚坤;谭国真
【期刊名称】《计算机工程与科学》
【年(卷),期】2010(000)010
【摘要】中国邮路问题是图论中的经典问题,得到了深入的研究和广泛应用.近年来,由于计算机网络与通信、智能交通系统等复杂应用领域的需求,时间依赖网络问题的研究具有更为重要的现实应用意义.本文首次提出了时间依赖网络中的中国邮路问题,建立了该问题的整数线性规划模型,并对该模型的上界进行了分析,最后给出了网络应用实例.
【总页数】4页(P122-125)
【作者】孙景昊;孟亚坤;谭国真
【作者单位】大连理工大学计算机科学与技术学院,辽宁,大连,116023;大连理工大学计算机科学与技术学院,辽宁,大连,116023;大连理工大学计算机科学与技术学院,辽宁,大连,116023
【正文语种】中文
【中图分类】U116
【相关文献】
1.时间依赖无向中国邮路问题的分支限界算法 [J], 谭国真;孙景昊;肖宏业;吕凯
2.二层SA/GA算法解决时间依赖中国邮路问题 [J], 孙景昊;吴雄;谭国真;闫超
3.时间窗-时间依赖中国邮路问题的图转换算法 [J], 陈加萍;孟宪超;孙景昊;谭国真
4.时变网络中国邮路问题的时间自动机模型 [J], 谭国真;孙景昊;王宝财;姚卫红
5.用神经网络求解时间依赖网络最短路径问题的新算法(英文) [J], 贺红;朱大铭;马绍汉
因版权原因,仅展示原文概要,查看原文内容请购买。
中国邮递员问题

(割边)
FE算法复习:
(1)任取 v0属于V(G),令W0=v0. (2)设行迹Wi=v0v1v2…vi已选定,则从E(G)-E(W)中 选一条边ei+1,使得ei+1与vi相关联,且非必要时, ei+1 不要选G-E(W)的桥(所谓桥是一条删除后使连通图 不再连通的边)。 (3)反复执行(2), 直至每边e属于E(G)皆入选为止。
情况2:加权图G中有奇次顶时中国邮路问 题的解法(某些边要通过两次)
解法步骤:设G是连通加权图 1)求G中奇次顶集合V0; 2)对V0中的每个顶对u,v,用Dijkstra算法求距离d(u,v); 3)构造加权完全图K|V0|,完全图中顶点即为V0中顶点,边uv 之权为d(u,v); 4)求加权图K|V0|的总权最小的完备匹配M。 5)在G中求M中同一边之端点间的最短轨。 6)把G中在(5)求得的每条最短轨之边变成同权倍边,得 Euler图G’. 7)用FE算法求G’的一条Euler回路W’,W’即为中国邮路。 实例探讨
中国邮递员问题--邮递员从选好邮件去投递,然后返回邮 局,必须经过由他负责的每条街道至少 一次,怎么走耗时最少?
情况 1:邮路可抽象为 Euler图,则所有路经过恰好一次。 情况 2:邮路抽象成的图 G中包含奇次顶。(有的路径需要 重复走)
情况1:仍要遵循一定规则走
定理6.3
若G是Euler图,FE算法终止时得 到的W是Euler回路。
本质:此算法能实现无重复边的一笔画,且
回到出发点。
证明思路 (1)证明是闭行迹。 (2)证明能够经过一切边。(反证不能经过一切边)
基本概念复习
行迹:各边相异的道路。 Euler行迹:在图G中含一切边的行迹。 Euler回路:含一切边的闭行迹。 Euler图:若G中存在Euler回路。
【软件学报】_随机算法_期刊发文热词逐年推荐_20140727

科研热词 随机算子 遗传算法 进化模式 转发连通 轨迹固定 访问模式 能耗利用率 网络流量监测 移动sink 渐近收敛性 流量数据采集 流量数据分析 最小覆盖集 时序 文件预取 数据采集 数据采样方法 数据竞争 数据包抽样 操作系统 异构无线传感器网络 度约束最小生成树 并发i/o 差分演化 嫁接 大象流 多线程 压缩映射 剪接 传感器网络 linux i/o性能 hidden markov模型 d-left哈希
2012年 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
科研热词 推荐指数 高维数据 1 集成学习 1 隐私保护数据发布 1 随机漫步 1 随机游走 1 随机投影 1 随机任务 1 邻域比较 1 计算机网络 1 蚁群算法 1 脆弱水印 1 能耗管理 1 聚类 1 网络聚类 1 网络编码 1 绿色云计算 1 簇结构 1 篡改检测 1 等价置换弧 1 理论分析 1 熵最大化准则 1 支持向量机分类器 1 搜索 1 排队论 1 拓扑 1 抗扰动 1 对等网流媒体 1 安全邻域 1 大规模多智能体系统 1 复杂网络特性 1 复杂网络 1 协同控制 1 位置敏感哈希 1 传输算法 1 传输模型 1 任务调度 1 不一致图像块 1 svm classifier 1 random projection 1 peer-to-peer 1 locality sensitive hashing 1 k邻域 1 jpeg图像 1 high-dimensional data 1 entropy maximizing criterion 1 c-近似最近邻查询 1 c-approximate nearest neighbor1 query
中国邮递员问题算法

G-E(C)仍然无奇数度结点。
?
由于G是连通的,C中应至少存在一点v,使G-
E(C)中有一条包含v的回路C′。(见示意图)
2019/7/8
计算机学院
7
C
v
C'
这样,就可以构造出一条由C和C′组成的 G的回路,其包含的边数比C多,与假设矛盾。 因此,C必是Euler回路,结论成立。
2019/7/8
计算机学院
类似于无向图的讨论,对有向图我们有以下 结论: 定理13-1.2 ⅰ)有向连通图G含有有向欧拉道路,当且仅当
除了两个结点以外,其余结点的入度等于出度, 而这两个例外的结点中,一个结点的入度比出 度大1,另一个结点的出度比入度大1。 ⅱ)有向连通图G含有有向欧拉回路,当且仅当G 中的所有结点的入度等于出度。
计算机学院
16
显然,当这个图是欧拉图时,任何一条欧拉回路都 符合要求;当这个图不是欧拉图时,所求回路必然要重复 通过某些边。
对此,管梅谷曾证明,若图的边数为m,则所求回 路的长度最小是m,最多不超过2m,并且每条边在其中 最多出现两次。中国邮递员问题,一般为在带权连通图 中找一条包括全部边的且权最小的关回键路是。:复制哪些边?
V6
d(V2,V5)=3, d(V3,V5)=4
G
各路径:V1V2(3),V3V5(4)—7
V1V3(5),V2V5(3)—8
V1
V1V5(4),V2V3(2)—6
∴两条长度最短P1=V1V7V5,P2=V2V3
3.构造G’的任一E图就是中国邮递员 V6
问题的解。
G′
V2
3
2
1 3
3 6
V3
3
V7
7
第三节Euler图和Hamilton图的应用-PPT课件

• 若 G 是欧拉图,那么每一条欧拉闭迹即为一 条最佳邮路。
• 若不是欧拉图,则在每条邮路中必有边重复。 在 G 中将边e 用k 条重边代替且每一边都赋权 W(e),这样的过程称为加重边。 • 易证可以用加重边的方法使任何连通图 G转 变成欧拉图
Euler 图 和 Hamilton 图
• 求最佳邮路的问题可转化为下列两个问题:
Euler 图 和 Hamilton 图
• 一个最直接的想法是将n阶完全图的(n-1)! 个哈密尔顿圈全部排列出来,依次比较它 们的权的大小。但这种想法在实际上是行 不通的。因为随着n的增大,计算量将急 剧增加,即使是大容量高速计算机也无法 处理。 • 旅行推销员问题的有效算法到底存在还是 不存在?这是当今数学界的一个著名难题。
2 2 2 1 1 1 2
1 3
Euler 图 和 Hamilton 图
• 中国邮递员问题是由我国的管梅谷教授 在1960年首先提出的。 • 用图论的语言, 这一问题可表述为: 在一 个赋权连通无向图 G 中,求一个权和最 小的包含每条边至少一次的闭通路。这 样的闭通路简称为最佳邮路。
Euler 图 和 HБайду номын сангаасmilton 图
Euler 图 和 Hamilton 图
第三节 Euler图和 Hamilton 图的应用
中国邮递员问题 邮递员从邮局出发,到他所负责的地 段投寄信件。地段中的每条街至少经过 一次。问应怎样选择投寄路线使所走的 路程最短?
Euler 图 和 Hamilton 图
2 1 1 2 3 2 2 1 1 1
Euler 图 和 Hamilton 图
v1 5 v2 5
2
v8 3 v9 4
4
邮递员问题

关于中国邮递员问题的最优完全子图算法李念祖(上海第二工业大学经济管理学院,上海201209)摘要:利用线图的概念,把中国邮递员问题转化成求顶点赋权图的最优完全子图的问题关键词:最优邮递路线;最短路;最优匹配;线图;最优完全子图中图分类号:O157、5 文献标识码:A 文章编号:1000.5137(2006)04-0026-04 O 引言一个邮递员的工作是:在邮局里挑选出他所负责的街区的各条街道的邮件,并按一定次序加以排列,然后按一定路线递送这些邮件,最后返回邮局.自然,邮递员必须走过他负责的街区的每一条街道至少一次,并希望选择一条总路程最短的递送路线.寻找这样的一条最短递送路线的问题,在国际学术界称之为中国邮递员问题,因为它首先是由中国数学家提出并加以研究的.用图论的语言来描述中国邮递员问题,就是:设在边带权的有限连通赋权图G:( ,E)中,各条边ei∈E的权Z(e )≥0;G中任意一条包含G的每条边至少一次的闭链W:roe ⋯enuo.称为G的一条环游,其权z( )定义为z(W)=Σz(ei).则中国邮递员问题就是在G中求一条具有最小权的环游i‘。
一= 1W ,即:求环游,使得z( )=min z( ),是环游.这种环游称为G的最优邮递路线,或最优环游.1 预备知识对于没有奇点的连通赋权图G,可以利用Fleury算法求得G的一条最优邮递路线⋯.对于有奇点的连通赋权图G,1956年我国数学家管梅谷教授提出通常被称为“奇偶点图上作业法”的算法来求G的最优邮递路线J.1973年Edmonds和Johnson给出一个比较有效的算法,把求有奇点的连通赋权图的最优邮递路线问题转化为求最短路及最优匹配问题[3].本文作者把他们的算法叙述为下列J.定理1 设G=( ,E)是一个有2后个奇点(后>O)的连通赋权图,边e∈E的权为Z(e)≥0,所有奇点的集合为Vo= 。
,,⋯,}∈V.作以为顶点集的赋权完全图(G)=( ,E。
中国邮递员问题的整数规划模型

第19卷第6期 2010年12月系统管理学报Jo ur nal of Sy stems &M anag ementVol.19No.6 Dec.2010文章编号:1005 2542(2010)06 0684 05中国邮递员问题的整数规划模型冯俊文(南京理工大学经济管理学院,南京210094)摘要 基于无向图的传统中国邮递员问题,给出了相应的显式整数规划模型,应用整数规划软件包求解可以方便地确定相应问题的最优投递路线,进一步地,讨论了一类基于有向图的广义中国邮递员问题,给出了相应的显式整数规划模型;并研究了随机中国邮递员问题,建立了相应的确定型等价模型。
举例说明了各种模型的有效性。
最后,讨论了中国邮递员问题的可能推广及其建模问题。
关键词:中国邮递员问题;整数规划;最优化模型;赋权图中图分类号:F 224.3 文献标识码:AInteger Programming Modeling for Chinese Postman ProblemsFEN G J un w en(Scho ol of Econom ics and M anagement,Nanjing U niv ersity ofScience and T echno logy ,N anjing 210094,China)Abstract As far as the traditional Chinese Postm an Problem (CPP)is concerned,based o n the discus sions in the undirected and directed graphs respectively ,the co rresponding integer pro gramm ing m odels ar e proposed,some numerical ex am ples are g iv en to demo nstr ate the utility o f the models.Further more,the mo dels are ex tended to the case w ith stochastic w eights (the corresponding problem is called Sto chastic Chinese Postm an Problem).Finally,some possible generalizations o f the Chinese Postm an Problem ar e discussed briefly.Key words:chinese po stman problem ;integ er prog ramming;optim al model;w eighted g raph 收稿日期:2009 08 07 修订日期:2010 01 25基金项目:国家自然科学基金资助项目(79870030)作者简介:冯俊文(1960 ),男,教授,博士生导师。
关于中国邮递员问题和欧拉图应用

关于中国邮递员问题和欧拉图应用中国邮递员问题:1962年有管梅谷先生提出中国邮递员问题(简称CPP)。
一个邮递员从邮局出发,要走完他所管辖的每一条街道,可重复走一条街道,然后返回邮局。
任何选择一条尽可能短的路线。
这个问题可以转化为:给定一个具有非负权的赋权图G,(1)用添加重复边的方法求G的一个Euler赋权母图G*,使得尽可能小。
(2)求G*的Euler 环游。
人们也开始关注另一类似问题,旅行商问题(简称TSP)。
TSP是点路优化问题,它是NPC 的。
而CPP是弧路优化问题,该问题有几种变形,与加权图奇点的最小完全匹配或网络流等价,有多项式算法。
[1]欧拉图:图G中经过每条边一次并且仅一次的回路称作欧拉回路。
存在欧拉回路的图称为欧拉图。
无向图欧拉图判定:无向图G为欧拉图,当且仅当G为连通图且所有顶点的度为偶数。
有向图欧拉图判定:有向图G为欧拉图,当且仅当G的基图[2]连通,且所有顶点的入度等于出度。
欧拉回路性质:性质1设C是欧拉图G中的一个简单回路,将C中的边从图G中删去得到一个新的图G’,则G’的每一个极大连通子图都有一条欧拉回路。
性质2设C1、C2是图G的两个没有公共边,但有至少一个公共顶点的简单回路,我们可以将它们合并成一个新的简单回路C’。
欧拉回路算法:1 在图G中任意找一个回路C;2 将图G中属于回路C的边删除;3 在残留图的各极大连通子图中分别寻找欧拉回路;4 将各极大连通子图的欧拉回路合并到C中得到图G的欧拉回路。
由于该算法执行过程中每条边最多访问两次,因此该算法的时间复杂度为O(|E|)。
如果使用递归形式,得注意|E|的问题。
使用非递归形式防止栈溢出。
如果图是有向图,我们仍然可以使用以上算法。
/showproblem.php?pid=1116 有向图欧拉图和半欧拉图判定/JudgeOnline/problem?id=2337 输出路径中国邮递员问题①:一个邮递员从邮局出发,要走完他所管辖的每一条街道,可重复走一条街道,然后返回邮局。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t - e e d n ewo k i d p n e tn t r .wh r h ’ i n ” o ah itre t n i cu i1 Th x c rbe s lig a po c e o td me ee te ’ mig fec ne v n i s r ca. t o e e a tp o lm-ovn p r a h rp re
1 i s le yao 1 1 e r omuain o mp tt n l e ut a erp re n as t f n tn e n h s l h w a e s o db / i a r l o .C m v n f t u ai a rs l r o t o e o s c s dt er ut s o t t o s e d i a a e s h
a o m u a in rf r l t o
Cl s mb r TP3 1 6 a s Nu e 0 .
1 引言16 CP是 90年
相关 , 带时间窗的中国邮路 问题 ( P T E 9 C P W) -3 8 备受关 注, 成为一类重要的弧路 由问题 。 和很多传 统 的 中 国邮路 问题 一 样 , P TW 中 CP 弧 上 的旅 行 时 问被 认 为是 常量 。这 种 假 设 是 实 际 情况 很弱 的近似 。因为 , 多实 际 问题往 往具 有 时 许 变 特性 , 比如实 时系统 测试领 域 的时 间 自动机模 型 中_ 每个 状 态迁 移 发 生 前 的等 待 时 间依 赖 于 到 1 , 达该状 态 的时 刻 。这 样一 来 静 态 模 型求 得 的最 优 解往往 是 这 些 实 际 问题 的 次 优 解 , 至 是 不 可 行 甚
Ch n J a i g M e g Xi n h o S n J n h o Ta o h n e ip n n a c a u ig a n Gu z e
( c o l f m p trS in ea dTe h oo y S h o o C o u e ce c n c n lg ,DainUnv r i f c n lg ,Dain 1 6 2 ) l iest o a y Te h oo y l 1 0 3 a
理 论 上 证 明 了该 转 换 算 法 能 够 在 伪 多 项 式 时 间 内将 T C P D P TW 转 换 为 相 应 的广 义 乡 村 邮 路 问题 ( R P ; 后 , 立 了 一 G P )最 建
个 01 / 线性 整数规划模型用于求解转换后的问题 , 并对随机生成的 1 个实例进行了求解 实验 。 2
t i ag rt m sa g o o l O o t l o v h s l o ih i o d t o p i l s l e TDCP t ma y PTW .
K y Wo d t n o s t e r s i wid w , i me m ̄d p n e t C P, rp a s r ain g n r l e rl o t np o l e e d n , P g a h t n f m t , e e a z dr a p sma rb e 0 1l e r o o i u m, / n — i
Ab t a t Th s p p r s u is t e Ch n s o t n p o lm t i n o n i - e e d n e v n r v l s rc i a e t d e h i e e p sma r b e wi t h me wi d ws a d t me d p n e t s r ie a d ta e c tme ( CPP i s TD TW ) .Th s p o lm n e t n in o h a u i e e p sma r b e ,wh c S mo e a t a tv n t e i r b e i a x e so ft e fmo sCh n s o t n p o l m S ih i r tr c i e i h
大连 162) 10 3 ( 大连理工大学计算机科学 与技术学 院
摘
要
研 究时间依赖 网络上带时 间窗 的中国邮路问题 ( D P TW) 该 问题是 对中 国邮路 问题 的扩 展, T CP , 它考 虑了时
间因素 , 在实时软件测试等当前许多具 有时间依赖性质 的热 门问题 中更具优势。首先提 出了一个新的图转换算法 ; 然后 , 从
总第 20 5 期 21 0 0年第 8 期
计算机与数字工程
Co u e mp tr& Dii l gn e ig gt ie rn a En
Vo . 8 No 8 13 .
8 7
时 间 窗一 间依 赖 中国 邮路 问题 的 图转换 算 法 时
陈加 萍 孟 宪超 孙景 昊 谭国真
关键词 时 间 窗 ; 间 依 赖 ;中 国邮 路 问 题 ;图转 换 算 法 ; 义 乡 村 邮 路 问 题 ; / 整 数 规划 模 型 时 广 01
TP 0. 316
中 图分 类 号
A a f r a i n Ap r a h f r t i e e Po t a o lm t Tr nso m to p o c o he Ch n s s m n Pr b e wih Ti e W i o sBa e n a Ti e D e e e tD ie t d N e wo k m nd w s d o m — p nd n r c e t r