离散型动态规划模型的知识表示及其IBFS算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第28卷 第3期1996年6月哈尔滨工业大学学报JOU RNAL O F HA RB I N I N ST ITU T E O F T ECHNOLO GY
V o l .28,N o.3June .1996离散型动态规划模型的知识表示
及其IBFS 算法研究
3
胡祥培 钱国明 胡运权
(管理学院) 文稿收到日期:1995212221
本文联系人:胡祥培,副教授 哈尔滨工业大学管理学院运筹学教研室(150001)
3国家自然科学基金资助项目,批准号:79400006
摘 要 针对运筹学模型表示中存在的问题,本文以离散型动态规划模型为研究对象,
从解决动态模型的知识表示与基于知识的推理机制入手,通过剖析动态规划问题的决
策过程及其状态演变特征,运用人工智能状态空间理论,将动态规划模型的求解转化为
状态空间图中最佳路径的搜索,提出了以六元组M =(I ,G ,O ,T ,D ,S )表示离散型动态
规划模型的知识表示方法-IGO TD S 表示法;并引入最优评价函数,研究了基于状态空
间图的求解离散型动态规划模型I BFS 搜索算法。
本文的工作有利于促进并深化运筹
学应用的知识化、智能化研究。
关键词 运筹学;动态规划模型;知识表示;人工智能
中国图书资料分类号 O 22213;T P 18
0 引言
动态规划是运筹学规划论的一个重要分支,并已在动态系统的最优控制及经济管理等领域得到较为广泛的应用。
然而,目前常用的以程序或子程度方式描述并存储动态规划模型的表示方法(机内表示法)严重阻碍了动态规划理论的进一步发展和应用,它存在四个主要问题[1]:(1)模型、算法、数据不独立,难立实现模型的聚集与集合、修改与扩充。
(2)缺乏描述状态转移规划与领域知识的能力,缺乏基于知识的推理机制,使得符号化知识的推理与处理工作至今仍不能在计算机中实现。
(3)难以恰当表示具有动态随机特征与状态转移特征的规划模型。
(4)缺乏描述建模知识的能力和建模支持机制,很难适应由实际问题至数学模型、最终至机内求解模型之间的转化,使得动态规划及其它运筹学理论难以解决非结构化和半结构化决策问题。
近年来的研究表明,要实现模型、算法、数据的建立,并具备符号化知识的处理与推理能力以及建模支持与模型自动生成能力,且能反映动态的状态演变特征,动态规划模型在计算机中的表示必须基于知识,即引入人工智能与知识工程的知识表示理论,寻找出适合于动态规划模
型本身特点的模型知识表示法(know ledge rep resen tati on fo r m odel )。
这里的模型知识表示,就是以数学模型为知识对象,对数学模型的有关知识(数据、算法与搜索推理策略等)在知识系统的全局数据库GDB 和规划库RB 等结构上所进行的映射。
常用的知识表示法有逻辑、语义网、过程以及框架等,它们都有各自的侧重点和优缺点;都在各自有限的范围和条件下使用,数学模型知识与其它问题域知识相比,在数据结构和推理方法等方面又有其特殊性,上述知识表示法还难以满足模型知识表示的要求。
因此,国内外学者从80年代初已开始对模型的知识表示问题进行了一系列较为深入的研究[2~10],在模型要素的独立性、关联性、推理能力与符号化知识的处理方面已取得了较大进展。
但是,符号化知识的推理与处理能力还有待于进一步提高,动态模型的知识表示问题至今未根本解决,现有的模型知识表示方法还难以恰当表示动态转移特征和递推关系式,而动态规划模型乃至其它运筹学模型的求解中由一个解至另一个解的迭代过程都呈现出这一动态的转移特征。
因此,动态规划模型的知识表示研究对于促进和深化运筹学领域模型表示与生成的知识化和智能化具有重要意义。
当前,动态规划模型大多采用逆序算法进行求解,求解过程中由于涉及到代数函数的代换推导、符号化导数和极值的求解等一些基于知识和智能的推理和处理过程,因此,目前在计算机上仅能对固定阶段固定状态的动态规划模型求出它的数值解,至今国内外还没有编制出求解动态规划模型的通用软件。
这就迫切需要对动态规划模型在计算机中的求解算法进行深入研究。
动态规划模型按照状态变量取值的连续性,可划分为离散型动态规划模型和连续型动态规划模型这两大类。
它们的模型结构以及求解模型的原理相同,但解题思路存在一定的差异。
本文主要针对经济管理领域比较常用的离散型动态规划模型,研究其基于知识的模型表示方法与搜索算法。
1 动态规划模型的构成及决策过程的状态演变剖析
111 动态规划模型的构成
动态规划模型由七部分构成[11]:①阶段的划分;②各阶段的状态变量x k ;③各阶段的决策变量u k ;④允许决策集合D k (x k );⑤状态转移方程:
x k +1=T k (x k ,u k )
(1)⑥递推关系式(递推方程):
f k (x k )=Op t u k ∈D k (x k )Τk (x k ,u k )+f k +1
(x k +1)(2)⑦边界条件。
在动态规划模型中,具有动态特性的状态转移方程及递推关系式是模型知识表示中难以描述的两个模型要素。
此外,动态规划模型求解过程中涉及的代数函数的代换推导等一些基于知识和智能的推理和处理操作,是导致许多动态规划模型至今还不能在计算机上进行求解的重要原因。
要在计算机上真正实现动态规划模型的求解,必须寻找出具有推理机制并能描述动态的状态转移特征和递推关系的模型知识表示法及其求解算法。
因此,需要深入分析动态规划问题决策过程的状态演变特征。
112 动态规划问题的决策过程及其状态转移图
动态规划问题的决策过程是,从初始状态出发,在每一阶段初从对应的若干种可供选择的
・021・ 哈 尔 滨 工 业 大 学 学 报第28卷
方案中做出决策,并采取相应的操作;根据问题的状态转移规律,使决策进程从一种状态转移到后一阶段的另一种状态,依次重复这一步骤,最终达到最后一阶段的目标状态。
各阶段的决策所形成的决策序列(u 1,u 2,…,u k ,…u n -1,u n )构成一种策略。
动态规划问题的决策所追求的
目标是从初始状态至最终状态之间的各种策略之中选取一种最优策略(u 31,u 32,…u 3k ,…,
u 3n ),使得在预定标准下获得最好的决策效益值。
动态规划问题的状态集合可以形成一个状态空间。
由于离散型动态规划模型的状态变量取值是离散的,各阶段可能存在的状态有限,因此离散型动态规划问题的决策过程在状态空间中可形成图1所示的状态转移图。
状态转移图(State tran siton diagram )是描述问题的状态空间及状态转换规律的一种网络图,它由节点和边两部分构成,节点表示问题求解过程中可能发生的情景或状态,边表示从一种状态转换到另一种状态需要进行的操作,边的权系数就是对应的阶段指标函数值。
图1中用谓词state (stage ,po in t )表示各阶段的状态,谓词operate (stage ,po in t ,acti on )表示某阶段某一状态时采取的操作。
图1 离散型动态规划模型的状态转移图
F ig .1 T he state transiti on diagram of discrete dynam ic p rogramm ing model
由动态规划问题的决策过程可知,动态规划模型的求解可以看成是从状态转移图的初始状态出发,经过决策选用可用的操作,依次在各阶段之间进行状态的转移,直至达到最终状态—目标状态,并且要求使整个决策过程的效益值最优。
也就是说,动态规划模型的最优解对应于状态转移图中从初始节点到目标节点之间的一条最佳路径,即最佳操作序列。
可见,求解动态规划模型的最优解就相当于在状态空间图中找出一条从初态至目标状态的最佳路径。
因此,动态规划模型的求解可以转化为状态空间图中最佳路径的搜索,这样,就可以借鉴人工智能的状态空间理论来描述动态规划模型。
2 离散型动态规划模型的知识表示法—IGO TD S 法
211 离散型动态规划模型的IG OT D S 表示法
人工智能中状态空间方法描述状态空间搜索问题的三要素为:(1)初始状态的集合I ;(2)算符与重写规划集合F ,即从一种状态变换为另一种状态的运算及变换规划;(3)目标状态集合G 。
虽然状态空间理论能有效地表示和求解状态空间问题,但是,状态空间的三要素表示体
・121・第3期胡祥培等:离散型动态规划模型的知识表示及其I BFS 算法研究
系还难以描述动态规划模型,因为它还难以描述动态规划模型的三个模型要素:(1)递推方程;(2)阶段指标函数和边界条件;(3)推理与搜索策略,由于不同类型的动态规划模型的推理与搜索策略是不同的,在模型知识表示中应考虑这一要素。
根据动态规划模型的特点,在状态空间三要素表示体系的基础上,本文提出一种描述动态规划模型的新方法—IGO TD S 法。
定义1 一个离散型动态规划模型M 可以表示为一个六元组:
M =(I ,G ,O ,T ,D ,S )
(3)其中:I —初始状态(in itial state )的集合,用于描述状态转移图的初始节点;
G —目标状态(goal state )的集合,用于描述状态转移图的目标节点;
O —状态转换的操作(operate )集合,用于描述动态规划模型的允许决策集合;
T —状态转换(tran siti on )规划的集合,用于描述动态规划模型的状态转移方程;
D —基本数据(data )的集合,用于描述阶段指标函数和边界条件等;
S —在问题的状态空间中寻找最佳路径(动态规划模型最优解)的搜索与推理策略(search and inference po licy )的集合,用于描述动态规划模型的递推方程以及基于R .B ell m an 最优化原理的模型求解搜索与推理策略;
用六元组M =(I ,G ,O ,T ,D ,S )表示离散型动态规划模型的方法称之为离散型动态规划模型的IGO TD S 表示法。
在六元组M =(I ,G ,O ,T ,D ,S )中,集合I 、G 、O 、D 用一阶谓词描述,集合T 和S 均采用产生式规划(p roducti on ru le )来描述。
212 IG OT D S 表示法举例
例1 投资决策问题:某公司准备投入3千万元资金对所属3个工厂进行技术改造,投资金额分为0、1、2、3千万元四种额度,经测算得知,每个工厂的投资额与技术改造之后每年新增的效益如下表所示(表1):
表1 投资与年新增效益表 单位:千万元投资额工厂
0123工 厂 1
0015112210工 厂 2
0014113212工 厂 30016114118
问如何在3个工厂之间进行投资分配,使得总的年新增收益值最大?
这是一个三个阶段的动态规划问题,其数学模型如下:
(1)投资的划分:设k 为阶段变量。
将确定工厂k 投资额的决策定为第k 阶段,k =1,2,3。
(2)各阶段的状态:状态变量用x k 表示,k =1,2,3。
本例中状态变量的取值为各阶段初可用的投资资金额。
(3)各阶段的决策变量:第k 阶段的决策变量用u k 表示(k =1,2,3),其值表示对工厂的投资额。
(4)允许决策集合:D k (x k )={0,1,2,3}∩{0≤u k ≤x k }
(5)状态转移方程:x k +1=x k -u k ,k =1,2,3。
(6)递推关系式:f k (x k )=m ax u k ∈D k (x k ){Τk (x k ,u k )+f x +1(x k +1}
其中Τk (x k ,u k )为阶段指标函数,本例中其值为k 阶段工厂k 的年新增效益值。
(7)边界条件:f 4(x 4)=0
上述动态规划数学模型可用IGO TD S 表示法进行描述。
用谓词ow n (stage ,m oney )表示
・221・ 哈 尔 滨 工 业 大 学 学 报第28卷
某阶段初拥有投资资金额;用谓词invest (stage ,m oney ,num ber 2of 2invest )表示某阶段stage 拥有的投资资金数量为m oney ,而对相应的工厂进行投资所采用的投资额为num ber 2of 2in 2vest ;用谓词V (stage ,m oney ,num ber of invest ,value 2of 2stage )表示对应于某阶段某种状态采用某种投资额所获得的阶段指标函数值(一个阶段的效益值);用谓词f (stage ,m oney ,val 2ue 2of 2p rocess )表示对应于某一阶段的某种状态选取最优投资子策略之后得到的过程的指标函数值(即最优指标函数值)。
则例1中的离散型动态规划模型可描述为:
(1)初始状态集合:
ow n (1,3)。
(2)目标状态集合:
ow n (4,0)。
(3)操作 决策集合:
invest (1,3,0)……invest (3,0,0)1
(4)状态转换规划集合33:
33不同的程序语言表示规划的形式可能不同,p ro log 语言采用ow n (2,3):-invest (1,3,0)的形式表示规划。
IF invest (1,3,0)TH EN Ow n (2,3).……IF invest (3,0,0)TH EN Ow n (4,0).
(5)基本数据集合:
V (1,3,0,0).……V (3,0,0,0).f (4,0,0).
(6)搜索与推理策略集合。
例1属于离散型动态规划问题。
其模型求解的搜索与推理策略将采用一种名为I B FS 的搜索算法,它用产生式规划描述,在动态规划模型求解系统中起着推理机的作用,下面对此进行研探。
3 离散型动态规划模型的搜索算法-I B FS 算法
人工智能与知识工程领域常用的搜索技术有深度优先搜索、宽度优先搜索、最佳优先搜索及A 3算法等。
根据运筹学动态规划模型逆序算法的递推规律及其状态演变特征可知,求解离散型动态规划模型的递推过程与人工智能中的宽度优先搜索过程十分相似,它是按照阶段的逆序,在完成某一阶段各种状态可能的计算之后,将求解计算过程转向下一阶段,在求解次序上也呈现以“阶段”为层次纵向发展的特征。
因此,离散性动态规划模型的求解搜索可以借鉴宽度优先搜索地策略。
但是,宽度优先搜索技术不能直接用于动态规划模型的搜索求解,其原因是:求解动态规划模型所采用的R .B ell m an 的最优化原理要求无论决策过程的先前状态和决策如何,对于前面所形成的状态而言,余下的诸决策必构成一个最优子策略[11],这一要求反映到搜索空间上,就要求做到任意节点出发,从该节点至目标节点的行走路径必须是最优路径;也就是说,求解动态规划模型的搜索策略在状态空间图中所形成的搜索树必须是一棵最优树,
而宽度优先搜索算法不能满足这一要求。
为此,需引入评价函数p k (x k ,u k )和最优评价函数p 3k
(x k ),并建立如下函数关系:
P k (x k ,u k )=Τk (x k ,u k )+p 3k +1(x k +1)
(4)p 3k (x k )=op t u k <D k (x k )[p k (x k ,u k )]
(5)・321・第3期胡祥培等:离散型动态规划模型的知识表示及其I BFS 算法研究
f k (x k )=p 3k (x k )(6)
其中:p k (x k ,u k )为k 阶段状态x k 之决策u k 所对应的的评价函数,Τk (x k ,u k )为动态规划问题的阶段指标函数,f k (x k )为最优指标函数。
当某一子节点有多个父辈节点时,需要分别计算多种路径的p k (x k ,u k )值,从中选取最优者p 3k
(x k ),并得出最优指标函数f k (x k )之值,并以此来确定子节点至父辈节点之间路径的指针。
可见,离散型动态规划模型的搜索策略需要结合动态规划模型的特点,以宽度优先搜索方法为基础,建立其相应的搜索算法。
由于这一算法是在宽度优先搜索基础上经过改进而提出的,因此称之为I B FS 算法(i m p roved b readth 2first search )。
根据R .B ell m an 的最优化原理可知,动态规划模型的I B FS 搜索算法应从状态转移图的目标节点(终点)开始依次向前逆序递推搜索,直到初始节点(起点)为止,找出从终点到起点的一条最佳路径,这样,求解离散型动态规划模型的搜索步骤如下:
(1)确定搜索的出发点:将状态转移图的目标节点作为搜索起点,以此进行搜索推算。
(2)扩展节点:从选定的搜索出发点出发,以此节点作为“父辈节点”,根据动态规模模型
IGO TD S 表示法中的状态转移规划,推算出作为前提条件导致
“父辈节点”产生的所有节点,并称这些节点为“子节点”。
但刚扩展的节点不是搜索起点和搜索终点时需要重复这一过程,依次扩展与“父辈节点”处于同一阶段的其它节点,推算出所有子节点。
(3)计算子节点的最优指标函数值:根据六元组M =(I ,G ,O ,T ,D ,S )中O 、T 、D 三集合之间操作、阶段指标函数值、状态转移三者之间联系,将子节点与父辈节点之间对应的阶段指标函数值Τk (x k ,u k )与父辈节点的最优指标函数值f k +1(x k +1)相加,依次求得子节点的评价函
数p k (x k ,u k )和最优评价函数p 3k (x k )以及最优指标函数值f k (x k )。
当然,若子节点有多个父辈
节点,需分别进行上述计算,选取最优者p 3k
(x k )作为该子节点的最优指标函数值f k (x k )。
(4)设定路径指针:以p 3k (x k )对应的路径作为最优路径,设立一个从子节点返回其父辈节
点的指针,以便指出一条回到搜索起点的路径。
(5)判别子节点是否为搜索终点(状态转移图的起点):若某子节点是搜索终点,则沿着有关指针可以从搜索终点回朔到搜索起点,产生一条解答路径;若所有子节点均不是搜索终点,则选取一个子节点作为待扩展节点,重复上面(2)至(5)的搜索过程,直到找出搜索终点为止。
本文用T u rbo P ro log 语言编制了离散型动态规模模型I B FS 算法的程序,并通过建立动态规划模型的产生式求解系统,采用积木化建模技术将IGO TD S 表示法的六个集合(程序模块)组合成一个动态规划模型的机内求解模型(可执行的模型求解程序)。
现已在微机上实现了例1所示问题以及一服务网点布局问题的模型知识表示与模型求解。
4 结论
(1)本文提出的以六元组M =(I ,G ,O ,T ,D ,S )描述动态规划模型的知识表示方法,较方便地实现了动态模型的知识表示,使运筹学中具有复杂模型要素的动态规划模型拥有了良好的模块化结构,使计算机求解动态规划模型具备了基于知识的推理能力,为模型生成的集成化、模型求解的智能化创造了条件。
(2)本文提出的基于状态空间图的I B FS 搜索算法,使计算机可以很好地完成离散型动态规划模型的求解过程。
这种把“动态规划模型的求解”转化为“状态空间图中最佳路径的搜索”
・421・ 哈 尔 滨 工 业 大 学 学 报
第28卷
的求解方法,建立了具体模型至状态空间图的映射与转化关系,密切了动态规划与图论之间的联系。
I B FS 搜索算法将模型求解中的搜索树变为最优树,实现了在状态空间图中动态规划模型的逆序求解,这是对人工智能宽度优先搜索与最佳优先搜索算法在解决动态规划这类问题上的改进与扩充。
本项研究有利于促进并深化运筹学及D SS 模型表示与生成的知识化、智能化研究。
参考文献
1 胡祥培等.运筹学模型知识表示的发展与研究对策.第三届全国青年管理科学与系统科学学术会议论文集《管理科学与系统科学进展(第3卷)》.上海交通大学出版社,1995
2 Robert H Bonczek ,Ho lsapp le C W ,W h inston A B .A Generalized D ecisi on Suppo rt System U sing P redicate Calculus and
N etwo rk D ata Base M anagem ent .Operati ons R esarch .1981,29(2):263
~2813 D aniel R .Do lk ,Benn R Konsynsk i .Know ledge R ep resentati on fo rM odelM anagem ent System s .IEEE T rans .on Softw are Engineering ,1984,SE -10(6)
4 Phelp s R I .A rtificial Intelligence -A n overview of si m ilarities w ith O .R .Joum al of Operati onal R esearch Society ,1986,37(1):13~20
5 M argaret M Sk lar .E licting Know ledge R ep resentati on Schem a fo r L inear P rogramm ing Fo r m ulati on .Operati ons R e 2
search and A rtificial Intelligence :the Intergrati on of P roblem -Sloving Strategies ,Edited by Donald E .B row n ,K luw er
A cadem ic Pubishers ,1990,279
~3166 Sa N eung Hong ,M ichael V M anino ,Betsy S Greenberg .Inheritance and Instantiati on in M odelM anagenent .P receedings
of the Tw enty -th ird A nnual H aw aii Internati onal Conference on System Sciences ,V o l
. ,IEEE Computer Society P ress ,L o s A lam ito s ,Califom ia ,1990,424
~4327 张宏军,方舵.论模型表示法.计算机工程与应用,1988,(11)
8 于晓迪.D SS 中的模型表示与模型库.计算机科学,1990,(4)
9 汪时萍,夏安邦.用谓词和关系框架构造模型.系统工程理论与实践,1990,(4)
10 王红卫,费奇.决策支持系统中的模型知识化.系统工程理论与实践,1993,(6)
11 胡运权.运筹学基础及应用.哈尔滨工业大学出版社,1993,170~187
・521・第3期胡祥培等:离散型动态规划模型的知识表示及其I BFS 算法研究
A Research on the Knowledge Represen tation for D iscrete D ynam ic Programm i ng M odel and Its IBFS A lgor ith m
H u X iangp ei Q ian Guo m ing H u Y unquan
(Schoo l of M anagem ent )
Abstract A cco rding to the p rob lem s w h ich ex ist in the rep resen tati on of Operati on s R e 2search (OR )m odel ,th is paper focu ses on D iscrete D ynam ic P rogramm ing M odel (DD PM )to so lve such p rob lem s as know ledge rep resen tati on fo r dynam ic m odel and its know ledge 2based inference m echan is m .H aving analysed the decisi on p rocedu re of a dynam ic p rogramm ing p rob lem ,w e know that the so lu ti on p rocedu re of a D ynam ic P rogramm ing M odel can be tran sfo r m ed in to a search ing operati on fo r the op ti m al p ath in its state 2space diagram .A pp ly 2ing the state 2sp ace theo ry of A rtificial In telligence (A I ),a know ledge rep resen tati on fo r DD PM ,nam ed IGO TD S m ethod w h ich u ses sex tup le M =(I ,G ,O ,T ,D ,S )to describe the m odel ,is p resen ted in th is paper .T he I B FS search algo rithm to so lve DD PM based on the state tran sti on diagram has been studied by m ean s of m ak ing op ti m al evaluati on functi on s .T h is research is beneficial fo r avdvancing and deep en ing the research in the developm en t of know ledgeab lizati on &in tellectualizati on fo r the app licati on s of OR .
Key words Operati on s research ;dynam ic p rogramm ing m odel ;know ldege rep resen tati on ;ar 2tificial in telligence ・621・ 哈 尔 滨 工 业 大 学 学 报第28卷。