第十六章进行简单决策精品课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
圖16.1
功效等級與功效評定
即使已知代理人的喜好行為,功效原理也不能為代理人 定義個別的功效函數。很容易發現使用下列功效函數的 代理人會與使用U(S)的代理人有相等的行為,表示他們 有相同的信念: U’(S) = k1 + k2U(S) 評估功效的一項共同程序建立一個”最佳可能獎金”的 等級(scale),以U(S)=u┬表示。以及一個以U(S)=u 表示的”最差可能結果”。標準化功效(normalized utilities)的等級中,u=0,u┬=1。
16.7 決策理論專家系統
決策分析的領域發展於1950和1960年代,探討 決策理論在實際決策問題的應用。在賭注很高 的重要領域用於協助做合理的決策,例如商業、 政府、法律、軍事政策、醫療診斷和公共衛生、 工程設計、以及資源管理。程序中包括仔細研 究可能的行為和結果,以及對每項結果的喜好。
靈敏度分析特別重要的原因,也是將機率方法 用於專家系統最主要的批評之一即是評估必頇 的數值化機率困難度太高。靈敏度分析經常指 出很多數字只需定義到接近值即可--可能要經 由很詳細的分析才獲得一個值當中的0.2。有些 系統允許用範圍的方式給定機率,這造成行為 功效的範圍。若一項行為的範圍支配所有其他 範圍,則不再需要用其他機率評估。
優勢
假設機場用地S1成本較低,產生較少噪音污 染,而且安全性比S2高,則毫無猶豫就會拒 絕S2的提案。我們稱S1對S2有絕對優勢 (strict dominance)。圖16.2(a)是描述 有兩個屬性情況的概要圖。
隨機優勢最易於了解單一屬性的意義。假設在S1 設立機場,成本的標準分配大約是37億,標準 差為4億;設在S2的成本標準分配約為40億,標 準差為3億5千萬。圖16.3(a)說明這些分配,用 負值標示成本。
16.2
功能理論基礎
最大預期功效(Maximum Expected Utility, MEU)原則似乎是一個用於做決策的合理方法, 但明顯地它並非唯一合理的方法。畢竟,為什 麼將平均功效最大化有這麼特殊—為何不是把 可能功效的立方總和最大化,或詴著最小化最 壞可能損失?
理性喜好的限制
這些問題能藉著寫下一些對於理性代理人喜好 的限制而得到解答,同時證明MEU原理可從這 些限制推導。寫下這些限制是一種從語意上 定義喜好的方法。觀念上,對個別細微的狀 態給于喜好,則該理論可用於推導複雜決策 劇本( scenario)的喜好結果。如同複雜邏 輯敘述句的真值可由其中各元素定義的真值 推導,以及複雜事件的機率是由單一事件 (atomic event)的機率推導。
不同於將功效函數表現於狀態上,關聯於功效 節點的表格用來表示每個行為的預期功效,定 義於等式(16.1)。我們稱這種表為行為功效 表(action-utility table)。圖16.5顯示機 場問題的行為功效表示法。
評估決策網路
經由評估決策網路中各決策節點所有可能的設定而選擇合適的行為, 一旦設定決策節點,其行為則完全如同已被設定為證據變數的機會 節點。評估決策網路的演算法如下: 1.設定目前狀態的證據變數。 2.對每個決策節點的可能值: (a)為該可能值設定決策節點。 (b)用標準機率影響演算法 (standard probabilistic inference algorithm) 為功效節點的父節點計算後續可能性 (posterior probabilities)。 (c)計算該行為產生的功效。 3.傳回有最高功效的行為。
一個簡單的範例
假設一個石油公司希望買下n個無法區別的區 域之一的海洋鑽探權。進一步假設其中一塊 特定區域含有價值C元的石油,而每塊區域的 價格是C/n元。若該公司為風險中立,則對於 是否買一個區域並無任何偏好。 (課本P1624)
通用公式
將代理人目前的知識設為E。目前最佳行為的值被定 義為 EU(|E)=(Resulti(A))P(Resulti(A)|E, Do(A)) 而新的最佳行為的價值(在得到新證據Ej之後)是 EU(Ej|E, Ej)= (Resulti(A))P(Resulti(A)|E, Do(A), Ej) 找出Ej所需的價值可定義為 VPIE(Ej)=(( Ej=ejk|E)EU(|E, Ej=ejk))-EU(|E)
具有不確定性的喜好
若領域中具有不確定性,除了價值函數之外, 還需同時考量對於不同彩券喜好程度的結構, 並了解效能函數產生之結果的性質。 這個問題包含相當複雜的數學,因此我們只介 紹一項主要結果以了解我們能做到什麼。讀者 可以參考Keeney和Raiffa(1976)對該領域的 全面探討。
Biblioteka Baidu
16.5 決策網路
對於資訊價值的喜好
或許有人會問資訊是否可能有害 — 實際上可能有 負的期望值嗎?直覺上就可以判斷這不可能發 生。然而,可能在最糟狀況下會忽略資訊並假 裝從來不曾收到過這些資訊。由下列原理得證: 可用於任何決策理論的代理人,資訊的價值不 為負: j,E VPIE(Ej)0
資訊收集代理人實作
一個聰明的代理人應該以合理的順序詢問使用者 問題,避免問不相關的問題,應把各資訊片段 對應其成本的重要性列入考量,以及在適當的 時候停止問問題。所有這些能力皆可經由使用 資訊的價值作為引導而達成。圖 16.7 顯示一個 代理人的完整設計,可以在行為之前先有智慧 地收集資訊。
表示法通常稱為影響圖(influence diagram) (Howard and Matheson, 1984),但這裡將 使用更有說明意義的詞--決策網路 (decision network)。決策網路結合了信 念網路與額外的行為和功效節點形態。
使用決策網路表現決策問題
在最普遍的形態中,決策網路表現出代理人目前 狀態的資訊、可能的行為、該代理人之行為會 造成的狀態、以及該狀態的功效。決策網路因 此提供一個 2.3節介紹過的功效基礎(utilitybased)代理人的實行基礎。圖16.4顯示一個設 立機場問題的決策網路,並列出三種所使用的 節點形態: 機會節點(chance nodes)(橢圓形) 決策節點(decision nodes)(矩形) 功效節點(utility nodes)(菱形)
金錢的功效
功效理論有其經濟學上的根源,而經濟學提供 一個觀察功效評估的條件︰金錢(或更明確, 一個代理人的總資產)。金錢幾乎是全球通 用,可用來換取任何商品和服務,可知金錢 在人類功能函數中扮演一個重要的角色。
我們不該認定這是金融值的確定功效函數,但似 乎大多數人在有正資產時的功效函數是凹形曲 線。負債通常被視為是一種遺憾,但對於不同 負債程度的喜好會顯現出與正資產相對應的反 轉曲線。例如,一個負債一千萬美金的人很可 能接受有公正硬幣與一千萬彩金的賭局,若正 面向上就可贏得一千萬,若反面向上就輸兩百 萬。產生如圖16.1(b)的S形曲線。
最大預期功效( MEU, maximum expected utility) 原則指出一個推論代理人應該選擇會使代理人 的預期功效為最大的行為。 就某方面而言,MEU原則像是為所有AI下定義。 一個智慧代理人所要做的事就是計算不同的值, 使其行為達到最大限度,然後離開。但這並不 表示所有AI的問題已被這個定義解決了!
假設夏季我們在兩條泥土路之間選擇,因為道路因為雪 崩而受阻的情況不可能發生。比例上,衛星報告可能會 顯示出因為高山草原的關係,使其中一條路的風景比另 一條好,或是因為偏離原來路線的小溪而使路面顯得潮 溼。若得知這些資訊,計畫很可能會更改。但在這個例 子,兩條路之間的價值差異仍顯得很小,因此不需要麻 煩去獲得那份報告。這個情況表示於圖16.6(c)。
第十六章 進行簡單決策
16.1 16.2 16.3 16.4 16.5 16.6 16.7 在不確定的情況下結合信念與希望 功能理論基礎 功效函數 多重屬性的功效函數 決策網路 資訊的價值 決策理論專家系統
16.1 在不確定的情況下結合信念與 希望
近來在理科的教科書上越來越常談到功效 ( utility)而非良善或邪惡,但原則仍相同。 功效函數( utility function)擷取代理人對 這整個世界狀態的偏好,功能函數則用單一的 數字表現一個狀態的好處。為了要給每項行為 一個預期功效,所以要結合行為的功效與結果 機率。
下列六種限制被視為功能理論的原理,為喜好 和彩券定義最明顯的語意限制。 有序性(Orderbility) 遞移性(Transitivity) 連續性(Continuity) 替代性(Substitutability) 單調性(Monotonicity)
解構性(Decomposability)
…然後有功效
從考慮沒有不確定性的行為所產生的結果開始, 我們只需考慮實際結果之間的喜好。在這種狀 況下,喜好結構的基本規律被稱為喜好獨立 ( preference independence)。 若 結 果 <x1,x2,x3>和<x1’,x2’,x3>之間的喜好並非取決於 屬性 X3的特定值 x3,則稱屬性 X1和 X2在喜好上獨 立於第三項屬性X3。
喜好結構和多屬性功效
假設有n個屬性,每個屬性皆有m個可能值, 會產生一個可能結果的集合,大小為mn。最 糟狀況時,代裡人的功效函數根據這mn個狀 態產生一個喜好的任意集合,除了基本原理 所包含的功效之外沒有任何規律。假設大多 數功效函數都比較有結構,多屬性功效理論 允許使用簡化的決策程序。
沒有不確定性的喜好
人類判斷力與不可靠性
決策理論是一個規範立論:說明理性的代理 人應該怎麼做。若經濟理論同時也是一種描 述實際人類決策過程的理論,擇期應用將可 大幅度改進。
16.4 多重屬性的功效函數
做決策屬於公共政策領域,動輒包含數以百萬 計的金錢和生死。例如,決定讓何種程度的致 癌物質進入環境中,決策者必頇斟酌死亡的預 防以及因為排除某些產品和程序所造成的經濟 困境。諸如此類。這類問題的結果可用兩種或 更多的屬性將其特徵化 ( characterized), 並 用 多 屬 性 功 效 理 論 ( multiattribute utility theory)處理,或稱MAUT。
功效理論的原理並非對於功效的完整說明,而 是只談論到喜好。喜好被認定是理性代理人的 基本特性。功效函數的存在衍生自功效原理︰ 1.功效原則(Utility principle) 2.最大預期功效原則 (Maximum Expected Utility principle)
16.3
功效函數
功效是一個從狀態對應到真實值的函數。然 而這就是功效函數嗎?嚴格來說,沒錯。除 了稍早列出的限制之外,代理人可以有任何 喜好。例如,一個代理人可能偏好銀行帳戶 裡的金額為質數;在這個例子裡,若帳戶裡 有16元就捨棄3元。也可能較偏好一部有凹痕 的1973年福特Pinto,而非一輛嶄新的賓士。 喜好也能互相影響。
16.6 資訊的價值
資訊價值理論,讓代理人能選擇該獲得什麼資 訊。資訊的獲取是經由意識行為(sensing action),如同第13章所述。因為代理人的功 效函數很少引用到代理人內部狀態的內容,然 而意識行為的目的卻是影響內部狀態,必頇藉 由意識行為對於代理人隨後行為的影響來評估 意識行為。因此資訊價值理論是一種特殊的連 續性決策判斷。