基本概述
近年來,隨著互聯(lián)網(wǎng)上Web 服務(wù)的大量出現(xiàn),提供相同功能的Web 服務(wù)也越來越多,但這些Web 服務(wù)在非功能屬性上仍然存在差別。如何在這些服務(wù)中進(jìn)行合理的選擇,對成功地構(gòu)建面向服務(wù)應(yīng)用(service oriented applications)具有非常重要的意義,是一個極具挑戰(zhàn)性的問題。
目前,針對Web 服務(wù)選擇的研究,大都是基于QoS (quality of service)模型的。QoS 的性能指標(biāo)包括執(zhí)行時間、費(fèi)用、服務(wù)可靠性、有效性、用戶滿意度等,此外,還可能有一些特定領(lǐng)域的其他屬性。一個用戶可決定挑選最便宜的或最快的服務(wù),或者是多QoS 目標(biāo)的折中。文獻(xiàn)[4]根據(jù)工作流任務(wù)的結(jié)構(gòu)特點(diǎn)對其進(jìn)行分區(qū),按照任務(wù)量和通信量將總工作流截止日期和總工作流花費(fèi)分為每個任務(wù)分區(qū)上的子截止日期和子花費(fèi),在考慮用戶多個QoS 要求及工作流任務(wù)間通信時間的基礎(chǔ)上,提出基于信任與花費(fèi)的綜合效益函數(shù),給出信任與花費(fèi)權(quán)值的確定方法以及一個以綜合效益最優(yōu)為目標(biāo)的調(diào)度算法—TCD,算法通過追求局部最優(yōu)達(dá)到全局多目標(biāo)優(yōu)化調(diào)度。文獻(xiàn)[6]提出了一個在滿足截止日期的約束下追求最小花費(fèi)或在滿足花費(fèi)的約束下追求最短執(zhí)行時間的單目標(biāo)優(yōu)化調(diào)度算法。還有的方法,生硬地為QoS 的各個性能指標(biāo)賦予相應(yīng)的權(quán)重,形成一個單目標(biāo)函數(shù)來求解。還有的方法以用戶的歷史經(jīng)驗(yàn)為基礎(chǔ)計算用戶之間的相似程度,根據(jù)其他用戶的經(jīng)驗(yàn)對某個用戶的決策做出指導(dǎo)。
這些方法雖然都考慮到了用戶多QoS 要求,但沒有考慮到不同用戶的不同側(cè)重點(diǎn),如:有的用戶寧愿花費(fèi)更多的錢去享受更快的Web 服務(wù);有的用戶不在乎服務(wù)的快慢,但希望花費(fèi)少些;有的用戶更加注重該服務(wù)的口碑(用戶滿意度)等。
基于貝葉斯決策的多QoS 目標(biāo)的Web 服務(wù)選擇策略是在已有的具有相同功能的服務(wù)集的基礎(chǔ)上,選擇最可能讓自己滿意的一個Web 服務(wù)來執(zhí)行。該策略將機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典方法:貝葉斯決策理論,運(yùn)用到Web 服務(wù)的選擇中來,可以充分利用用戶自己的經(jīng)驗(yàn)庫(即自己曾經(jīng)選擇的Web 服務(wù)的QoS 信息及是否令自己滿意),學(xué)習(xí)自己以往的經(jīng)驗(yàn),做出更可能讓用戶滿意的選擇。
選擇策略不同的用戶眼中的最優(yōu)Web 服務(wù)是不同的,有的用戶更在乎執(zhí)行時間,有的用戶更在乎費(fèi)用,有的用戶更在乎服務(wù)的用戶滿意度。但對于同一個用戶來說,它的興趣一定遵循同一概率分布的。用戶曾經(jīng)選擇的 Web 服務(wù)及當(dāng)時對該服務(wù)是否滿意的集合,即“經(jīng)驗(yàn)庫”中隱含著自己的偏好信息。基于貝葉斯決策的多QoS 目標(biāo)的Web 服務(wù)選擇策略,利用貝葉斯決策理論,在用戶自己的經(jīng)驗(yàn)庫中進(jìn)行學(xué)習(xí),進(jìn)而做出更可能讓用戶滿意的選擇。
2.1貝葉斯理論介紹
貝葉斯理論是一種運(yùn)用概率手段來進(jìn)行推理的方法,被廣泛用于機(jī)器學(xué)習(xí)領(lǐng)域。它基于如下的假定,即待考查的量遵循某概率分布,且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進(jìn)行推理,以作出最優(yōu)的決策。它通過對已知分類數(shù)據(jù)的學(xué)習(xí),來預(yù)測訓(xùn)練數(shù)據(jù)的分類。作為一種基于概率的統(tǒng)計學(xué)習(xí)和決策理論框架內(nèi)的基礎(chǔ)方法,貝葉斯理論已得到了廣泛的應(yīng)用。
2.2 模型的建立
該方法以消費(fèi)者的歷史經(jīng)驗(yàn)為基礎(chǔ),通過概率統(tǒng)計的手段,計算出消費(fèi)者并未使用過的Web 服務(wù)能讓自己的滿意程度?;谪惾~斯決策的多QoS 目標(biāo)的Web 服務(wù)選擇策略的過程如圖1 所示,主要分為以下幾部分。
(1)當(dāng)用戶要執(zhí)行某個活動時, 首先列出這個活動對應(yīng)的所有具有相同功能的Web 服務(wù)以及各服務(wù)的QoS 性能指標(biāo)。.
(2)利用貝葉斯決策模型和自己的經(jīng)驗(yàn)庫,計算各個Web 服務(wù)可能讓自己滿意的概率。
(3)挑選其中讓自己滿意概率最大的Web 服務(wù)。
(4)選擇該Web 服務(wù),執(zhí)行。
(5)執(zhí)行結(jié)束,留下自己的反饋意見(滿意或不滿意)。將該服務(wù)的QoS 性能指標(biāo),以及自己的反饋意見(是否滿意)存入自己的經(jīng)驗(yàn)庫中,將相關(guān)信息提交給“服務(wù)管理中心”,更新該服務(wù)的QoS性能指標(biāo)。
模型的評價首先,該模型基于機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典方法:貝葉斯理論。該方法有嚴(yán)密的推導(dǎo)和證明,已被廣泛的應(yīng)用于多個領(lǐng)域。所以該模型的理論基礎(chǔ)是非常堅實(shí)的。
其次,選擇Web 服務(wù)時,不需要用戶的介入。需要用戶做的工作僅僅是在Web 服務(wù)執(zhí)行完了以后,作出評價(“滿意”或“不滿意”)。所以該模型更具有智能性。
最后,該模型是一個動態(tài)的模型,隨著時間的推移,如果用戶的偏好慢慢發(fā)生變化,該模型所做出的抉擇也會根據(jù)用戶經(jīng)驗(yàn)庫的更新慢慢偏移。
總結(jié)和展望面對眾多功能相同,但在非功能屬性上仍然存在差別的Web 服務(wù),如何進(jìn)行合理的選擇,對成功地構(gòu)建面向服務(wù)應(yīng)用具有非常重要的意義。本文在總結(jié)了當(dāng)前基于多QoS 目標(biāo)的Web 服務(wù)選擇策略發(fā)展現(xiàn)狀的基礎(chǔ)上,介紹了一種基于貝葉斯的多QoS 目標(biāo)的Web 服務(wù)選擇策略。該方法具有理論基礎(chǔ)堅實(shí)、智能性、動態(tài)性的優(yōu)點(diǎn)。
基于馬爾科夫決策的決策策略選擇
概述
目標(biāo)選擇是軍事決策過程的重要組成部分,現(xiàn)代戰(zhàn)爭中的目標(biāo)選擇問題要置于打擊目標(biāo)體系的作戰(zhàn)過程中分析。目標(biāo)體系( Target System of System,TSoS) 是由多個作戰(zhàn)系統(tǒng)構(gòu)成的集合,每個作戰(zhàn)系統(tǒng)實(shí)現(xiàn)一定任務(wù)并對體系使命產(chǎn)生影響。打擊目標(biāo)體系的目的是使體系崩潰,打擊過程由于存在資源約束等原因被劃分為多個階段,因此如何打擊目標(biāo)體系是具有復(fù)雜目標(biāo)關(guān)聯(lián)的多階段目標(biāo)選擇問題。傳統(tǒng)目標(biāo)選擇方法多是通過層次分析法等對目標(biāo)進(jìn)行評估和排序,沒多屬性決策理論有考慮目標(biāo)間復(fù)雜關(guān)聯(lián),為處理該問題,目前主要采用貝葉斯網(wǎng)絡(luò)描述目標(biāo)體系內(nèi)影響關(guān)聯(lián)。故障樹方法但以上方法均未考慮目標(biāo)選擇的多階段決策特征,沒有利用行動中間結(jié)果調(diào)整目標(biāo)。目標(biāo)選擇的動態(tài)性在動態(tài)武器目標(biāo)分配問題和軍事行動規(guī)劃問題中得到研究。蔡懷平等研究了動態(tài)武器目標(biāo)分配問題中的馬爾科夫性,解武杰等 將馬爾可夫過程用于分析防空武器目標(biāo)選擇策略; Boutilier 等在馬爾科夫決策過程(Markov Decision Process,MDP) 基礎(chǔ)上提出決策理論規(guī)劃方法 對具有階段決策的軍事行動進(jìn)行建模 但沒有考慮目標(biāo)關(guān)聯(lián)和相應(yīng)的復(fù)雜打擊效果,不能直接用于求解打擊目標(biāo)體系過程中的目標(biāo)選擇問題。陽東升等 利用動態(tài)貝葉斯網(wǎng)絡(luò)描述了戰(zhàn)場重心及作戰(zhàn)行動間影響關(guān)系,但搜索空間很大時求解效率不高,王長春等用復(fù)雜網(wǎng)絡(luò)仿真方法分析體系對抗過程,但是建模過程較復(fù)雜。
1 目標(biāo)選擇問題描述
為分析目標(biāo)選擇問題,需分析打擊目標(biāo)對目標(biāo)體系狀態(tài)的影響。與或樹使用圖形化能將復(fù)雜問題分解為多個簡單子問題,因此使用與或樹描述體系中狀態(tài)間的影響關(guān)系。目標(biāo)體系的狀態(tài)包括三類要素狀態(tài): 目標(biāo)單元狀態(tài) GT 、目標(biāo)系統(tǒng)能力狀態(tài) GN 和目標(biāo)體系能力狀態(tài) GS 。目標(biāo)單元是目標(biāo)體系中最基礎(chǔ)的要素,能被直接摧毀,如單部雷達(dá),其狀態(tài)用葉節(jié)點(diǎn)集 GT ={ gTi } ( 1≤i≤I) 描述,I 為目標(biāo)單元數(shù)量,單元?dú)琯Ti = 1; 單元正常,gTi = 0。目標(biāo)系統(tǒng)是多個目標(biāo)單元或子系統(tǒng)的集合,之間相互關(guān)聯(lián),顯現(xiàn)某種作戰(zhàn)能力,如預(yù)警能力。其狀態(tài)用非終端節(jié)點(diǎn)集 GN = { gNj } ( 1 ≤j ≤J) 描述,J 為目標(biāo)系統(tǒng)數(shù)量,系統(tǒng)能完成任務(wù),gNj = 1; 不能完成任務(wù),gNj = 0。其包含的目標(biāo)單元和子系統(tǒng)能力狀態(tài)作為其在與或樹中子節(jié)點(diǎn),通過邏輯與、或關(guān)系,對系統(tǒng)能力狀態(tài)產(chǎn)生影響。
目標(biāo)體系是多個目標(biāo)系統(tǒng)的集合,體現(xiàn)出支持某個使命的能力,如防空使命能力。體系能力狀態(tài)使用根節(jié)點(diǎn) GS 描述,體系能達(dá)成使命,GS =1; 不能達(dá)成,GS = 0。其包含的各目標(biāo)系統(tǒng)能力作為其子節(jié)點(diǎn),通過邏輯與、或關(guān)系對體系能力狀態(tài)產(chǎn)生影響。
2目標(biāo)選擇過程建模
2. 1 問題假設(shè)
(1) 打擊目標(biāo)體系過程分為若干個作戰(zhàn)階段,使用有限資源,目的是使體系失效;
(2) 目標(biāo)體系狀態(tài)為進(jìn)攻方完全感知,目標(biāo)選擇決策僅與當(dāng)前階段狀態(tài)有關(guān),在當(dāng)前狀態(tài)被觀察后,進(jìn)攻方選擇打擊目標(biāo);
(3) 打擊每個目標(biāo)具有一定成功概率,消耗一定資源,每個階段打擊多個目標(biāo),使得目標(biāo)體系狀態(tài)在下一階段發(fā)生概率遷移。
2. 2 目標(biāo)選擇決策模型
在符合以上假設(shè)時,打擊過程中目標(biāo)體系狀態(tài)的變化可認(rèn)為是一個離散時間隨機(jī)過程,其變化過程的狀態(tài)轉(zhuǎn)移概率由打擊目標(biāo)行動所控制,因此目標(biāo)選擇決策成為一個離散時間馬爾科夫決策過程,其最優(yōu)決策就是每階段要選擇打擊哪些目標(biāo),使目標(biāo)體系失效的概率最大化。本文使用 DTMDP 模型描述打擊目標(biāo)體系的目標(biāo)選擇決策過程,即以下多元組:S是有限狀態(tài)集,S = { ( t,R,G) } ,t 指當(dāng)前第t階段,R = ( R1 ,…,Rk ,…,RK ) 描述資源的狀態(tài)向量,Rk 為第 k 類資源數(shù)量,G = ( g1T ,…,gTI ,g1N ,…,gNJ ,GS ) ,表示體系的狀態(tài)向量。S0 是初始狀態(tài)。ST 是終止?fàn)顟B(tài)集,對應(yīng)于資源、時間消耗完畢,或目標(biāo)體系失效的狀態(tài),在此狀態(tài)下打擊過程結(jié)束。A是所有行動組成的有限集,A( s) 是在狀態(tài) s下可采取的行動集,a A( s) 包含多個目標(biāo)單元打擊任務(wù) { Taski } ( 1 ≤i ≤I) ,Taski 成功概率為Pi ,即 Pi ( GTi = 1 | Taski ) = Pi 。若 Rk ( s,Taski ) 表示Taski 在狀態(tài) s 下消耗第 k 種資源的數(shù)量,Lk 表示第 k 種資源在每階段的最大允許使用數(shù)量,是在可用行動 a 下狀態(tài)轉(zhuǎn)移 s→s'的概率函數(shù),表示在打擊行動 a 下,狀態(tài)在下一階段變化的可能性。
2.3 模型復(fù)雜度分析
打擊目標(biāo)體系過程中的目標(biāo)選擇模型和以往基于MDP 的目標(biāo)選擇或軍事計劃模型 存在著以下區(qū)別:
(1)問題假設(shè)不同。以往模型中假設(shè)目標(biāo)間無關(guān)聯(lián),而本模型假設(shè)目標(biāo)間相互影響;
(2)終止?fàn)顟B(tài)不同。以往模型是以最大化毀傷目標(biāo)為期望值,而本模型是以達(dá)成目標(biāo)體系失效為目的;
(3)狀態(tài)空間不同。以往模型的狀態(tài)空間是所有目標(biāo)的狀態(tài),而本模型的狀態(tài)空間包含了目標(biāo)單元、系統(tǒng)能力、體系能力三類要素狀態(tài),使得狀態(tài)空間復(fù)雜度增加;
(4)時間尺度不同。以行動階段而非具體時間來描述打擊目標(biāo)體系過程,并假設(shè)行動能夠在單階段內(nèi)完成,簡化了行動空間描述;
(5)狀態(tài)遷移函數(shù)不同。以往模型只需計算各目標(biāo)的狀態(tài)遷移,而本模型中的狀態(tài)遷移還需考慮不同層次間要素的狀態(tài)影響關(guān)系。
3求解算法
3. 1 求解框架
本問題狀態(tài)空間巨大,并且只關(guān)注求解從目標(biāo)體系初始狀態(tài)到達(dá)終止?fàn)顟B(tài)的行動策略,而 MDP 值迭代或策略迭代方法需對全狀態(tài)空間進(jìn)行遍歷,因此求解效率較低,這就需要使用啟發(fā)式搜索算法來求解。RTDP ( Real Time Dynamic Programming) [18] 的 改 進(jìn) 算 法 LRTDP ( LabeledRTDP) 方法要比其他如 LAO* 等求解 MDP 的啟發(fā)式搜索算法要更有效率 因此本文使用LRTDP 方法求解該模型。
RTDP 是基于試驗(yàn)( trials-based) 的方法,每次試驗(yàn)從初始狀態(tài)開始,基于當(dāng)前狀態(tài)值的啟發(fā)式,根據(jù)貪婪策略選擇行動,然后根據(jù)行動的概率結(jié)果隨機(jī)創(chuàng)建后續(xù)狀態(tài),直至到達(dá)目的狀態(tài),然后進(jìn)行反向值迭代。
3. 2 啟發(fā)式
設(shè)計了基于行動成功概率、行動執(zhí)行時間和資源邊界的啟發(fā)式提供對 V0 ( S) 的最佳估計值,使得對所有狀態(tài) s,V0 ( S) V( S) ,以促進(jìn)LRTDP 中算法的收斂,但由于打擊目標(biāo)體系過程中的目標(biāo)選擇模型和傳統(tǒng)規(guī)劃模型在狀態(tài)空間、遷移函數(shù)上的區(qū)別,該啟發(fā)式不能直接應(yīng)用于前者。針對打擊目標(biāo)體系過程特點(diǎn),分別設(shè)計新的啟發(fā)式來計算從目標(biāo)體系當(dāng)前狀態(tài) S 到達(dá)目標(biāo)體系失效狀態(tài)的最小失敗概率 minV( S,fail) 和最小資源消耗需求 minV ( S,resource) ,并進(jìn)行加權(quán)組合,以得到對 V0 ( S) 的最佳估計值。啟發(fā)式考慮了時間代價不同,由于打擊目標(biāo)的時間消耗為單個階段,從當(dāng)前狀態(tài)到達(dá)目標(biāo)體系失效狀態(tài)的最小時間消耗需求 minV( S,time) 總是為單個階段,因此在新啟發(fā)式中沒有考慮時間代價。
( 1) 到達(dá)目標(biāo)體系能力失效狀態(tài)的最小失敗概率為判斷從當(dāng)前狀態(tài)到達(dá)體系失效狀態(tài)的最小失敗概率,先求得最大成功概率,即從當(dāng)前狀態(tài)下預(yù)期能采取的所有打擊目標(biāo)行動能夠達(dá)成的體系失效概率。當(dāng)目標(biāo)體系與或樹中非葉子節(jié)點(diǎn) g 具有子節(jié)點(diǎn)集 SG = { sgk } ( 1 ≤k ≤K) ( K 為子節(jié)點(diǎn)數(shù)量)時,其中 Prok 表示使得第 k 個子節(jié)點(diǎn)失效的最大成功概率,sgk 描述第 k 個子節(jié)點(diǎn)是否失效,失效時取 1,正常時取 0。其基本過程為:
1) 與或樹自根節(jié)點(diǎn)向下遍歷各節(jié)點(diǎn);
2) 取得各節(jié)點(diǎn)的狀態(tài),當(dāng)節(jié)點(diǎn)狀態(tài)為失效,則該節(jié)點(diǎn)的毀傷概率為 1,當(dāng)節(jié)點(diǎn)狀態(tài)為正常,取得其所有子節(jié)點(diǎn)的失效概率值,根據(jù)子節(jié)點(diǎn)間的與或關(guān)系計算使該節(jié)點(diǎn)失效的概率值;
3) 直至遍歷至葉節(jié)點(diǎn),獲得對應(yīng)打擊目標(biāo)行動的成功概率( 即節(jié)點(diǎn)失效概率值) ,然后遞歸計算使根節(jié)點(diǎn)失效的成功概率值。用1 減去使根節(jié)點(diǎn)失效的最大成功概率值即得到使目標(biāo)體系失效的最小失敗概率。
(2) 到達(dá)目標(biāo)體系失效狀態(tài)的最小消耗為求解到達(dá)目標(biāo)體系失效狀態(tài)的最小消耗資源,我們假設(shè)從當(dāng)前狀態(tài)開始,所采取的每次打擊行動都能成功摧毀目標(biāo)。根據(jù)與或樹的結(jié)構(gòu)層次計算能夠?qū)е履繕?biāo)體系失效所需的行動集的最小消耗資源。當(dāng)目標(biāo)體系與或樹中非葉子節(jié)點(diǎn) g 具有子節(jié)點(diǎn)集 SG = { sgk } ( 1 ≤k ≤K) ( K 為子節(jié)點(diǎn)數(shù)量)時,當(dāng) SG 為與關(guān)系時,使 g 失效的最小資源消耗Res 為:當(dāng) SG 為或關(guān)系時:Res = min( { ( 1 - sgk ) ·Resk } ) ,1≤k≤K ( 14) 其中 Resk 表示使得第 k 個子節(jié)點(diǎn)失效的最小資源消耗,sgi 描述第 k 個子節(jié)點(diǎn)是否失效,失效時取 1,正常時取 0。其基本過程為:
1) 與或樹自根節(jié)點(diǎn)向下遍歷各節(jié)點(diǎn);
2) 當(dāng)節(jié)點(diǎn)狀態(tài)為失效,則該節(jié)點(diǎn)資源消耗為0,當(dāng)節(jié)點(diǎn)狀態(tài)為正常,則取得其所有子節(jié)點(diǎn)消耗資源值,根據(jù)子節(jié)點(diǎn)間與或關(guān)系綜合得到該節(jié)點(diǎn)資源消耗值;
3) 直至遍歷到葉節(jié)點(diǎn),獲得對應(yīng)打擊目標(biāo)行動的消耗資源,然后遞歸計算使根節(jié)點(diǎn)( 體系能力) 失效的資源消耗值。
比賽中決策策略選擇
概述
多智能體系統(tǒng)(Multi-Agent Systems, MAS)的研究是當(dāng)前人工智能領(lǐng)域的一個熱點(diǎn)問題和重要的發(fā)展方向。足球機(jī)器人比賽已經(jīng)成了MAS 研究的一個標(biāo)準(zhǔn)平臺。機(jī)器人足球發(fā)展的宏偉目標(biāo)就是要實(shí)現(xiàn)自學(xué)習(xí)、自適應(yīng)以及具有很強(qiáng)魯棒性的實(shí)時多智能機(jī)器人系統(tǒng), 力爭經(jīng)過大約50年左右的發(fā)展,使機(jī)器人足球隊能夠打敗當(dāng)時人類的世界冠軍足球隊。以Mirosot 系列機(jī)器人系統(tǒng)為例,給出了一種分層遞階控制設(shè)計, 并針對在視覺子系統(tǒng)不采集對方球員信息的情況下, 提出了實(shí)力對比函數(shù)的概念, 通過這個函數(shù)實(shí)時的根據(jù)場上的情況判斷雙方球隊的形式變化情況, 以提高決策子系統(tǒng)的智能性。
1決策系統(tǒng)的設(shè)計
1.1決策系統(tǒng)的分析
足球機(jī)器人的決策子系統(tǒng)扮演著教練員和運(yùn)動員的職責(zé)。在真實(shí)的綠茵場上, 作為教練員要根據(jù)球場上的實(shí)際情況來部署球員, 同時也根據(jù)不同的對手, 選擇不同的隊形。足球機(jī)器人賽場上,決策者也應(yīng)該根據(jù)不同的球隊采取不同的策略,對于錯綜復(fù)雜的球場形勢, 運(yùn)用靈活的策略。一個好的決策系統(tǒng)不可能一勞永逸地一次性開發(fā)完成,是一個不斷完善的過程,因此,構(gòu)建一個可持續(xù)開發(fā)、合理的決策框架就顯得尤為重要。分層遞進(jìn)控制方式對決策思路進(jìn)行邏輯上的分層。一般來說,決策思路是先確定機(jī)器人之間的協(xié)作關(guān)系,然后根據(jù)配合的要求確定每個機(jī)器人的運(yùn)動方式。分層的具體方式可以有一定的不同。
比賽時,視覺子系統(tǒng)每 40ms 左右將球場上各機(jī)器人的位姿和球的信息傳入計算機(jī) ,決策子系統(tǒng)根據(jù)傳入的視覺信息分析球場上的情況 , 做出相應(yīng)的決策,轉(zhuǎn)化為每個機(jī)器人的左右輪速, 通過通信子系統(tǒng)發(fā)送給每個機(jī)器人。當(dāng)決策子系統(tǒng)收到視覺輸入信息后, 對其進(jìn)行預(yù)處理, 根據(jù)球和本方機(jī)器人的位置對場上攻防形勢進(jìn)行分析, 并將所作的決策分解為各個任務(wù)———這是決策的第一層。根據(jù)分解完的任務(wù)從隊形庫中為本方機(jī)器人確定一個隊形———這是決策的第二層。根據(jù)隊形所需的角色以及我方機(jī)器人的位置 , 將每個角色分配給具體的機(jī)器人———這是決策的第三層。之后將左右輪速發(fā)送給對應(yīng)的每個機(jī)器人。
1 .2 決策系統(tǒng)的設(shè)計
決策系統(tǒng)的設(shè)計過程是一個由基層到高層逐步構(gòu)造的過程, 就是如何來實(shí)現(xiàn)決策系統(tǒng)分析結(jié)果?;谏鲜鲎闱驒C(jī)器人決策分析過程, 采用如下的足球機(jī)器人決策系統(tǒng)設(shè)計。
在比賽過程中 , 我們所要求小車的基本運(yùn)動就是跑位、轉(zhuǎn)向, 繼而在此基礎(chǔ)上, 讓小車按照決策者的意圖來完成一些復(fù)雜動作, 最后實(shí)現(xiàn)決策者的整個策略思想。本設(shè)計采用面向?qū)ο蟮某绦蛟O(shè)計把整個決策系統(tǒng)劃分 3 個類, 他們由基層到高層(即由頂?shù)降?分別為:基本動作類、技術(shù)動作類、決策類, 他們是從頂?shù)降滓来卫^承, 高層可以繼承基層, 但基層不能繼承高層, 高層類中方法的實(shí)現(xiàn)需要基層類中方法的支持, 基本動作函數(shù)類的方法完成如原地轉(zhuǎn)動、轉(zhuǎn)到定角、轉(zhuǎn)到定點(diǎn)、到定點(diǎn)、到達(dá)定點(diǎn)有一定的速度函數(shù)等等, 其屬性是可調(diào)參數(shù)的結(jié)構(gòu)體 ;技術(shù)動作函數(shù)類中封裝一些比較高級的動作, 如完成射門、防守、邊界處理等功能;組合動作函數(shù)類是更高層次的類, 其方法用來完成多車協(xié)作動作, 如點(diǎn)球大戰(zhàn)、爭球等動作 ; 決策類是整個決策系統(tǒng)的最高層, 是整個決策的核心部分 ,就是用這些底層類來實(shí)現(xiàn)決策者的意圖,如信息預(yù)處理、態(tài)勢分析、角色分配、動作實(shí)現(xiàn)等。由上設(shè)計實(shí)現(xiàn)過程,可以看出,我們可以根據(jù)決策者不同的需求,逐步完善這些底層函數(shù)類,各個函數(shù)類的補(bǔ)充只是改動本身,并不影響其他類,從而提高了整個決策系統(tǒng)的可維護(hù)性和可擴(kuò)充性,為決策者提供了一個施展各種策略思想的平臺。
2決策策略的動態(tài)選擇算法
實(shí)力對比函數(shù)的提出
由于決策系統(tǒng)所能得到的信息僅是由視覺系統(tǒng)傳遞來的球的位置以及本方球員的位置和方向信息,因此如何判斷對方球隊的情況則變成了是一個不容易解決的問題。如果不對對方球隊情況進(jìn)行判斷, 無論場上形式如何變化我方總是采用一成不變的策略則會降低整個球隊的智能性, 本系統(tǒng)通過實(shí)力對比函數(shù)來判斷場上情況的變化 , 并根據(jù)不同的情況做出不同的策略選擇, 從而提高了系統(tǒng)的智能性。
3實(shí)驗(yàn)結(jié)果
在MiroSot 足球機(jī)器人系統(tǒng)中對本文提出的決策策略動態(tài)選擇算法進(jìn)行了驗(yàn)證, 其中 Team1 在進(jìn)行決策策略選擇的時候采用傳統(tǒng)的決策策略選擇方法。Team2 ,Team3 ,Team4 也采用傳統(tǒng)的決策策略選擇方法, 并且 3 支球隊的實(shí)力一個比一個強(qiáng)(通過實(shí)驗(yàn)得出球隊的強(qiáng)弱)。比賽結(jié)果如下表1 所示:
表1 比賽結(jié)果(選用本文算法之前)
球隊 | | 比賽結(jié)果 |
比分 | 控球時間之比 | 球在對方半場時間之比 |
Team1 vs Team2 | 3 :0 | 3:1 | 3:1 |
Team1 vs Team3 | 2 :1 | 3:1 | 2:1 |
Team1 vs Team4 | 0 :2 | 1:2 | 1:2 |
在選用的決策策略動態(tài)選擇算法之后 ,Team1 分別對 Team2 ,Team3 ,Team4 的比賽結(jié)果如表 2 所示:
表2 | 比賽結(jié)果(選用本文算法之后) |
球隊 | | 比賽結(jié)果 |
比分 | 控球時間之比 | 球在對方半場時間之比 |
Team1 vs Team2 | 6 :0 | 4:1 | 4:1 |
Team1 vs Team3 | 4 :1 | 4:1 | 2:1 |
Team1 vs Team4 | 1 :1 | 1:1 | 1:1 |
從實(shí)驗(yàn)的比賽結(jié)果可以看出, 在采用了決策策略動態(tài)選擇算法之后同樣一支球隊在和比它實(shí)力弱球隊的比賽時會加強(qiáng)進(jìn)攻從而可以大比分的戰(zhàn)勝對手, 在和它實(shí)力相當(dāng)?shù)那蜿牨荣悤r會適當(dāng)?shù)姆峙溥M(jìn)攻和防守的比重 ,從而有機(jī)會戰(zhàn)勝對手 , 在和比自己實(shí)力強(qiáng)的球隊比賽時會加強(qiáng)防守在不輸球的情況下適時進(jìn)攻。而實(shí)現(xiàn)的, 先進(jìn)技術(shù)手段的引入可能而且應(yīng)該給企業(yè)帶來效率和效益。信息化是企業(yè)發(fā)展的必然,是重大的機(jī)遇和挑戰(zhàn) ,我們要抓住信息化帶來的機(jī)遇 ,在“信息化帶動工業(yè)化”的國家戰(zhàn)略指導(dǎo)下,加強(qiáng)對國民經(jīng)濟(jì)與社會信息化的組織領(lǐng)導(dǎo) ,加快制定并實(shí)施國家信息化的總體規(guī)劃, 推動經(jīng)濟(jì)與社會各個領(lǐng)域信息化的進(jìn)程。通過信息化不斷提高企業(yè)核心競爭力, 強(qiáng)化綜合國力的微觀基礎(chǔ) , 這正是我國加入世貿(mào)組織、應(yīng)對經(jīng)濟(jì)全球化挑戰(zhàn)的關(guān)鍵所在。
囚徒困境下的決策策略選擇
概述
美國決策研究專家黑斯蒂(Hastie,R)認(rèn)為判斷與決策是人類根據(jù)自己的愿望和信念選擇行動的過程。決策(decision making)從狹義上說是一個動態(tài)過程,是個體運(yùn)用感知覺、記憶、思維等認(rèn)知能力,對情境做出選擇,確定策略的過程。廣義的決策則包含判斷與決策兩個部分。博弈論中“囚徒困境”下的決策就是一個很有代表性的例子.
囚徒困境簡介及其傳統(tǒng)策略
囚徒困境也稱社會兩難情境,是博弈論中的經(jīng)典案例,指兩個嫌疑犯被警察抓到,但警方?jīng)]有掌握確切的證據(jù),警察就分別找他們談話:“如果你們都不認(rèn)罪的話,我們將讓你們都入獄一年;如果一個認(rèn)罪,另一個不認(rèn)罪的話,那么我們將判不認(rèn)罪的那個十年的徒刑,認(rèn)罪的將無罪釋放;如果兩人都認(rèn)罪的話,我們將基于你們的誠實(shí)把每個人的徒刑降為五年,請你們各自權(quán)衡?!痹谶@種情形下,兩個疑犯都將面臨著一個具有決定意義的兩難選擇。
亞當(dāng)·斯密(Adam Smith)曾提出了理性經(jīng)濟(jì)人的假設(shè),一是經(jīng)濟(jì)人是自私自利的;二是經(jīng)濟(jì)人的行為是理性的,即他們根據(jù)處境來判斷自身的利益,追求個人利益盡可能最大化。在一個標(biāo)準(zhǔn)的囚徒困境中,可以用下面這個矩陣來表示:
| | 罪犯B |
| | 認(rèn)罪 | 不認(rèn)罪 |
罪犯A | 認(rèn)罪 | (5、5) | (0、10) |
不認(rèn)罪 | (10、0) | (1、1) |
兩個囚犯面臨同樣的選擇——無論同伙選擇什么,他們最好都選擇認(rèn)罪。因?yàn)椋绻锊徽J(rèn)罪,那么他們就無罪釋放,否則,他們起碼會被判十年徒刑。在一般情況下,假定每個囚徒都是理性的,他們的選擇通常會出現(xiàn)以下兩種可能情形:以A 為例,第一種可能是:B 認(rèn)罪,這時如果A 也認(rèn)罪,那么他們都要入獄5 年;如果A 不認(rèn)罪,則A 將被判十年,B 無罪釋放,兩相比較下,對于A 來說,認(rèn)罪顯然是最優(yōu)策略。第二種是:B 不認(rèn)罪,這時如果A 認(rèn)罪,那么B 將被判十年,A 將無罪釋放,如果A 也不認(rèn)罪,那么他們都將被判一年,這種情形下,A 的最優(yōu)策略也是認(rèn)罪。由此可見,對雙方而言,每一個囚犯從個人利益出發(fā),不考慮他人,他們都將選擇認(rèn)罪。但如果雙方都不認(rèn)罪,那么等待他們的將是一年的牢獄之苦。也就是說,對個人最有利的認(rèn)罪策略,卻不是集體(A 和B)的最佳策略。
囚徒困境中彰顯的人性特點(diǎn)和理性信任觀
囚徒困境中個人的理性選擇卻是集體的非理性選擇,從人性的角度來看,就會發(fā)現(xiàn)其中包含著人性惡的傾向。如果A 是善的,那么會出現(xiàn)兩種情況,第一種情況是A 堅持不認(rèn)罪也不供出B,B 同樣也是堅持不認(rèn)罪也不供出A;第二種情況是,A 堅持不認(rèn)罪,B 認(rèn)罪。
如果A 是惡的,那么也會出現(xiàn)兩種情況,第一種情況是A 認(rèn)罪也供出B,而B 不認(rèn)罪。第二種情況是A 認(rèn)罪也供出B,B 也認(rèn)罪且也供出A 。
從善的角度考慮問題,可能得到最好的(1 年)和最糟的(10 年)的處罰結(jié)果;從惡的角度考慮,可能得到最好的(0 年)和最糟的(5年)的處罰結(jié)果。A、B 雙方都從自己的利益考慮,選擇惡的可能性會更大些。由此從囚徒困境中看到了人性惡的傾向。
在很多情況下,人面對的是一種集體條件下的困境,即博弈的雙方可能是兩大集團(tuán)或更多的人,相同的博弈者可能會不斷地重復(fù)面對相似的困境,“有條件的合作策略”將可能是理性經(jīng)濟(jì)人的最優(yōu)策略。
重復(fù)為博弈產(chǎn)生了新的動力結(jié)構(gòu)。通過重復(fù),博弈者就可能按對手以往的選擇而決定當(dāng)前的選擇。例如,存在一種所謂的“一觸即發(fā)”策略,即“只要你背叛,我隨后將永遠(yuǎn)背叛”,當(dāng)雙方保持背叛的狀態(tài)時,就失去了雙方獲益的機(jī)會。而如果雙方合作,其前提是雙方的相互信任,就可能爭取到雙方獲益的機(jī)會。還存在另一種所謂的“一報還一報”的策略,以合作開始,然后模仿對方上一步選擇的策略。該策略以信任開始,決不首先背叛。時間嵌入性理論表明,今天的行為(合作或背叛),將影響再次相遇時所做的選擇。信任是使關(guān)系更持久、更穩(wěn)固的最優(yōu)選擇。
現(xiàn)實(shí)生活中的“囚徒困境”及其應(yīng)對策略
囚徒困境在現(xiàn)實(shí)社會中廣泛存在,而且情形要復(fù)雜的多。如汽車尾氣與空氣質(zhì)量的問題。要保持空氣清潔,汽車主人就要對車安裝防污染的過濾裝置,需要自己負(fù)擔(dān)費(fèi)用。而理性個體既想享受清潔的空氣,又不愿為此付出代價。還有民眾生育觀的多子多福與人口膨脹的問題,上車不排隊擁擠的問題等等。
要想克服重復(fù)條件下的囚徒困境,就要從集體成員的主觀條件入手,使成員在新的基礎(chǔ)上做出最優(yōu)決策,打破原有的納什均衡,建立新的有價值的納什均衡(納什均衡是經(jīng)濟(jì)學(xué)家Nash 提出的,若有N 個人參加博弈,那么在給定他人戰(zhàn)略的情況下,在每一個參與人選擇的最優(yōu)戰(zhàn)略所形成的戰(zhàn)略組合中,沒有任何一個參與人有積極性選擇其他戰(zhàn)略,也沒有任何人有積極性打破這種均衡)。為此可以采取以下措施:
1、利用強(qiáng)化的作用。制定規(guī)則或提供獎懲措施,通過正強(qiáng)化的作用,引導(dǎo)決策者改變自己原有的決策偏好,向著有利于集體利益的方向發(fā)展,做出對集體而言的最優(yōu)策略。
2、創(chuàng)造良好的文化氛圍。囚徒困境說到底其實(shí)也是一種道德困境,要解決這種道德困境,就要從根本入手,創(chuàng)造良好的文化氛圍,逐步改變?nèi)w的道德觀、價值觀、主觀偏好。深刻認(rèn)識囚徒困境的弊端,充分利用強(qiáng)化手段,在良好的社會文化氛圍中創(chuàng)造人人都能從全局的利益出發(fā),團(tuán)結(jié)合作,使全社會建立起一種新的有利于全體成員的有價值的納什均衡。