版權歸原作者所有,如有侵權,請聯(lián)系我們

[科普中國]-混合策略

科學百科
原創(chuàng)
科學百科為用戶提供權威科普內(nèi)容,打造知識科普陣地
收藏

基礎知識

策略:參與人在給定信息集的情況下選擇行動的規(guī)則,它規(guī)定參與人在什么情況下選擇什么行動,是參與人的“相機行動方案”。

純策略:如果一個策略規(guī)定參與人在每一個給定的信息情況下只選擇一種特定的行動,稱為純策略,簡稱“策略” ,即參與人在其策略空間中選取唯一確定的策略。

混合策略:如果一個策略規(guī)定參與人在給定的信息情況下以某種概率分布隨機地選擇不同的行動,稱為混合策略。參與人采取的不是明確唯一的策略,而是其策略空間上的一種概率分布。

混合策略擴展博弈:博弈方在混合策略的策略空間(概率分布空間)的選擇看作一個博弈,就是原博弈的“混合策略擴展博弈”。

納什均衡:一般將嚴格占優(yōu)策略均衡、重復剔除的占優(yōu)策略均衡、純策略納什均衡和混合策略納什均衡統(tǒng)稱為納什均衡。嚴格占優(yōu)策略均衡是重復剔除的占優(yōu)策略均衡的特例;重復剔除的占優(yōu)策略均衡是純策略納什均衡的特例;純策略納什均衡是混合策略納什均衡的特例。

混合策略納什均衡(MNE):由最優(yōu)的混合策略構成的混合策略組合。1

區(qū)別在完全信息博弈中,如果在每個給定信息下,只能選擇一種特定策略,這個策略為純策略。如果在每個給定信息下只以某種概率選擇不同策略,稱為混合策略。

混合策略是純策略在空間上的概率分布。純策略可以理解為混合策略的特例,即在諸多策略中,選擇該純策略的概率為1,選其他純策略的概率為0。純策略的收益可以用效用表示,混合策略的收益只能以預期效用表示。2

舉例兩個參與人各拿一枚硬幣,并選擇出正面向上還是反面向上。若兩枚硬幣是一致的(即全部正面或全部反面),則參與人2贏走參與人1的硬幣;若兩枚硬幣不一致(一正一反),參與人1贏得參與人2的硬幣。支付如表1:

上述博弈的特征是:

|| || 表1

在這類博弈中,不存在純策略納什均衡;

參與人的支付取決于其他參與人的策略,以某種概率分布隨機地選擇不同的行動;

每個參與人都想猜透對方的策略,而每個參與人又不愿意讓對方猜透自己的策略。
這種博弈的類型是混合策略。

相關計算混合策略納什均衡由最優(yōu)的混合策略構成的混合策略組合。由于混合策略伴隨的是支付的不確定性,因此參與人關心的是其期望效用。最優(yōu)混合策略是指在給定對方的混合策略的情況下,使期望效用函數(shù)最大的混合策略。在兩人博弈里,混合策略納什均衡是兩個參與人的最優(yōu)混合策略的組合。

求解方法:

1.最大化收益法:即最大化各個參與人的效用函數(shù)。

2.收益相等法:根據(jù)前面分析的猜硬幣博弈中參與人的策略的思路,每個參與人的混合策略都使其余參與人的任何純策略的期望收益相等,因此,解混合策略納什均衡可以令參與人的各個純策略收益相等,構成方程組求解。

3.最優(yōu)反應函數(shù)法:在連續(xù)純策略均衡時(如古諾模型),可以使用反應對應的概念來描述一個參與人對應于其他參與人混合策略的最優(yōu)選擇。

舉例:社會福利博弈

|| ||

上述模型有混合策略納什均衡:參與人以一定的概率選擇某種策略,然后計算相應于不同概率的期望效用。

設:政府救濟的概率θ=1/2 ,不救濟的概率1-θ=1/2。流浪漢尋找工作的期望效用:1/2×2+1/2 ×1=1.5;
流浪的期望效用: 1/2×3+1/2 ×0=1.5。此時,流浪漢選擇任何混合策略的期望效用都是1.5,則流浪漢的任何一種策略(純的γ=1或γ=0或混合的0