薛定諤的小板凳與深度學(xué)習(xí)的后浪
除了《薛定諤的滾》,《薛定諤的佛》,《薛定諤的愛(ài)情》之外,薛定諤小板凳的勵(lì)志故事在坊間也廣為流傳:話說(shuō)薛定諤小的時(shí)候,老師布置回家做小板凳的手工作業(yè)。第二天老師看到薛定諤的粗糙小板凳說(shuō):“我想世界上不會(huì)有比這更差的凳子了”,薛定諤卻從書(shū)桌下拿出兩個(gè)更為粗糙的小板凳說(shuō):“有,這是我第一次和第二次做的,而剛交上去的是第三次做的”。
什么,你記得是愛(ài)因斯坦的小板凳?確定?愛(ài)因斯坦不是用相對(duì)論證明勾股定理來(lái)著嗎?他哪里會(huì)有時(shí)間做小板凳?!好吧,你是對(duì)的,enjoy。這個(gè)小板凳的故事,是一個(gè)偉大物理學(xué)家自我激勵(lì)的故事,也是薛定諤的千千萬(wàn)萬(wàn)的后浪們被激勵(lì)的故事。作者就是沐浴著這樣的勵(lì)志故事長(zhǎng)大的,自我激勵(lì)著,也被一波一波的前浪們引領(lǐng)著,裹挾到大數(shù)據(jù)人工智能這個(gè)江湖的。
激勵(lì)的是需求
薛定諤的成長(zhǎng)多大程度上來(lái)自自我激勵(lì),不得而知,但是他的成功卻可能大多來(lái)自外部愛(ài)情的激勵(lì),這一點(diǎn)我在《薛定諤的愛(ài)情》中強(qiáng)調(diào)過(guò)。有人試圖用馬斯洛的需求層次理論來(lái)解釋薛定諤現(xiàn)象:“人類(lèi)的需求是一個(gè)金字塔,從底部到頂部,依次是生理、安全、社交、尊重、自我實(shí)現(xiàn)這五個(gè)需求。人們需要滿(mǎn)足金字塔底層的需求后,才有條件滿(mǎn)足更高層次的需求”,但這個(gè)努力似乎是不成功的:薛定諤的奇數(shù)層是同時(shí)滿(mǎn)足的,你品,你細(xì)品;而千千萬(wàn)萬(wàn)的人在同樣的愛(ài)情的外部激勵(lì)下,卻都沒(méi)有發(fā)現(xiàn)薛定諤方程,或者其他什么方程。
但這不是馬斯洛的錯(cuò),薛定諤畢竟是不確定性的代言人,海森伯也說(shuō)世界本來(lái)就是測(cè)不準(zhǔn)的。馬斯洛的需求金字塔,實(shí)實(shí)在在為早期的激勵(lì)理論(Incentivetheory)打下了堅(jiān)實(shí)的基礎(chǔ)。激勵(lì)理論最重要的流派,行為主義心理學(xué)創(chuàng)始人華生(John BroadusWatson)認(rèn)為:“通過(guò)激勵(lì)手段,誘發(fā)人的行為。在‘刺激—反應(yīng)’理論的指導(dǎo)下,激勵(lì)者的任務(wù)就是去選擇一套適當(dāng)?shù)拇碳?,即激?lì)手段,以引起被激勵(lì)者相應(yīng)的反應(yīng)標(biāo)準(zhǔn)和定型的活動(dòng)”。新行為主義者斯金納強(qiáng)調(diào)“人們的行為不僅取決于刺激的感知,也決定于行為的結(jié)果。當(dāng)行為的結(jié)果有利于個(gè)人時(shí),這種行為就會(huì)重復(fù)出現(xiàn)而起著強(qiáng)化激勵(lì)作用。如果行為的結(jié)果對(duì)個(gè)人不利,這一行為就會(huì)削弱或消失。所以在訓(xùn)練(Training)中運(yùn)用肯定、表?yè)P(yáng)、獎(jiǎng)賞或否定、批評(píng)、懲罰等強(qiáng)化手段,可以對(duì)學(xué)習(xí)者的行為進(jìn)行定向控制或改變,以引導(dǎo)到預(yù)期的最佳狀態(tài)?!?/p>
行為主義大道
而這有意或無(wú)意的成了強(qiáng)化學(xué)習(xí)/深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。作為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)浪潮后,人工智能領(lǐng)域最被廣泛看好的后浪,強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)被業(yè)界寄(da)予(si)厚(chui)望(peng),成為通往通用人工智能(AGI)大門(mén)的金鑰匙。DeepMind 星際2 AI 對(duì)人類(lèi)玩家的暴擊, OpenAI 15億參數(shù)的GPT-2超人語(yǔ)言模型,2019年深度強(qiáng)化學(xué)習(xí)的成功,激勵(lì)了人工智能領(lǐng)域的后浪們,沿著華生的行為主義康莊大道,前赴后繼。
強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,有別于經(jīng)典的有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí),其最大的特點(diǎn)就是在交互中學(xué)習(xí)(Learningfrom Interaction)。通過(guò)讓軟件定義的智能體(Agent)與環(huán)境(Environment)交互來(lái)訓(xùn)練模型。當(dāng)智能體的行為(Action)產(chǎn)生期望的結(jié)果時(shí),智能體將獲得激勵(lì)(Reward),也就是環(huán)境給它這個(gè)行為正面或者負(fù)面的反饋,促其成長(zhǎng)到新的狀態(tài)(State),這一行為也將被強(qiáng)化,塑造智能體在此環(huán)境下,后續(xù)的良好行為。這一交互過(guò)程持續(xù)迭代,智能體在獎(jiǎng)勵(lì)或懲罰中不斷的“學(xué)習(xí)知識(shí)”,“積累經(jīng)驗(yàn)”,從而更加適應(yīng)環(huán)境。業(yè)界認(rèn)為這一學(xué)習(xí)的范式非常類(lèi)似于人類(lèi)求知的過(guò)程,因而也就對(duì)其實(shí)現(xiàn)通用人工智能充滿(mǎn)期待。
未來(lái)不迎MDP
智能體不能隨意改變的任何東西都可以被認(rèn)為是環(huán)境的一部分,行為可以是我們想讓智能體學(xué)習(xí)的任何決策,狀態(tài)則是可以幫助智能體進(jìn)行行為選擇的任何事。同時(shí),也不假定環(huán)境中的一切對(duì)智能體而言都是未知的,例如激勵(lì)規(guī)則是環(huán)境的一部分,但是智能體可以了解其算法,甚至智能體完全可以對(duì)環(huán)境此刻的獎(jiǎng)懲機(jī)制了然于“心”。
想象一下自己是C羅,在踢一場(chǎng)足球聯(lián)賽,你就是球場(chǎng)上那個(gè)懵懂的智能體(Agent),球場(chǎng)、裁判、隊(duì)友與對(duì)手都是其所處環(huán)境(Environment)的一部分?,F(xiàn)在你要決定腳下這個(gè)球怎么踢(Action),傳球給隊(duì)友中的哪一位?還是自己拔腳怒射?還是傳給對(duì)手(假定是某大國(guó)風(fēng)范男足)?你頭腦里極其清楚,球踢到對(duì)方球門(mén)里,就能得一分(Reward),而踢到自家球門(mén)里,對(duì)方就得一分。你腦海過(guò)電影式的閃現(xiàn)剛才發(fā)生的一幕幕(Historical States ),形勢(shì)緊迫,你快速環(huán)顧了一下全場(chǎng)狀態(tài)(State),判斷了一下傳給隊(duì)友與射門(mén)成功的各種可能性(Policy),最后起腳射門(mén),打在橫梁,嚇得對(duì)方守門(mén)員一身冷汗,隊(duì)友沖過(guò)來(lái)“拍了拍”你,以資鼓勵(lì)。至此,你完成了一次攻防(Episode)。
踢球正如下棋,最好能多看幾步,下棋落子無(wú)悔,踢球卻更復(fù)雜,即便多看了幾步,事情也不一定按照你設(shè)想的方向發(fā)展。萬(wàn)一遇到豬隊(duì)友呢,萬(wàn)一自己就是豬隊(duì)友呢,由于體力不支,本打算打門(mén)的球,妥妥地傳給了對(duì)方后衛(wèi)呢。場(chǎng)上形勢(shì)瞬息萬(wàn)變,讓人一籌莫展。這時(shí)候你憶起了強(qiáng)化學(xué)習(xí)的心法:MP -> MRP -> MDP,靈明無(wú)著,物來(lái)順應(yīng),未來(lái)不迎,當(dāng)時(shí)不雜,既過(guò)不戀。
既過(guò)不戀M(fèi)P,馬爾可夫過(guò)程,無(wú)記憶的隨機(jī)過(guò)程,也就是,一個(gè)具備馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列S1,S2, …,可定義為<S,P>,S是有限狀態(tài)的集合,P是狀態(tài)到狀態(tài)的轉(zhuǎn)移概率;=> 當(dāng)時(shí)不雜MRP,馬爾可夫激勵(lì)過(guò)程,一個(gè)懂得價(jià)值(Value)的馬爾可夫過(guò)程,可以表示為<S,P, R, r>, R是激勵(lì)函數(shù),R是t狀態(tài)到t+1狀態(tài)的激勵(lì)的數(shù)學(xué)期望,r是激勵(lì)的價(jià)值貼現(xiàn)率;=> 未來(lái)不迎MDP, 馬爾可夫決策過(guò)程,是馬爾可夫激勵(lì)過(guò)程參與某種決策,它處于一個(gè)環(huán)境(Environment),其中的狀態(tài)都是馬爾可夫狀態(tài),<S,P,R,r,A>, A是有限的行為的集合。
拜天資聰穎,悟性極高,加之勤于溫習(xí)心法,你很快參透其中奧妙,下棋、星際Dota無(wú)往不勝。然而,球還是踢不好,中秋節(jié)拜早年也無(wú)濟(jì)于事,留給球隊(duì)的時(shí)間總是不多了。找不到隊(duì)形站位,難以貫徹戰(zhàn)術(shù)安排;反復(fù)演練的配合,場(chǎng)上無(wú)用武之地;小范圍成功傳切,難擋對(duì)方帽子戲法;苦于達(dá)成默契,技戰(zhàn)術(shù)明顯不穩(wěn)。。。艱苦卓絕的訓(xùn)練了10000小時(shí),仍差世界頂尖幾條長(zhǎng)安街。
馬爾可夫困境
上帝說(shuō)“這世界太黑了,要有光”,于是牛頓出現(xiàn)了。牛頓如此成功,他的定律為人們描述了一個(gè)確定性的世界,萬(wàn)物都按照確定的簡(jiǎn)潔的規(guī)律運(yùn)行,如同精心設(shè)計(jì)的機(jī)械鐘表。大數(shù)學(xué)家拉普拉斯甚至推導(dǎo)出了心中的智者。直到馬爾可夫建立了自己的隨機(jī)過(guò)程:“當(dāng)一個(gè)隨機(jī)過(guò)程在給定當(dāng)前狀態(tài)及所有過(guò)去狀態(tài)情況下,其未來(lái)狀態(tài)的條件概率分布僅依賴(lài)于當(dāng)前狀態(tài);換句話說(shuō),在給定當(dāng)前狀態(tài)時(shí),它與過(guò)去狀態(tài)(即該過(guò)程的歷史路徑)是條件獨(dú)立的,那么此隨機(jī)過(guò)程即具有馬爾可夫性質(zhì)?!?/p>
矯枉必須過(guò)正,或者必然過(guò)正。馬爾可夫過(guò)程隨即在物理、化學(xué),生物、遺傳,信息、互聯(lián)網(wǎng),經(jīng)濟(jì)、社會(huì)廣泛應(yīng)用,從彼時(shí)機(jī)械決定論的挑戰(zhàn)者,如今幾近變成放之四海而皆準(zhǔn)的真理,大多時(shí)候人們會(huì)不假思索的做出馬爾可夫性質(zhì)的假設(shè),從而進(jìn)一步享受(enjoy)馬爾可夫過(guò)程帶來(lái)建模與推演的便利。我們可敬的學(xué)長(zhǎng),“概率學(xué)界學(xué)術(shù)教父”,鐘開(kāi)萊先生在他的《Green, Brown, and Probability》書(shū)中如此評(píng)價(jià):"The Markov property means that the past has no after-effect on thefuture whenthe present is known; but beware,big mistakes have been made through misunderstanding the exact meaning of thewords 'when the present is known'."筆者斗膽譯為:“馬爾可夫性質(zhì)意味著過(guò)去對(duì)于未來(lái)沒(méi)有后效,當(dāng)現(xiàn)在已知的時(shí)候;但請(qǐng)知悉,因?qū)?'當(dāng)現(xiàn)在已知的時(shí)候' 這個(gè)表述的確切含義的誤解,已經(jīng)鑄成了大錯(cuò)?!?/p>
非馬爾可夫是規(guī)則,馬爾可夫是例外。這句話就可以解釋為什么強(qiáng)化學(xué)習(xí)目前只擅長(zhǎng)玩游戲,足球總是踢不好。因?yàn)殡娮佑螒蛲鶝](méi)有after-effect“后遺癥”, 而現(xiàn)實(shí)世界中后遺癥比比皆是。一塊石頭從陡坡上滑下,不具備馬爾可夫性質(zhì);你在泳池奮力游回岸邊,無(wú)奈嗆了水,不是馬爾可夫過(guò)程;冒名頂替,幾十年相安無(wú)事,不代表未來(lái)不會(huì)身陷囹圄,不是不報(bào),時(shí)候未到。教練的指導(dǎo)與戰(zhàn)術(shù)部署貫穿全場(chǎng),球場(chǎng)上形勢(shì)瞬息萬(wàn)變,捕獲每個(gè)時(shí)刻的全部狀態(tài)(State)信息幾乎是天方夜譚,馬爾可夫性質(zhì)也就無(wú)從談起。
眼鏡蛇效應(yīng)
或許很幸運(yùn),你的強(qiáng)化學(xué)習(xí)問(wèn)題恰好具備馬爾可夫性質(zhì),可以放心大膽建模成馬爾可夫過(guò)程。而且更幸運(yùn)的是,這個(gè)問(wèn)題跟金融折現(xiàn)一般直觀,所以選擇折現(xiàn)率 r 毫不費(fèi)力,然后你開(kāi)始構(gòu)建價(jià)值函數(shù)(Value function),以期后續(xù)用BellmanEquation推算激勵(lì)期望。是構(gòu)建狀態(tài)價(jià)值State Value函數(shù),還是行為價(jià)值 Action Value函數(shù)呢?正如牛頓的小石塊從有摩擦力的陡坡滑下,是看勢(shì)能還是看動(dòng)能?你的終極目標(biāo)是打怪升級(jí),可是這些終極目標(biāo)如何拆解到短期的每一步呢?是否存在到達(dá)終極目標(biāo)的完美路徑呢?你陷入深度思考。
人類(lèi)一思考,上帝就發(fā)笑。上帝知道此刻你用的是唯二的腦皮層回路,不是杏仁核的情緒反饋。腦皮層會(huì)三思而后行。強(qiáng)化學(xué)習(xí)究竟在激勵(lì)什么?怎樣給出合適的激勵(lì)呢?如何定義這個(gè)智能體當(dāng)前的需求呢?朝哪個(gè)維度激勵(lì)呢?激勵(lì)到什么程度呢?如何避免走一步看一步,得過(guò)且過(guò)呢?遇到斯坦福教授“棉花糖”實(shí)驗(yàn)中那些選擇延遲滿(mǎn)足的“熊孩子”怎么辦?你推崇的以退為進(jìn),聲東擊西,圍魏救趙的策略呢?你在訓(xùn)練的是個(gè)大腦還是杏仁核?
殖民時(shí)期印度,英政府想減少有毒眼鏡蛇的數(shù)量,頒布法令獎(jiǎng)勵(lì)打死眼鏡蛇。而印度人為賞金反而開(kāi)始養(yǎng)殖眼鏡蛇。英國(guó)政府意識(shí)到這個(gè)情況取消賞金后,養(yǎng)蛇人把毒蛇都放了繼而導(dǎo)致毒蛇大量繁殖。People always game thesystem,人們總會(huì)與機(jī)制博弈??b密設(shè)計(jì)的科舉,遺憾同樣無(wú)法完全規(guī)避冒名頂替,這里至少有242個(gè)坑爹的故事。谷歌科學(xué)家Alex舉過(guò)一個(gè)例子講他的模型如何作弊的:“有一個(gè)任務(wù)需要把紅色的樂(lè)高積木放到藍(lán)色的樂(lè)高積木上面,獎(jiǎng)勵(lì)函數(shù)的值基于紅色樂(lè)高積木底部的高度而定,結(jié)果一個(gè)模型直接把紅色樂(lè)高積木翻了一個(gè)底朝天”。所以,在編寫(xiě)激勵(lì)函數(shù)時(shí),請(qǐng)記?。耗愕玫降氖悄闼?lì)的,而不是你想要的。我可以理解此刻你茫然了,樂(lè)高尚且如此,更不用提足球比賽了。
智能體博弈
然而,這個(gè)世界有人的地方就有恩怨,有恩怨就有江湖,江湖的本質(zhì)是對(duì)有形的或者無(wú)形的,客觀的或者主觀的,合理的或者瘋狂的,當(dāng)下的或者未來(lái)的,所有稀缺資源的配置與優(yōu)化。有智能體的地方也不例外。下棋打游戲的巨大成功之后,足球比賽或許是深度強(qiáng)化學(xué)習(xí),在具備實(shí)用價(jià)值之前,不得不闖蕩的江湖?!瓣J蕩”是信息交流,是競(jìng)爭(zhēng)博弈,是協(xié)同合作,是成長(zhǎng)成功,是波浪式前進(jìn),螺旋式上升。
跟單智能體的強(qiáng)化學(xué)習(xí)類(lèi)似,多智能體強(qiáng)化學(xué)習(xí)(MARL)引入智能體(>=2個(gè)),這些智能體通過(guò)動(dòng)態(tài)地與其所在的環(huán)境交互來(lái)學(xué)習(xí)知識(shí)和經(jīng)驗(yàn)。與單智能體強(qiáng)化學(xué)習(xí)不同的是,MARL場(chǎng)景中,多個(gè)智能體構(gòu)成了江湖,他們彼此以及與環(huán)境(Environment)之間交流,合作,競(jìng)爭(zhēng),博弈。環(huán)境穩(wěn)定的情況下,博弈結(jié)果趨向于納什均衡,這一狀態(tài)(State)是:只要其他智能體不改變自己的策略(Policy),沒(méi)有任何一個(gè)智能體可以通過(guò)改變策略獲得更多的收益(Reward),這時(shí)的策略也就是混合了多個(gè)智能體的群體策略。科學(xué)家說(shuō)任何靜態(tài)的博弈至少有一個(gè)納什均衡狀態(tài),因而MARL都盡力收斂到納什均衡。
可以想見(jiàn),MARL體系的復(fù)雜性隨著環(huán)境中智能體的數(shù)量增加而指數(shù)級(jí)的增長(zhǎng),很快就會(huì)觸及維度災(zāi)難。如何為數(shù)量龐大的智能體確立學(xué)習(xí)目標(biāo),設(shè)定激勵(lì)機(jī)制,促進(jìn)群體共同學(xué)習(xí);如何調(diào)整每一個(gè)智能體的變動(dòng)的學(xué)習(xí)目標(biāo),調(diào)整其最優(yōu)策略隨著其他智能體的策略的改變而改變;如何在持續(xù)變更的環(huán)境中,描述長(zhǎng)時(shí)間尺度的激勵(lì),以便智能體產(chǎn)生延遲滿(mǎn)足,或者以退為進(jìn)的協(xié)同策略,目前看都是世界級(jí)難題。天才請(qǐng)火速入坑。
強(qiáng)化內(nèi)外兼修
《誰(shuí)建造了馬斯洛的金字塔?》總結(jié)到:“雖然后續(xù)大量的實(shí)證研究都無(wú)法證明馬斯洛需求層次理論,但是管理學(xué)的研究人員依然不愿意放棄它”,“其中一個(gè)重要的原因就是管理學(xué)在引用心理學(xué)、經(jīng)濟(jì)學(xué)理論時(shí),往往會(huì)曲解原意,以迎合自由市場(chǎng)、企業(yè)層級(jí)框架、公司管理等領(lǐng)域的需求”。而作為肩負(fù)人工智能后浪重任的深度強(qiáng)化學(xué)習(xí),繞不開(kāi)門(mén)衛(wèi)的靈魂三問(wèn):你是誰(shuí),從哪里來(lái),到哪里去。人們重倉(cāng)深度強(qiáng)化學(xué)習(xí),其中飽含對(duì)這一實(shí)現(xiàn)通用人工智能的潛力股的厚重期待,期待人工智能業(yè)界,遵照客觀規(guī)律,潛心攻克這些世界級(jí)難題,而不是制造AI轟動(dòng)效應(yīng),迎合社會(huì)與產(chǎn)業(yè)的公關(guān)炒作,這樣吊足胃口,空耗社會(huì)熱情,極易跌入新的寒冬。
面對(duì)有限理性的人們,把他們的行為簡(jiǎn)單地看成神經(jīng)系統(tǒng)對(duì)客觀環(huán)境激勵(lì)的反應(yīng),忽視了人的內(nèi)在因素,諸如需要、興趣、意識(shí)、觀念、思想與價(jià)值判斷等等,不符合心理活動(dòng)的客觀規(guī)律。人的行為是外部環(huán)境和內(nèi)部意識(shí)相互作用的結(jié)果,兩者結(jié)合才能達(dá)到調(diào)整行為的目的?;跈C(jī)械行為主義的深度強(qiáng)化學(xué)習(xí),需要加強(qiáng)探索設(shè)計(jì)智能體本身的需求,結(jié)合《赫胥黎焦慮》中探討的進(jìn)化策略(EvolutionStrategy)與適應(yīng)度函數(shù)設(shè)計(jì)短期長(zhǎng)期結(jié)合的激勵(lì)機(jī)制,徹底研究強(qiáng)化學(xué)習(xí)要解決的問(wèn)題本身,審慎判讀是否適用馬爾可夫假設(shè)從而合理建模,該博弈的博弈,能均衡的均衡。
我們的深度強(qiáng)化學(xué)習(xí)還是愛(ài)因斯坦的第一個(gè)小板凳,激勵(lì)機(jī)制的合理性與確定性仍不如薛定諤的貓,馬爾可夫的隨機(jī)過(guò)程天生無(wú)法建模量子的世界,多智能體也還在在探尋納什心目中的均衡解,而行為主義也正趨向內(nèi)外兼修。
參考文獻(xiàn):
https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf
http://www.jtoy.net/blog/deep-reinforcement-learning-is-a-waste-of-time.html
https://www.alexirpan.com/2018/02/14/rl-hard.html
http://www.sbfisica.org.br/bjp/files/v28_90.pdf
https://towardsdatascience.com/introduction-to-reinforcement-learning-markov-decision-process-44c533ebf8da
https://wiki.mbalib.com/wiki/%E6%BF%80%E5%8A%B1%E7%90%86%E8%AE%BA