91人妻久久久99精品系列,亚洲精品中文字幕乱码电影

薛定諤的小板凳與深度學(xué)習(xí)的后浪

除了《薛定諤的滾》，《薛定諤的佛》，《薛定諤的愛(ài)情》之外，薛定諤小板凳的勵(lì)志故事在坊間也廣為流傳：話說(shuō)薛定諤小的時(shí)候，老師布置回家做小板凳的手工作業(yè)。第二天老師看到薛定諤的粗糙小板凳說(shuō)：“我想世界上不會(huì)有比這更差的凳子了”，薛定諤卻從書(shū)桌下拿出兩個(gè)更為粗糙的小板凳說(shuō)：“有，這是我第一次和第二次做的，而剛交上去的是第三次做的”。

什么，你記得是愛(ài)因斯坦的小板凳？確定？愛(ài)因斯坦不是用相對(duì)論證明勾股定理來(lái)著嗎？他哪里會(huì)有時(shí)間做小板凳？！好吧，你是對(duì)的，enjoy。這個(gè)小板凳的故事，是一個(gè)偉大物理學(xué)家自我激勵(lì)的故事，也是薛定諤的千千萬(wàn)萬(wàn)的后浪們被激勵(lì)的故事。作者就是沐浴著這樣的勵(lì)志故事長(zhǎng)大的，自我激勵(lì)著，也被一波一波的前浪們引領(lǐng)著，裹挾到大數(shù)據(jù)人工智能這個(gè)江湖的。

激勵(lì)的是需求

薛定諤的成長(zhǎng)多大程度上來(lái)自自我激勵(lì)，不得而知，但是他的成功卻可能大多來(lái)自外部愛(ài)情的激勵(lì)，這一點(diǎn)我在《薛定諤的愛(ài)情》中強(qiáng)調(diào)過(guò)。有人試圖用馬斯洛的需求層次理論來(lái)解釋薛定諤現(xiàn)象：“人類(lèi)的需求是一個(gè)金字塔，從底部到頂部，依次是生理、安全、社交、尊重、自我實(shí)現(xiàn)這五個(gè)需求。人們需要滿(mǎn)足金字塔底層的需求后，才有條件滿(mǎn)足更高層次的需求”，但這個(gè)努力似乎是不成功的：薛定諤的奇數(shù)層是同時(shí)滿(mǎn)足的，你品，你細(xì)品；而千千萬(wàn)萬(wàn)的人在同樣的愛(ài)情的外部激勵(lì)下，卻都沒(méi)有發(fā)現(xiàn)薛定諤方程，或者其他什么方程。

但這不是馬斯洛的錯(cuò)，薛定諤畢竟是不確定性的代言人，海森伯也說(shuō)世界本來(lái)就是測(cè)不準(zhǔn)的。馬斯洛的需求金字塔，實(shí)實(shí)在在為早期的激勵(lì)理論(Incentivetheory)打下了堅(jiān)實(shí)的基礎(chǔ)。激勵(lì)理論最重要的流派，行為主義心理學(xué)創(chuàng)始人華生（John BroadusWatson）認(rèn)為：“通過(guò)激勵(lì)手段，誘發(fā)人的行為。在‘刺激—反應(yīng)’理論的指導(dǎo)下，激勵(lì)者的任務(wù)就是去選擇一套適當(dāng)?shù)拇碳?，即激?lì)手段，以引起被激勵(lì)者相應(yīng)的反應(yīng)標(biāo)準(zhǔn)和定型的活動(dòng)”。新行為主義者斯金納強(qiáng)調(diào)“人們的行為不僅取決于刺激的感知，也決定于行為的結(jié)果。當(dāng)行為的結(jié)果有利于個(gè)人時(shí)，這種行為就會(huì)重復(fù)出現(xiàn)而起著強(qiáng)化激勵(lì)作用。如果行為的結(jié)果對(duì)個(gè)人不利，這一行為就會(huì)削弱或消失。所以在訓(xùn)練（Training）中運(yùn)用肯定、表?yè)P(yáng)、獎(jiǎng)賞或否定、批評(píng)、懲罰等強(qiáng)化手段，可以對(duì)學(xué)習(xí)者的行為進(jìn)行定向控制或改變，以引導(dǎo)到預(yù)期的最佳狀態(tài)?！?/p>

行為主義大道

而這有意或無(wú)意的成了強(qiáng)化學(xué)習(xí)/深度強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)。作為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)浪潮后，人工智能領(lǐng)域最被廣泛看好的后浪，強(qiáng)化學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)被業(yè)界寄（da）予（si）厚（chui）望（peng），成為通往通用人工智能（AGI）大門(mén)的金鑰匙。DeepMind 星際2 AI 對(duì)人類(lèi)玩家的暴擊， OpenAI 15億參數(shù)的GPT-2超人語(yǔ)言模型，2019年深度強(qiáng)化學(xué)習(xí)的成功，激勵(lì)了人工智能領(lǐng)域的后浪們，沿著華生的行為主義康莊大道，前赴后繼。

強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支，有別于經(jīng)典的有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)，其最大的特點(diǎn)就是在交互中學(xué)習(xí)（Learningfrom Interaction）。通過(guò)讓軟件定義的智能體（Agent）與環(huán)境（Environment）交互來(lái)訓(xùn)練模型。當(dāng)智能體的行為（Action）產(chǎn)生期望的結(jié)果時(shí)，智能體將獲得激勵(lì)（Reward），也就是環(huán)境給它這個(gè)行為正面或者負(fù)面的反饋，促其成長(zhǎng)到新的狀態(tài)（State），這一行為也將被強(qiáng)化，塑造智能體在此環(huán)境下，后續(xù)的良好行為。這一交互過(guò)程持續(xù)迭代，智能體在獎(jiǎng)勵(lì)或懲罰中不斷的“學(xué)習(xí)知識(shí)”，“積累經(jīng)驗(yàn)”，從而更加適應(yīng)環(huán)境。業(yè)界認(rèn)為這一學(xué)習(xí)的范式非常類(lèi)似于人類(lèi)求知的過(guò)程，因而也就對(duì)其實(shí)現(xiàn)通用人工智能充滿(mǎn)期待。

未來(lái)不迎MDP

智能體不能隨意改變的任何東西都可以被認(rèn)為是環(huán)境的一部分，行為可以是我們想讓智能體學(xué)習(xí)的任何決策，狀態(tài)則是可以幫助智能體進(jìn)行行為選擇的任何事。同時(shí)，也不假定環(huán)境中的一切對(duì)智能體而言都是未知的，例如激勵(lì)規(guī)則是環(huán)境的一部分，但是智能體可以了解其算法，甚至智能體完全可以對(duì)環(huán)境此刻的獎(jiǎng)懲機(jī)制了然于“心”。

想象一下自己是C羅，在踢一場(chǎng)足球聯(lián)賽，你就是球場(chǎng)上那個(gè)懵懂的智能體（Agent），球場(chǎng)、裁判、隊(duì)友與對(duì)手都是其所處環(huán)境（Environment）的一部分?，F(xiàn)在你要決定腳下這個(gè)球怎么踢（Action），傳球給隊(duì)友中的哪一位？還是自己拔腳怒射？還是傳給對(duì)手（假定是某大國(guó)風(fēng)范男足）？你頭腦里極其清楚，球踢到對(duì)方球門(mén)里，就能得一分（Reward），而踢到自家球門(mén)里，對(duì)方就得一分。你腦海過(guò)電影式的閃現(xiàn)剛才發(fā)生的一幕幕（Historical States ），形勢(shì)緊迫，你快速環(huán)顧了一下全場(chǎng)狀態(tài)（State)，判斷了一下傳給隊(duì)友與射門(mén)成功的各種可能性（Policy），最后起腳射門(mén)，打在橫梁，嚇得對(duì)方守門(mén)員一身冷汗，隊(duì)友沖過(guò)來(lái)“拍了拍”你，以資鼓勵(lì)。至此，你完成了一次攻防（Episode）。

踢球正如下棋，最好能多看幾步，下棋落子無(wú)悔，踢球卻更復(fù)雜，即便多看了幾步，事情也不一定按照你設(shè)想的方向發(fā)展。萬(wàn)一遇到豬隊(duì)友呢，萬(wàn)一自己就是豬隊(duì)友呢，由于體力不支，本打算打門(mén)的球，妥妥地傳給了對(duì)方后衛(wèi)呢。場(chǎng)上形勢(shì)瞬息萬(wàn)變，讓人一籌莫展。這時(shí)候你憶起了強(qiáng)化學(xué)習(xí)的心法：MP -> MRP -> MDP，靈明無(wú)著，物來(lái)順應(yīng)，未來(lái)不迎，當(dāng)時(shí)不雜，既過(guò)不戀。

既過(guò)不戀M(fèi)P，馬爾可夫過(guò)程，無(wú)記憶的隨機(jī)過(guò)程，也就是，一個(gè)具備馬爾可夫性質(zhì)的隨機(jī)狀態(tài)序列S1,S2, …，可定義為<S,P>，S是有限狀態(tài)的集合，P是狀態(tài)到狀態(tài)的轉(zhuǎn)移概率；=> 當(dāng)時(shí)不雜MRP，馬爾可夫激勵(lì)過(guò)程，一個(gè)懂得價(jià)值（Value）的馬爾可夫過(guò)程，可以表示為<S,P, R, r>, R是激勵(lì)函數(shù)，R是t狀態(tài)到t+1狀態(tài)的激勵(lì)的數(shù)學(xué)期望，r是激勵(lì)的價(jià)值貼現(xiàn)率；=> 未來(lái)不迎MDP, 馬爾可夫決策過(guò)程，是馬爾可夫激勵(lì)過(guò)程參與某種決策，它處于一個(gè)環(huán)境（Environment），其中的狀態(tài)都是馬爾可夫狀態(tài)，<S,P,R,r,A>, A是有限的行為的集合。

拜天資聰穎，悟性極高，加之勤于溫習(xí)心法，你很快參透其中奧妙，下棋、星際Dota無(wú)往不勝。然而，球還是踢不好，中秋節(jié)拜早年也無(wú)濟(jì)于事，留給球隊(duì)的時(shí)間總是不多了。找不到隊(duì)形站位，難以貫徹戰(zhàn)術(shù)安排；反復(fù)演練的配合，場(chǎng)上無(wú)用武之地；小范圍成功傳切，難擋對(duì)方帽子戲法；苦于達(dá)成默契，技戰(zhàn)術(shù)明顯不穩(wěn)。。。艱苦卓絕的訓(xùn)練了10000小時(shí)，仍差世界頂尖幾條長(zhǎng)安街。

馬爾可夫困境

上帝說(shuō)“這世界太黑了，要有光”，于是牛頓出現(xiàn)了。牛頓如此成功，他的定律為人們描述了一個(gè)確定性的世界，萬(wàn)物都按照確定的簡(jiǎn)潔的規(guī)律運(yùn)行，如同精心設(shè)計(jì)的機(jī)械鐘表。大數(shù)學(xué)家拉普拉斯甚至推導(dǎo)出了心中的智者。直到馬爾可夫建立了自己的隨機(jī)過(guò)程：“當(dāng)一個(gè)隨機(jī)過(guò)程在給定當(dāng)前狀態(tài)及所有過(guò)去狀態(tài)情況下，其未來(lái)狀態(tài)的條件概率分布僅依賴(lài)于當(dāng)前狀態(tài)；換句話說(shuō)，在給定當(dāng)前狀態(tài)時(shí)，它與過(guò)去狀態(tài)（即該過(guò)程的歷史路徑）是條件獨(dú)立的，那么此隨機(jī)過(guò)程即具有馬爾可夫性質(zhì)?！?/p>

矯枉必須過(guò)正，或者必然過(guò)正。馬爾可夫過(guò)程隨即在物理、化學(xué)，生物、遺傳，信息、互聯(lián)網(wǎng)，經(jīng)濟(jì)、社會(huì)廣泛應(yīng)用，從彼時(shí)機(jī)械決定論的挑戰(zhàn)者，如今幾近變成放之四海而皆準(zhǔn)的真理，大多時(shí)候人們會(huì)不假思索的做出馬爾可夫性質(zhì)的假設(shè)，從而進(jìn)一步享受（enjoy）馬爾可夫過(guò)程帶來(lái)建模與推演的便利。我們可敬的學(xué)長(zhǎng)，“概率學(xué)界學(xué)術(shù)教父”，鐘開(kāi)萊先生在他的《Green, Brown, and Probability》書(shū)中如此評(píng)價(jià)："The Markov property means that the past has no after-effect on thefuture whenthe present is known; but beware,big mistakes have been made through misunderstanding the exact meaning of thewords 'when the present is known'."筆者斗膽譯為：“馬爾可夫性質(zhì)意味著過(guò)去對(duì)于未來(lái)沒(méi)有后效，當(dāng)現(xiàn)在已知的時(shí)候；但請(qǐng)知悉，因?qū)?'當(dāng)現(xiàn)在已知的時(shí)候' 這個(gè)表述的確切含義的誤解，已經(jīng)鑄成了大錯(cuò)?！?/p>

非馬爾可夫是規(guī)則，馬爾可夫是例外。這句話就可以解釋為什么強(qiáng)化學(xué)習(xí)目前只擅長(zhǎng)玩游戲，足球總是踢不好。因?yàn)殡娮佑螒蛲鶝](méi)有after-effect“后遺癥”, 而現(xiàn)實(shí)世界中后遺癥比比皆是。一塊石頭從陡坡上滑下，不具備馬爾可夫性質(zhì)；你在泳池奮力游回岸邊，無(wú)奈嗆了水，不是馬爾可夫過(guò)程；冒名頂替，幾十年相安無(wú)事，不代表未來(lái)不會(huì)身陷囹圄，不是不報(bào)，時(shí)候未到。教練的指導(dǎo)與戰(zhàn)術(shù)部署貫穿全場(chǎng)，球場(chǎng)上形勢(shì)瞬息萬(wàn)變，捕獲每個(gè)時(shí)刻的全部狀態(tài)（State）信息幾乎是天方夜譚，馬爾可夫性質(zhì)也就無(wú)從談起。

眼鏡蛇效應(yīng)

或許很幸運(yùn)，你的強(qiáng)化學(xué)習(xí)問(wèn)題恰好具備馬爾可夫性質(zhì)，可以放心大膽建模成馬爾可夫過(guò)程。而且更幸運(yùn)的是，這個(gè)問(wèn)題跟金融折現(xiàn)一般直觀，所以選擇折現(xiàn)率 r 毫不費(fèi)力，然后你開(kāi)始構(gòu)建價(jià)值函數(shù)（Value function），以期后續(xù)用BellmanEquation推算激勵(lì)期望。是構(gòu)建狀態(tài)價(jià)值State Value函數(shù)，還是行為價(jià)值 Action Value函數(shù)呢？正如牛頓的小石塊從有摩擦力的陡坡滑下，是看勢(shì)能還是看動(dòng)能？你的終極目標(biāo)是打怪升級(jí)，可是這些終極目標(biāo)如何拆解到短期的每一步呢？是否存在到達(dá)終極目標(biāo)的完美路徑呢？你陷入深度思考。

人類(lèi)一思考，上帝就發(fā)笑。上帝知道此刻你用的是唯二的腦皮層回路，不是杏仁核的情緒反饋。腦皮層會(huì)三思而后行。強(qiáng)化學(xué)習(xí)究竟在激勵(lì)什么？怎樣給出合適的激勵(lì)呢？如何定義這個(gè)智能體當(dāng)前的需求呢？朝哪個(gè)維度激勵(lì)呢？激勵(lì)到什么程度呢？如何避免走一步看一步，得過(guò)且過(guò)呢？遇到斯坦福教授“棉花糖”實(shí)驗(yàn)中那些選擇延遲滿(mǎn)足的“熊孩子”怎么辦？你推崇的以退為進(jìn)，聲東擊西，圍魏救趙的策略呢？你在訓(xùn)練的是個(gè)大腦還是杏仁核？

殖民時(shí)期印度，英政府想減少有毒眼鏡蛇的數(shù)量，頒布法令獎(jiǎng)勵(lì)打死眼鏡蛇。而印度人為賞金反而開(kāi)始養(yǎng)殖眼鏡蛇。英國(guó)政府意識(shí)到這個(gè)情況取消賞金后，養(yǎng)蛇人把毒蛇都放了繼而導(dǎo)致毒蛇大量繁殖。People always game thesystem，人們總會(huì)與機(jī)制博弈?？b密設(shè)計(jì)的科舉，遺憾同樣無(wú)法完全規(guī)避冒名頂替，這里至少有242個(gè)坑爹的故事。谷歌科學(xué)家Alex舉過(guò)一個(gè)例子講他的模型如何作弊的：“有一個(gè)任務(wù)需要把紅色的樂(lè)高積木放到藍(lán)色的樂(lè)高積木上面，獎(jiǎng)勵(lì)函數(shù)的值基于紅色樂(lè)高積木底部的高度而定，結(jié)果一個(gè)模型直接把紅色樂(lè)高積木翻了一個(gè)底朝天”。所以，在編寫(xiě)激勵(lì)函數(shù)時(shí)，請(qǐng)記?。耗愕玫降氖悄闼?lì)的，而不是你想要的。我可以理解此刻你茫然了，樂(lè)高尚且如此，更不用提足球比賽了。

智能體博弈

然而，這個(gè)世界有人的地方就有恩怨，有恩怨就有江湖，江湖的本質(zhì)是對(duì)有形的或者無(wú)形的，客觀的或者主觀的，合理的或者瘋狂的，當(dāng)下的或者未來(lái)的，所有稀缺資源的配置與優(yōu)化。有智能體的地方也不例外。下棋打游戲的巨大成功之后，足球比賽或許是深度強(qiáng)化學(xué)習(xí)，在具備實(shí)用價(jià)值之前，不得不闖蕩的江湖?！瓣J蕩”是信息交流，是競(jìng)爭(zhēng)博弈，是協(xié)同合作，是成長(zhǎng)成功，是波浪式前進(jìn)，螺旋式上升。

跟單智能體的強(qiáng)化學(xué)習(xí)類(lèi)似，多智能體強(qiáng)化學(xué)習(xí)（MARL）引入智能體（>=2個(gè)），這些智能體通過(guò)動(dòng)態(tài)地與其所在的環(huán)境交互來(lái)學(xué)習(xí)知識(shí)和經(jīng)驗(yàn)。與單智能體強(qiáng)化學(xué)習(xí)不同的是，MARL場(chǎng)景中，多個(gè)智能體構(gòu)成了江湖，他們彼此以及與環(huán)境（Environment）之間交流，合作，競(jìng)爭(zhēng)，博弈。環(huán)境穩(wěn)定的情況下，博弈結(jié)果趨向于納什均衡，這一狀態(tài)（State）是：只要其他智能體不改變自己的策略（Policy），沒(méi)有任何一個(gè)智能體可以通過(guò)改變策略獲得更多的收益（Reward），這時(shí)的策略也就是混合了多個(gè)智能體的群體策略。科學(xué)家說(shuō)任何靜態(tài)的博弈至少有一個(gè)納什均衡狀態(tài)，因而MARL都盡力收斂到納什均衡。

可以想見(jiàn)，MARL體系的復(fù)雜性隨著環(huán)境中智能體的數(shù)量增加而指數(shù)級(jí)的增長(zhǎng)，很快就會(huì)觸及維度災(zāi)難。如何為數(shù)量龐大的智能體確立學(xué)習(xí)目標(biāo)，設(shè)定激勵(lì)機(jī)制，促進(jìn)群體共同學(xué)習(xí)；如何調(diào)整每一個(gè)智能體的變動(dòng)的學(xué)習(xí)目標(biāo)，調(diào)整其最優(yōu)策略隨著其他智能體的策略的改變而改變；如何在持續(xù)變更的環(huán)境中，描述長(zhǎng)時(shí)間尺度的激勵(lì)，以便智能體產(chǎn)生延遲滿(mǎn)足，或者以退為進(jìn)的協(xié)同策略，目前看都是世界級(jí)難題。天才請(qǐng)火速入坑。

強(qiáng)化內(nèi)外兼修

《誰(shuí)建造了馬斯洛的金字塔？》總結(jié)到：“雖然后續(xù)大量的實(shí)證研究都無(wú)法證明馬斯洛需求層次理論，但是管理學(xué)的研究人員依然不愿意放棄它”，“其中一個(gè)重要的原因就是管理學(xué)在引用心理學(xué)、經(jīng)濟(jì)學(xué)理論時(shí)，往往會(huì)曲解原意，以迎合自由市場(chǎng)、企業(yè)層級(jí)框架、公司管理等領(lǐng)域的需求”。而作為肩負(fù)人工智能后浪重任的深度強(qiáng)化學(xué)習(xí)，繞不開(kāi)門(mén)衛(wèi)的靈魂三問(wèn)：你是誰(shuí)，從哪里來(lái)，到哪里去。人們重倉(cāng)深度強(qiáng)化學(xué)習(xí)，其中飽含對(duì)這一實(shí)現(xiàn)通用人工智能的潛力股的厚重期待，期待人工智能業(yè)界，遵照客觀規(guī)律，潛心攻克這些世界級(jí)難題，而不是制造AI轟動(dòng)效應(yīng)，迎合社會(huì)與產(chǎn)業(yè)的公關(guān)炒作，這樣吊足胃口，空耗社會(huì)熱情，極易跌入新的寒冬。

面對(duì)有限理性的人們，把他們的行為簡(jiǎn)單地看成神經(jīng)系統(tǒng)對(duì)客觀環(huán)境激勵(lì)的反應(yīng)，忽視了人的內(nèi)在因素，諸如需要、興趣、意識(shí)、觀念、思想與價(jià)值判斷等等，不符合心理活動(dòng)的客觀規(guī)律。人的行為是外部環(huán)境和內(nèi)部意識(shí)相互作用的結(jié)果，兩者結(jié)合才能達(dá)到調(diào)整行為的目的?；跈C(jī)械行為主義的深度強(qiáng)化學(xué)習(xí)，需要加強(qiáng)探索設(shè)計(jì)智能體本身的需求，結(jié)合《赫胥黎焦慮》中探討的進(jìn)化策略（EvolutionStrategy）與適應(yīng)度函數(shù)設(shè)計(jì)短期長(zhǎng)期結(jié)合的激勵(lì)機(jī)制，徹底研究強(qiáng)化學(xué)習(xí)要解決的問(wèn)題本身，審慎判讀是否適用馬爾可夫假設(shè)從而合理建模，該博弈的博弈，能均衡的均衡。

我們的深度強(qiáng)化學(xué)習(xí)還是愛(ài)因斯坦的第一個(gè)小板凳，激勵(lì)機(jī)制的合理性與確定性仍不如薛定諤的貓，馬爾可夫的隨機(jī)過(guò)程天生無(wú)法建模量子的世界，多智能體也還在在探尋納什心目中的均衡解，而行為主義也正趨向內(nèi)外兼修。

參考文獻(xiàn)：

https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf

http://www.jtoy.net/blog/deep-reinforcement-learning-is-a-waste-of-time.html

https://www.alexirpan.com/2018/02/14/rl-hard.html

http://www.sbfisica.org.br/bjp/files/v28_90.pdf

https://towardsdatascience.com/introduction-to-reinforcement-learning-markov-decision-process-44c533ebf8da

https://wiki.mbalib.com/wiki/%E6%BF%80%E5%8A%B1%E7%90%86%E8%AE%BA