版權歸原作者所有,如有侵權,請聯(lián)系我們

[科普中國]-信息瓶頸

科學百科
原創(chuàng)
科學百科為用戶提供權威科普內容,打造知識科普陣地
收藏

信息瓶頸(英語:information bottleneck)是信息論中的一種方法,由納夫塔利·泰斯比、費爾南多·佩雷拉(Fernando C. Pereira)與威廉·比亞萊克于1999年提出。

簡介信息瓶頸(英語:information bottleneck)是信息論中的一種方法,由納夫塔利·泰斯比、費爾南多·佩雷拉(Fernando C. Pereira)與威廉·比亞萊克于1999年提出1。

對于一隨機變量,假設已知其與觀察變量 Y之間的聯(lián)合概率分布p(X,Y)。此時,當需要概括(聚類){\displaystyle X}時,可以通過信息瓶頸方法來分析如何最優(yōu)化地平衡準確度與復雜度(數(shù)據(jù)壓縮)。該方法的應用還包括分布聚類(distributional clustering)與降維等。

此外,信息瓶頸也被用于分析深度學習的過程。

信息瓶頸方法信息瓶頸方法中運用了互信息的概念。假設壓縮后的隨機變量為 T,我們試圖用 T代替 X來預測 Y。

此時,可使用以下算法得到最優(yōu)的T:

其中 分別為X與T之間、以及T與Y之間的互信息,可由 p(X,Y)計算得到。則表示拉格朗日乘數(shù)。

信息瓶頸:網(wǎng)絡在抽取相關性時的理論邊界2015年,Tishby和他的學生Noga Zaslavsky假設深度學習是一個信息瓶頸過程,盡可能地壓縮噪聲數(shù)據(jù),同時保留數(shù)據(jù)所代表的信息2。Tishby和Shwartz-Ziv對深度神經(jīng)網(wǎng)絡的新實驗揭示了瓶頸過程如何實際發(fā)生的。在一種情況下,研究人員使用小型神經(jīng)網(wǎng)絡,使用隨機梯度下降和BP,經(jīng)過訓練后,能夠用1或0(也即“是狗”或“不是狗”)標記輸入數(shù)據(jù),并給出其282個神經(jīng)連接隨機初始強度,然后跟蹤了網(wǎng)絡在接收3000個樣本輸入數(shù)據(jù)集后發(fā)生了什么。

實驗中,Tishby和Shwartz-Ziv跟蹤了每層網(wǎng)絡保留了多少輸入中的信息和輸出標簽中的信息。結果發(fā)現(xiàn),信息經(jīng)過逐層傳遞,最終收斂到信息瓶頸的理論邊界:也就是Tishby、Pereira和Bialek在他們1999年論文中推導出的理論界限,代表系統(tǒng)在抽取相關信息時能夠做到的最好的情況。在這個邊界上,網(wǎng)絡在沒有犧牲準確預測標簽能力的情況下,盡可能地壓縮輸入。

深度學習中的信息瓶頸問題信息瓶頸理論認為,網(wǎng)絡像把信息從一個瓶頸中擠壓出去一般,去除掉那些含有無關細節(jié)的噪音輸入數(shù)據(jù),只保留與通用概念(general concept)最相關的特征。Tishby和他的學生Ravid Shwartz-Ziv的最新實驗,展示了深度學習過程中這種“擠壓”是如何發(fā)生的(至少在他們所研究的案例里)。

Tishby的發(fā)現(xiàn)在AI研究圈激起了強烈的反向。Google Researc的Alex Alemi說:“我認為信息瓶頸的想法可能在未來深度神經(jīng)網(wǎng)絡的研究中非常重要?!盇lemi已經(jīng)開發(fā)了新的近似方法,在大規(guī)模深度神經(jīng)網(wǎng)絡中應用信息瓶頸分析。Alemi說,信息瓶頸可能“不僅能夠用于理解為什么神經(jīng)網(wǎng)絡有用,也是用于構建新目標和新網(wǎng)絡架構的理論工具”。

另外一些研究人員則持懷疑態(tài)度,認為信息瓶頸理論不能完全解釋深學習的成功。但是,紐約大學的粒子物理學家Kyle Cranmer——他使用機器學習來分析大型強子對撞機的粒子碰撞——表示,一種通用的學習原理(a general principle of learning),“聽上去有些道理”。

深度學習先驅Geoffrey Hinton在看完Tishby的柏林演講后發(fā)電子郵件給Tishby。“這簡直太有趣了,”Hinton寫道:“我還得聽上10,000次才能真正理解它,但如今聽一個演講,里面有真正原創(chuàng)的想法,而且可能解決重大的問題,真是非常罕見了?!?/p>

Tishby認為,信息瓶頸是學習的一個基本原則,無論是算法也好,蒼蠅也罷,任何有意識的存在或突發(fā)行為的物理學計算,大家最期待的答案——“學習最重要的部分實際上是忘記”。

本詞條內容貢獻者為:

程鵬 - 副教授 - 西南大學