年初 ChatGPT 爆火,美國《時(shí)代周刊》發(fā)文揭露其背后的「血汗工廠」,給「AIGC 領(lǐng)頭羊」耀眼的光環(huán)蒙上了一層巨大陰影。
據(jù)報(bào)道,為訓(xùn)練 ChatGPT 識(shí)別有害內(nèi)容,一群來自肯尼亞、烏干達(dá)和印度的外包員工負(fù)責(zé)給數(shù)據(jù)庫手動(dòng)標(biāo)注,他們每天花費(fèi) 9 小時(shí)鑒別各種攻擊性詞匯,每小時(shí)至多標(biāo)注 2 萬個(gè)單詞,收獲是 1.32-2 美元的時(shí)薪以及持久的心理創(chuàng)傷。
報(bào)道一出,輿論嘩然,這堪稱人工智能時(shí)代最不智能的操作。拋開勞工問題,此事件也折射出監(jiān)督學(xué)習(xí)一大痛點(diǎn):
為 AI 模型尤其是大模型準(zhǔn)備大規(guī)模、預(yù)先標(biāo)注的訓(xùn)練數(shù)據(jù),是件相當(dāng)耗力的事。
作者 | 鐵塔
編輯 | 三羊
本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺(tái)~
在全息顯微圖重建 (Holography microscopic reconstruction) 領(lǐng)域,這一問題也給科研工作帶來了曠日持久的折磨。
深度學(xué)習(xí)在計(jì)算成像和顯微成像方面的現(xiàn)有應(yīng)用,主要依賴于監(jiān)督學(xué)習(xí),需要大規(guī)模、多樣化和預(yù)先標(biāo)注的訓(xùn)練數(shù)據(jù),但此類訓(xùn)練圖像數(shù)據(jù)集的獲取和準(zhǔn)備通常很費(fèi)力且成本高昂,而且這些方法往往對(duì)新樣本類型的泛化有限。
今年 8 月 7 日,加州大學(xué)洛杉磯分校的研究團(tuán)隊(duì)在 「Nature Machine Intelligence」 雜志報(bào)告了一個(gè)名為 GedankenNet 的自監(jiān)督模型,其突出特質(zhì)是無需真實(shí)數(shù)據(jù)或?qū)嶒?yàn)對(duì)象投喂,可直接從思想實(shí)驗(yàn) (Thought experiment) 和物理規(guī)律中學(xué)習(xí),且具備優(yōu)異的外部泛化性 (External generalization)。
論文鏈接:https://www.nature.com/articles/s42256-023-00704-7
GedankenNet 源于德語 Gedankenexperiment,意為「思想實(shí)驗(yàn)」,明明白白告訴你:
我,GedankenNet,和外面那些從真實(shí)數(shù)據(jù)和實(shí)驗(yàn)對(duì)象中學(xué)習(xí)的 AI 模型不一樣,我的學(xué)習(xí)對(duì)象,是愛因斯坦等科學(xué)家們都在用的思想實(shí)驗(yàn)!
該模型有望革除深度學(xué)習(xí)在全息顯微圖重建領(lǐng)域的弊病,為解決全息術(shù)、顯微鏡和計(jì)算成像中的逆問題創(chuàng)造出新機(jī)會(huì)。
全息顯微圖重建
先來簡單了解一下 GedankenNet 的應(yīng)用領(lǐng)域——全息顯微圖重建。
數(shù)字全息顯微成像 (Digital holographic microscopy) 是一種廣泛用于生物醫(yī)學(xué)和物理科學(xué)及工程的無標(biāo)簽成像技術(shù),與傳統(tǒng)的二維顯微成像相比,全息顯微圖提供了一種更全面、非破壞性、高分辨率的顯微觀察和分析方法,它使用光學(xué)干涉技術(shù)從采集的全息圖數(shù)據(jù)中恢復(fù)原始物體的三維形態(tài),可幫助科學(xué)家和研究人員更好地理解和研究微觀世界。
如何進(jìn)行顯微全息圖重建呢?傳統(tǒng)方法主要分為兩類:
基于物理前向模型和迭代誤差減少的迭代相位恢復(fù)算法;
基于有監(jiān)督深度學(xué)習(xí)的推理方法。
第一類方法通過迭代優(yōu)化來逐步改進(jìn)對(duì)復(fù)數(shù)場 (Complex field) 的估計(jì)。首先利用物理模型計(jì)算出由復(fù)數(shù)場引起的理論全息圖與實(shí)際測量的全息圖之間的誤差,隨后根據(jù)這個(gè)誤差進(jìn)行調(diào)整,重復(fù)該過程直到實(shí)現(xiàn)一定的準(zhǔn)確度。
第二類方法訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從輸入全息圖到復(fù)數(shù)場的映射,通常由成對(duì)的全息圖和對(duì)應(yīng)的復(fù)數(shù)場作為訓(xùn)練數(shù)據(jù),讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這些數(shù)據(jù)對(duì)之間的關(guān)系,從而預(yù)測和重建復(fù)數(shù)場。
注:復(fù)數(shù)場,描述物體光學(xué)性質(zhì)分布,包含光場的振幅和相位信息。
不過這些傳統(tǒng)方法通常需要多次迭代來調(diào)整和優(yōu)化預(yù)測的全息圖,速度較慢,而 GedankenNet 采取了完全不一樣的思路,既避免了迭代過程,又取得了更好的重建結(jié)果和更快的速度。
走近 GedankenNet
模型訓(xùn)練
1.方法
與現(xiàn)有的基于學(xué)習(xí)的方法不同,GedankenNet 不直接比較輸出復(fù)數(shù)場與真實(shí)復(fù)數(shù)場的差異,而是通過觀察輸入的全息圖和相應(yīng)的目標(biāo)輸出(比如清晰的圖像),從帶有物理一致性約束的數(shù)據(jù)中學(xué)習(xí)到復(fù)數(shù)場的重建模式,并生成相應(yīng)的全息圖預(yù)測,而無需逐步迭代調(diào)整。
物理一致性損失是 GedankenNet 訓(xùn)練方法的核心組成部分,它基于波動(dòng)方程 (Wave equation) 的條件和實(shí)際觀測數(shù)據(jù)之間的差異來度量重建結(jié)果的準(zhǔn)確性。
通過最小化物理一致性損失,模型能夠?qū)⒂^察數(shù)據(jù)與波動(dòng)方程的預(yù)期行為相匹配,從而得到更符合物理規(guī)律的全息圖重建結(jié)果。
2.數(shù)據(jù)集
GedankenNet 的訓(xùn)練數(shù)據(jù)集由隨機(jī)圖像產(chǎn)生的人工全息圖組成,這些人工全息圖從隨機(jī)圖像或自然圖像(COCO 數(shù)據(jù)集)模擬,使用 Python 隨機(jī)圖像包生成隨機(jī)圖像(與真實(shí)世界樣本沒有連接或相似性)。
圖 1:GedankenNet 示意圖和其他現(xiàn)有解決全息成像問題的方法
a. 經(jīng)典迭代全息圖重建算法、自監(jiān)督深層神經(jīng)網(wǎng) (GedankenNet) 和現(xiàn)有的監(jiān)督深層神經(jīng)網(wǎng)絡(luò)
b. GedankenNet 的自監(jiān)督訓(xùn)練過程
模型驗(yàn)證
1. 重建圖像質(zhì)量
研究人員按照?qǐng)D 1 的訓(xùn)練過程,訓(xùn)練了一系列接受多個(gè)輸入全息圖(M 范圍從 2 到 7 )的自監(jiān)督網(wǎng)絡(luò)模型,并采用MHPR(Multi-height phase retrieval) 多高度相位恢復(fù)算法從每個(gè)視場的 8 幅原始全息圖中提取了真實(shí)對(duì)象圖片,據(jù)此對(duì)比評(píng)估不同 GedankenNet 模型在重建圖像質(zhì)量方面的表現(xiàn)。
研究結(jié)果表明,即便沒有使用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,所有 GedankenNet 模型都以高保真度重建了樣本場。
圖 2:GedankenNet 利用多 (M) 輸入全息圖進(jìn)行全息重建的性能
1.外部泛化能力
為驗(yàn)證 GedankenNet 的外部泛化能力,研究人員將 GedankenNet 模型與其他監(jiān)督學(xué)習(xí)模型(基于相同的人工圖像訓(xùn)練集訓(xùn)練而成)、迭代相位恢復(fù)算法進(jìn)行了對(duì)比,測試數(shù)據(jù)采用包括人體組織切片和宮頸涂片在內(nèi)的實(shí)驗(yàn)全息圖。
如下圖所示,與這些監(jiān)督學(xué)習(xí)方法相比,GedankenNet 在所有 4 種樣本(肺、唾液腺和前列腺組織切片以及巴氏涂片 (Pap smear) )上表現(xiàn)出更好的外部泛化性,得到了更高的增強(qiáng)相關(guān)系數(shù) (ECC) 值。
此外,研究人員還針對(duì)經(jīng)典的迭代相位恢復(fù)算法,即 MHPR 進(jìn)行了比較分析。結(jié)果顯示,與使用相同輸入全息圖的 MHPR(M=2) 相比,GedankenNet 推斷的復(fù)數(shù)場具有更少的噪聲和更高的圖像保真度。
圖3:GedankenNet 對(duì)人體組織切片和巴氏涂片外部泛化結(jié)果,以及與現(xiàn)有監(jiān)督學(xué)習(xí)模型和 MHPR 的比較
a. GedankenNet 在人體肺部、唾液腺、前列腺和巴氏涂片全息圖上的外部泛化,以及與現(xiàn)有監(jiān)督學(xué)習(xí)模型和 MHPR 的比較
b. 監(jiān)督學(xué)習(xí)方法在同樣的測試數(shù)據(jù)集上的外部泛化結(jié)果。這些監(jiān)督學(xué)習(xí)模型使用與 GedankenNet 相同的模擬全息圖數(shù)據(jù)集進(jìn)行訓(xùn)練
c. 使用相同的 M = 2 輸入全息圖的 MHPR 重建結(jié)果
d. 使用每個(gè)視場 (FOV,fields-of-view) 的 8 個(gè)原始全息圖獲取的地面真實(shí)復(fù)數(shù)場的結(jié)果。標(biāo)尺:50 μm
表1:GedankenNet、監(jiān)督學(xué)習(xí)模型和 MHPR 的全息圖像推理時(shí)間(樣本面積:1 mm2)
如表 1 所示 ,與 MHPR(M = 2)相比,GedankenNet 將圖像重建過程加速了約 128 倍。
綜上,這些全息成像實(shí)驗(yàn)和結(jié)果分析成功證明了 GedankenNet 對(duì)未知新型樣本優(yōu)越的泛化能力,并能實(shí)現(xiàn)出色的圖像重建性能。
3. 對(duì)其他訓(xùn)練數(shù)據(jù)的泛化
為證明其他數(shù)據(jù)集訓(xùn)練出來的 GedankenNet 也具備同樣性能,研究人員使用以下數(shù)據(jù)集單獨(dú)訓(xùn)練了 3 個(gè) GedankenNet 模型:
(1)從隨機(jī)圖像生成的人工全息圖數(shù)據(jù)集,與之前相同
(2)從自然圖像數(shù)據(jù)集 (COCO) 生成的新的人工全息圖數(shù)據(jù)集
(3)人肺組織切片的實(shí)驗(yàn)全息圖數(shù)據(jù)集
這 3 個(gè)單獨(dú)訓(xùn)練的 GedankenNet 模型在 4 個(gè)測試數(shù)據(jù)集上進(jìn)行了測試,包括隨機(jī)合成圖像的人工全息圖、自然圖像的人工全息圖,以及人肺組織切片、宮頸涂片的實(shí)驗(yàn)全息圖。
圖4:不同 GedankenNet 對(duì)其他測試數(shù)據(jù)集的泛化
研究結(jié)果顯示,所有的自監(jiān)督 GedankenNet 模型在內(nèi)部和外部泛化方面都表現(xiàn)出優(yōu)異的圖像重建質(zhì)量(圖4a,b)。
值得注意的是,如圖 4b 中的紅條所示,監(jiān)督模型在內(nèi)部和外部泛化表現(xiàn)之間的性能差距較大,表明了其過擬合現(xiàn)象。相反,GedankenNet 模型(藍(lán)條)展現(xiàn)出了非常好的泛化性能,覆蓋了自然宏觀圖像和微觀組織圖像的測試數(shù)據(jù)集。
4.與波動(dòng)方程的兼容性
與圖 3 相同的模型被用于分析 GedankenNet 是否與波動(dòng)方程相容,方法是在肺組織切片上進(jìn)行盲目測試。
結(jié)果顯示,在使用偏焦全息圖進(jìn)行測試時(shí),GedankenNet 輸出了正確的(物理一致的)偏焦復(fù)雜場,而不是產(chǎn)生幻覺和非物理隨機(jī)光場。
從這個(gè)意義上說,GedankenNet 不僅展示了優(yōu)越的外部泛化能力(從無實(shí)驗(yàn)和數(shù)據(jù)的訓(xùn)練到實(shí)驗(yàn)全息圖),還很好地適應(yīng)了偏焦實(shí)驗(yàn)全息圖的工作。以往的文獻(xiàn)中,尚未有任何全息圖重建神經(jīng)網(wǎng)絡(luò)表現(xiàn)出這些特性。
圖 5 :GedankenNet 輸出圖像與自由空間波動(dòng)方程的兼容性
AI 具備「智慧」了嗎?
作為自我監(jiān)督的人工智能模型,GedankenNet 消除了對(duì)大規(guī)模、預(yù)先標(biāo)注的訓(xùn)練數(shù)據(jù)需要,展示了優(yōu)越的外部泛化能力和高質(zhì)量全息圖的重建結(jié)果。正如論文作者之一、加州大學(xué)洛杉磯分校電氣與計(jì)算機(jī)工程、生物工程系教授 Aydogan Ozcan 所言:
「這些發(fā)現(xiàn)說明了自監(jiān)督人工智能從思想實(shí)驗(yàn)中學(xué)習(xí)的潛力,就像科學(xué)家那樣。它為開發(fā)物理兼容、易于訓(xùn)練和廣泛通用的神經(jīng)網(wǎng)絡(luò)模型開辟了新機(jī)會(huì),可替代目前在各種計(jì)算成像任務(wù)中采用的標(biāo)準(zhǔn)、有監(jiān)督深度學(xué)習(xí)方法?!?/p>
一直以來,人們對(duì) AI 是否具備真正意義上的智能爭吵不休,畢竟即便強(qiáng)悍如擊敗多個(gè)世界圍棋冠軍、攻占人類智慧堡壘的 AlphaGo ,其本質(zhì)也是無需理解規(guī)則、仰仗算力不斷重復(fù)數(shù)學(xué)公式的代理罷了。
但如今這個(gè)能像科學(xué)家那樣從思想實(shí)驗(yàn)中學(xué)習(xí) GedankenNet 模型的問世 ,是否意味著 AI 已經(jīng)在某種程度上具備人類獨(dú)一份的「智慧」了呢?歡迎大家在留言區(qū)暢所欲言哦。
參考鏈接:
https://www.sciencedaily.com/releases/2023/08/230807122001.htm
本文首發(fā)于 HyperAI 超神經(jīng)微信公眾平臺(tái)~