版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

AI圖像新玩法!清華團(tuán)隊(duì)提出“高分辨率”圖像生成方法

學(xué)術(shù)頭條
一起見(jiàn)證人類探索征途上的每一個(gè)重大突破。
收藏

在火熱的“AI 圖像生成”領(lǐng)域,任意不同分辨率的無(wú)縫銜接擴(kuò)散模型,出現(xiàn)了。

近日,來(lái)自清華大學(xué)和智譜 AI 的研究團(tuán)隊(duì)聯(lián)合提出了一個(gè)新型級(jí)聯(lián)模型——Relay Diffusion(RDM)。據(jù)介紹,運(yùn)用該模型,擴(kuò)散過(guò)程可以在任何新的分辨率或模型下無(wú)縫進(jìn)行,而無(wú)需從純?cè)肼曋匦麻_(kāi)始生成。

相關(guān)研究論文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”為題已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上,相關(guān)代碼已發(fā)布在 GitHub 上。

近些年來(lái),擴(kuò)散模型(Diffusion)在圖像合成方面取得了巨大的成功,顯著提升了圖片合成的質(zhì)量。然而,擴(kuò)散模型在合成高分辨率圖片時(shí)仍面臨較大挑戰(zhàn),一是低分辨率的噪聲調(diào)度很難直接用于高分辨率,研究者們需要為高分辨的場(chǎng)景謹(jǐn)慎地調(diào)節(jié)噪聲調(diào)度表,且仍難以獲得良好的結(jié)果;二是高分辨的訓(xùn)練過(guò)程需要大量資源,計(jì)算成本較高。

目前,一種普遍采用的解決方案是 latent (stable) diffusion 提出的在隱空間內(nèi)訓(xùn)練,再映射回像素空間,但這種方法不可避免地會(huì)受到底層偽影(low-level artifacts)的影響;另一種方案則是訓(xùn)練一系列不同分辨率的超分?jǐn)U散模型構(gòu)成級(jí)聯(lián),現(xiàn)有的級(jí)聯(lián)方法是有效的,但它需要在每個(gè)階段從噪音開(kāi)始完整采樣,效率較低,且效果嚴(yán)重依賴于條件增強(qiáng)等訓(xùn)練技巧。

為了更好地解決上述問(wèn)題,研究團(tuán)隊(duì)提出的級(jí)聯(lián)模型 Relay Diffusion 在具備原有級(jí)聯(lián)方法優(yōu)點(diǎn)的同時(shí),借助模糊擴(kuò)散過(guò)程(blurring diffusion)和塊狀噪音(block noise),可以在任意不同分辨率間無(wú)縫銜接,就像“接力賽”一樣,極大地減少了訓(xùn)練和采樣的成本。

圖片

據(jù)論文描述,通過(guò)離散余弦變換頻譜分析發(fā)現(xiàn),相同噪聲強(qiáng)度在更高的分辨率下對(duì)應(yīng)于頻率空間的信噪比(SNR)在低頻部分更高,這意味著自然圖像的低頻信息沒(méi)有被很好地破壞掉。

為此,該研究提出了一種像素點(diǎn)間具有相關(guān)性的塊狀噪音——block noise,它在高分辨率下對(duì)應(yīng)的 SNR 在低頻部分和高斯噪音在低分辨率下的 SNR 相當(dāng)

圖片

以 64×64 和 256×256 為例,Relay Diffusion 的整體流程為:先通過(guò)標(biāo)準(zhǔn)擴(kuò)散過(guò)程生成低分辨率圖片,再將其上采樣為每個(gè) 4×4 網(wǎng)格具有相同像素值的模糊高分辨率圖片,之后對(duì)每個(gè) 4×4 的網(wǎng)格獨(dú)立進(jìn)行模糊擴(kuò)散過(guò)程(blurring diffusion)。

這樣使得前向過(guò)程的終態(tài)和上采樣的模糊圖片對(duì)齊,因此 Relay Diffusion 的第二階段可以直接以模糊圖片為起始點(diǎn),而不是現(xiàn)有級(jí)聯(lián)方法中的純高斯噪音。

實(shí)驗(yàn)結(jié)果顯示,相比傳統(tǒng)的級(jí)聯(lián)擴(kuò)散模型,Relay Diffusion 在生成高分辨率圖片時(shí),省去了生成低頻信息的部分,極大地節(jié)約了計(jì)算成本,同時(shí)更加簡(jiǎn)單,不需要以低分辨率圖片為條件和各種條件增強(qiáng)技巧,而且不需要重新設(shè)計(jì)或調(diào)節(jié)噪聲調(diào)度表。

圖片

另外,Relay Diffusion 在節(jié)省成本的同時(shí),還可以更快地達(dá)到更好的生成性能,在無(wú)條件數(shù)據(jù)集 CelebA-HQ-256 上達(dá)到了 SoTA 的 FID,在條件數(shù)據(jù)集 ImageNet-256 上達(dá)到了 SoTA 的 sFID 以及具有競(jìng)爭(zhēng)力的 FID,大幅超過(guò)了 ADM、LDM、DiT 等模型。當(dāng)不使用無(wú)分類器指導(dǎo)(CFG)時(shí),Relay Diffusion 也顯示出強(qiáng)大的性能優(yōu)勢(shì)。

圖片

研究團(tuán)隊(duì)表示,本次研究提出的級(jí)聯(lián)模型有助于創(chuàng)建更先進(jìn)的文本到圖像模型。

未來(lái),他們將繼續(xù)把 Relay Diffusion 中的相關(guān)技術(shù)應(yīng)用到通用領(lǐng)域的文生圖模型中,從而推動(dòng)該領(lǐng)域進(jìn)一步的研究。

論文鏈接:

https://arxiv.org/abs/2309.03350

GitHub地址:

https://github.com/THUDM/RelayDiffusion

評(píng)論
演繹無(wú)限精彩!
大學(xué)士級(jí)
清華團(tuán)隊(duì)提出“高分辨率”圖像生成方法,有助于創(chuàng)建更先進(jìn)的文本到圖像模型,可顯著提升圖片合成質(zhì)量,也顯示出Relay Diffusion強(qiáng)大的性能優(yōu)勢(shì)。
2023-09-09
坦 蕩 蕩
少師級(jí)
運(yùn)用該模型,擴(kuò)散過(guò)程可以在任何新的分辨率或模型下無(wú)縫進(jìn)行,而無(wú)需從純?cè)肼曋匦麻_(kāi)始生成。
2023-09-09
郝希忠
舉人級(jí)
大力發(fā)展高科技,不斷推進(jìn)我國(guó)科技發(fā)展水平。
2023-09-09