在火熱的“AI 圖像生成”領(lǐng)域,任意不同分辨率的無(wú)縫銜接擴(kuò)散模型,出現(xiàn)了。
近日,來(lái)自清華大學(xué)和智譜 AI 的研究團(tuán)隊(duì)聯(lián)合提出了一個(gè)新型級(jí)聯(lián)模型——Relay Diffusion(RDM)。據(jù)介紹,運(yùn)用該模型,擴(kuò)散過(guò)程可以在任何新的分辨率或模型下無(wú)縫進(jìn)行,而無(wú)需從純?cè)肼曋匦麻_(kāi)始生成。
相關(guān)研究論文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”為題已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上,相關(guān)代碼已發(fā)布在 GitHub 上。
近些年來(lái),擴(kuò)散模型(Diffusion)在圖像合成方面取得了巨大的成功,顯著提升了圖片合成的質(zhì)量。然而,擴(kuò)散模型在合成高分辨率圖片時(shí)仍面臨較大挑戰(zhàn),一是低分辨率的噪聲調(diào)度很難直接用于高分辨率,研究者們需要為高分辨的場(chǎng)景謹(jǐn)慎地調(diào)節(jié)噪聲調(diào)度表,且仍難以獲得良好的結(jié)果;二是高分辨的訓(xùn)練過(guò)程需要大量資源,計(jì)算成本較高。
目前,一種普遍采用的解決方案是 latent (stable) diffusion 提出的在隱空間內(nèi)訓(xùn)練,再映射回像素空間,但這種方法不可避免地會(huì)受到底層偽影(low-level artifacts)的影響;另一種方案則是訓(xùn)練一系列不同分辨率的超分?jǐn)U散模型構(gòu)成級(jí)聯(lián),現(xiàn)有的級(jí)聯(lián)方法是有效的,但它需要在每個(gè)階段從噪音開(kāi)始完整采樣,效率較低,且效果嚴(yán)重依賴于條件增強(qiáng)等訓(xùn)練技巧。
為了更好地解決上述問(wèn)題,研究團(tuán)隊(duì)提出的級(jí)聯(lián)模型 Relay Diffusion 在具備原有級(jí)聯(lián)方法優(yōu)點(diǎn)的同時(shí),借助模糊擴(kuò)散過(guò)程(blurring diffusion)和塊狀噪音(block noise),可以在任意不同分辨率間無(wú)縫銜接,就像“接力賽”一樣,極大地減少了訓(xùn)練和采樣的成本。
據(jù)論文描述,通過(guò)離散余弦變換頻譜分析發(fā)現(xiàn),相同噪聲強(qiáng)度在更高的分辨率下對(duì)應(yīng)于頻率空間的信噪比(SNR)在低頻部分更高,這意味著自然圖像的低頻信息沒(méi)有被很好地破壞掉。
為此,該研究提出了一種像素點(diǎn)間具有相關(guān)性的塊狀噪音——block noise,它在高分辨率下對(duì)應(yīng)的 SNR 在低頻部分和高斯噪音在低分辨率下的 SNR 相當(dāng)。
以 64×64 和 256×256 為例,Relay Diffusion 的整體流程為:先通過(guò)標(biāo)準(zhǔn)擴(kuò)散過(guò)程生成低分辨率圖片,再將其上采樣為每個(gè) 4×4 網(wǎng)格具有相同像素值的模糊高分辨率圖片,之后對(duì)每個(gè) 4×4 的網(wǎng)格獨(dú)立進(jìn)行模糊擴(kuò)散過(guò)程(blurring diffusion)。
這樣使得前向過(guò)程的終態(tài)和上采樣的模糊圖片對(duì)齊,因此 Relay Diffusion 的第二階段可以直接以模糊圖片為起始點(diǎn),而不是現(xiàn)有級(jí)聯(lián)方法中的純高斯噪音。
實(shí)驗(yàn)結(jié)果顯示,相比傳統(tǒng)的級(jí)聯(lián)擴(kuò)散模型,Relay Diffusion 在生成高分辨率圖片時(shí),省去了生成低頻信息的部分,極大地節(jié)約了計(jì)算成本,同時(shí)更加簡(jiǎn)單,不需要以低分辨率圖片為條件和各種條件增強(qiáng)技巧,而且不需要重新設(shè)計(jì)或調(diào)節(jié)噪聲調(diào)度表。
另外,Relay Diffusion 在節(jié)省成本的同時(shí),還可以更快地達(dá)到更好的生成性能,在無(wú)條件數(shù)據(jù)集 CelebA-HQ-256 上達(dá)到了 SoTA 的 FID,在條件數(shù)據(jù)集 ImageNet-256 上達(dá)到了 SoTA 的 sFID 以及具有競(jìng)爭(zhēng)力的 FID,大幅超過(guò)了 ADM、LDM、DiT 等模型。當(dāng)不使用無(wú)分類器指導(dǎo)(CFG)時(shí),Relay Diffusion 也顯示出強(qiáng)大的性能優(yōu)勢(shì)。
研究團(tuán)隊(duì)表示,本次研究提出的級(jí)聯(lián)模型有助于創(chuàng)建更先進(jìn)的文本到圖像模型。
未來(lái),他們將繼續(xù)把 Relay Diffusion 中的相關(guān)技術(shù)應(yīng)用到通用領(lǐng)域的文生圖模型中,從而推動(dòng)該領(lǐng)域進(jìn)一步的研究。
論文鏈接:
https://arxiv.org/abs/2309.03350
GitHub地址:
https://github.com/THUDM/RelayDiffusion