人人揉揉揉揉揉日日aV,亚洲s图欧美中文字幕

在火熱的“AI 圖像生成”領(lǐng)域，任意不同分辨率的無(wú)縫銜接擴(kuò)散模型，出現(xiàn)了。

近日，來(lái)自清華大學(xué)和智譜 AI 的研究團(tuán)隊(duì)聯(lián)合提出了一個(gè)新型級(jí)聯(lián)模型——Relay Diffusion（RDM）。據(jù)介紹，運(yùn)用該模型，擴(kuò)散過(guò)程可以在任何新的分辨率或模型下無(wú)縫進(jìn)行，而無(wú)需從純?cè)肼曋匦麻_(kāi)始生成。

相關(guān)研究論文以“Relay Diffusion: Unifying diffusion process across resolutions for image synthesis”為題已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上，相關(guān)代碼已發(fā)布在 GitHub 上。

近些年來(lái)，擴(kuò)散模型（Diffusion）在圖像合成方面取得了巨大的成功，顯著提升了圖片合成的質(zhì)量。然而，擴(kuò)散模型在合成高分辨率圖片時(shí)仍面臨較大挑戰(zhàn)，一是低分辨率的噪聲調(diào)度很難直接用于高分辨率，研究者們需要為高分辨的場(chǎng)景謹(jǐn)慎地調(diào)節(jié)噪聲調(diào)度表，且仍難以獲得良好的結(jié)果；二是高分辨的訓(xùn)練過(guò)程需要大量資源，計(jì)算成本較高。

目前，一種普遍采用的解決方案是 latent (stable) diffusion 提出的在隱空間內(nèi)訓(xùn)練，再映射回像素空間，但這種方法不可避免地會(huì)受到底層偽影（low-level artifacts）的影響；另一種方案則是訓(xùn)練一系列不同分辨率的超分?jǐn)U散模型構(gòu)成級(jí)聯(lián)，現(xiàn)有的級(jí)聯(lián)方法是有效的，但它需要在每個(gè)階段從噪音開(kāi)始完整采樣，效率較低，且效果嚴(yán)重依賴于條件增強(qiáng)等訓(xùn)練技巧。

為了更好地解決上述問(wèn)題，研究團(tuán)隊(duì)提出的級(jí)聯(lián)模型 Relay Diffusion 在具備原有級(jí)聯(lián)方法優(yōu)點(diǎn)的同時(shí)，借助模糊擴(kuò)散過(guò)程（blurring diffusion）和塊狀噪音（block noise），可以在任意不同分辨率間無(wú)縫銜接，就像“接力賽”一樣，極大地減少了訓(xùn)練和采樣的成本。

據(jù)論文描述，通過(guò)離散余弦變換頻譜分析發(fā)現(xiàn)，相同噪聲強(qiáng)度在更高的分辨率下對(duì)應(yīng)于頻率空間的信噪比（SNR）在低頻部分更高，這意味著自然圖像的低頻信息沒(méi)有被很好地破壞掉。

為此，該研究提出了一種像素點(diǎn)間具有相關(guān)性的塊狀噪音——block noise，它在高分辨率下對(duì)應(yīng)的 SNR 在低頻部分和高斯噪音在低分辨率下的 SNR 相當(dāng)。

以 64×64 和 256×256 為例，Relay Diffusion 的整體流程為：先通過(guò)標(biāo)準(zhǔn)擴(kuò)散過(guò)程生成低分辨率圖片，再將其上采樣為每個(gè) 4×4 網(wǎng)格具有相同像素值的模糊高分辨率圖片，之后對(duì)每個(gè) 4×4 的網(wǎng)格獨(dú)立進(jìn)行模糊擴(kuò)散過(guò)程（blurring diffusion）。

這樣使得前向過(guò)程的終態(tài)和上采樣的模糊圖片對(duì)齊，因此 Relay Diffusion 的第二階段可以直接以模糊圖片為起始點(diǎn)，而不是現(xiàn)有級(jí)聯(lián)方法中的純高斯噪音。

實(shí)驗(yàn)結(jié)果顯示，相比傳統(tǒng)的級(jí)聯(lián)擴(kuò)散模型，Relay Diffusion 在生成高分辨率圖片時(shí)，省去了生成低頻信息的部分，極大地節(jié)約了計(jì)算成本，同時(shí)更加簡(jiǎn)單，不需要以低分辨率圖片為條件和各種條件增強(qiáng)技巧，而且不需要重新設(shè)計(jì)或調(diào)節(jié)噪聲調(diào)度表。

另外，Relay Diffusion 在節(jié)省成本的同時(shí)，還可以更快地達(dá)到更好的生成性能，在無(wú)條件數(shù)據(jù)集 CelebA-HQ-256 上達(dá)到了 SoTA 的 FID，在條件數(shù)據(jù)集 ImageNet-256 上達(dá)到了 SoTA 的 sFID 以及具有競(jìng)爭(zhēng)力的 FID，大幅超過(guò)了 ADM、LDM、DiT 等模型。當(dāng)不使用無(wú)分類器指導(dǎo)（CFG）時(shí)，Relay Diffusion 也顯示出強(qiáng)大的性能優(yōu)勢(shì)。

研究團(tuán)隊(duì)表示，本次研究提出的級(jí)聯(lián)模型有助于創(chuàng)建更先進(jìn)的文本到圖像模型。

未來(lái)，他們將繼續(xù)把 Relay Diffusion 中的相關(guān)技術(shù)應(yīng)用到通用領(lǐng)域的文生圖模型中，從而推動(dòng)該領(lǐng)域進(jìn)一步的研究。

論文鏈接：

https://arxiv.org/abs/2309.03350

GitHub地址：

https://github.com/THUDM/RelayDiffusion

AI圖像新玩法！清華團(tuán)隊(duì)提出“高分辨率”圖像生成方法

AI圖像新玩法！清華團(tuán)隊(duì)提出“高分辨率”圖像生成方法