隨著ChatGPT、文心一言等AIGC(人工智能生成內(nèi)容)工具的流行,AI(人工智能)技術(shù)已經(jīng)悄然融入我們的日常生活,顯著提高了我們的工作效率并豐富了我們的生活體驗,同時也激發(fā)了我們的想象力和創(chuàng)新力。在這股AI 的技術(shù)浪潮中,AI 繪畫技術(shù)憑借其帶來的驚人創(chuàng)作成果,成了AI 領(lǐng)域的一個焦點。
那么,AI 繪畫到底是什么?它具備哪些能力,又是基于何種原理和技術(shù)運作的呢?讓我們進(jìn)入AI 繪畫的神秘世界里一探究竟!
AI 繪畫解鎖無限可能
AI 是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),也是新一輪技術(shù)革命和產(chǎn)業(yè)革命的重要驅(qū)動力量。在AI 技術(shù)的廣泛應(yīng)用中,AIGC 技術(shù)尤其值得關(guān)注。該技術(shù)基于先進(jìn)的機器學(xué)習(xí)模型,通過分析和學(xué)習(xí)海量數(shù)據(jù)集,實現(xiàn)了生成文本、圖像、視頻和音樂等多種內(nèi)容的能力。這不僅展現(xiàn)了AI 的創(chuàng)新潛力,還為內(nèi)容創(chuàng)作者、設(shè)計師、工程師等專業(yè)人士提供了極大的便利和靈感。
AI 繪畫作品
作為AIGC 技術(shù)的一個應(yīng)用實例,AI 繪畫已經(jīng)在互聯(lián)網(wǎng)和數(shù)字藝術(shù)界占據(jù)了顯著位置。借助Midjourney、Stable Diffusion 和文心一格等平臺,AI 繪畫能夠協(xié)助人們快速創(chuàng)作出大量高品質(zhì)的圖像作品。低成本、高可控性和高效率的特點,使其在教育、娛樂等多個生活領(lǐng)域扮演著重要角色。
米開朗基羅的話竟暗含AI 繪畫的秘密
“雕像本來就在石頭里,我只是把不需要的部分去掉?!?/p>
意大利藝術(shù)巨匠米開朗基羅的這句話是在描述他作為雕塑家的創(chuàng)作理念和方法,卻也道出了AI 繪畫的基本原理。AI 繪畫的過程,從本質(zhì)上來講,是從一張含有大量隨機噪聲的初始圖像出發(fā),通過AI 的算法逐步去除“多余”的噪聲,最終“雕刻”出清晰、具體的圖像以滿足特定的需求。這里的隨機噪聲,是指輸入數(shù)據(jù)中的一種隨機信息元素,猶如圖片的噪點,它無法用一個明確的數(shù)學(xué)公式表示,在每次生成圖像時會產(chǎn)生微小的變化,用于增加模型的多樣性和創(chuàng)造性。
要理解這一過程,我們可以用AI 繪畫工具Stable Diffusion 來進(jìn)行解釋。Stable Diffusion 的名字本身就隱含了它的工作原理,即“擴散”過程,其實也是訓(xùn)練過程。以《蒙娜麗莎》這幅世界名畫為例,若我們將眼睛瞇起來看,畫面就會開始變得模糊,這正是AI 繪畫中“前向擴散”(Forward Diffusion)的一個類比。在這一階段,AI 通過分析模糊圖像,學(xué)習(xí)并理解其形態(tài)特征,依靠深度學(xué)習(xí)從大量圖像中提取特征數(shù)據(jù),并與其文本標(biāo)簽相對應(yīng),構(gòu)建起龐大的數(shù)據(jù)庫。
擴散模型的基本原理
當(dāng)我們需要生成一張具有特定風(fēng)格的蒙娜麗莎圖像(比如動漫風(fēng)格)時,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)便根據(jù)給定的提示詞,在其數(shù)據(jù)庫中檢索相關(guān)特征,并開始“逆向擴散”(Reverse Diffusion)過程,即逐步減少圖像中的噪聲,以清晰化圖像。通過這種方式,神經(jīng)網(wǎng)絡(luò)能夠基于復(fù)雜的算法和龐大的數(shù)據(jù)集,將一張噪聲圖逐步轉(zhuǎn)化為一張符合用戶需求的清晰圖像,就像是從石塊中逐步雕刻出精美的雕像。
輕松開啟AI 繪畫的創(chuàng)意之旅
隨著技術(shù)的進(jìn)步和普及,AI 繪畫的使用變得更加簡單、直觀。控制這一過程的核心在于向AI 提供一條精確的文字指令,即提示詞。為了讓AI 準(zhǔn)確理解我們的需求,提示詞中需要包含對圖像主題、繪畫風(fēng)格以及圖像參數(shù)的描述,描述越詳盡,越有助于輔助AI 創(chuàng)作出符合預(yù)期的作品。
以Midjourney 這一AI 繪畫工具為例,一條典型的提示詞需要詳細(xì)地描述圖像的主體、風(fēng)格、設(shè)定、組成、燈光等要素,還要設(shè)置圖像參數(shù)。例如,你可以編輯如下提示詞,“一幅小男孩在房間里讀書的油畫作品,小男孩穿著藍(lán)色襯衫,背景為雜亂的房間、昏暗柔和的光線,正對視角,畫幅尺寸為16:9”,就可以較好地指導(dǎo)AI 進(jìn)行圖像生成。
Midjourney 人工智能提示詞(上)和圖像生成界面(下)
根據(jù)提示詞的指導(dǎo),AI 將生成4 幅圖像作為輸出。界面上的“U”和“V”控件分別代表了放大輸出和優(yōu)化修改選項,每個按鈕后的數(shù)字對應(yīng)4 幅生成圖像中的一幅。例如,如果第一幅圖像符合需求,就點擊“U1”,AI 將放大并輸出該圖像;若第二幅圖像較為接近需求但需要進(jìn)一步優(yōu)化,則點擊“V2”,AI 便會以第二幅圖像為基礎(chǔ),再次生成4 幅圖像。如果這一批次的圖像仍不滿足需求,用戶可以通過調(diào)整提示詞或點擊界面右側(cè)的循環(huán)按鈕,指示AI 基于原始提示詞重新生成4 幅圖像。這些步驟構(gòu)成了使用AI 進(jìn)行圖像生成的基本操作流程。
其他AI 繪圖工具的操作也大同小異。在百度公司的AI 繪圖工具文心一格中,用戶同樣只需要給出一條簡單的提示詞,同時在左側(cè)的屬性欄內(nèi)設(shè)置好畫幅比例、繪畫風(fēng)格、繪畫模式等參數(shù),直接點擊“立即生成”,即可生成精美的圖片作品。
AI 繪畫可以變得更酷、更好玩
隨著AI 繪畫技術(shù)的持續(xù)迭代進(jìn)化,一系列先進(jìn)的生成方法和圖像優(yōu)化功能相繼問世,極大地豐富了用戶創(chuàng)作圖像的方式和手段。這些功能不僅提高了圖像生成的效率和便捷性,還賦予用戶前所未有的能力來定制和優(yōu)化他們的藝術(shù)作品,以更精準(zhǔn)地滿足個人的創(chuàng)作需求。還是以Midjourney 為例,我們來看看AI 繪畫還可以怎么“玩”。
以圖生圖
當(dāng)我們希望新創(chuàng)作的圖片融合現(xiàn)有圖片的某些元素時,可以將現(xiàn)有圖片作為參考,連同提示詞一并發(fā)送給AI。這樣,新創(chuàng)作的圖片就會在一定程度上反映出參考圖片的特征。例如,我們有一張貨船在江面上行駛的照片,并希望以油畫風(fēng)格重新詮釋它,只要將這張照片和油畫風(fēng)格的提示詞一起發(fā)送給AI,AI 便會以油畫風(fēng)格創(chuàng)作出全新的畫作。
原圖(左)與以圖生圖生成的圖片(右)
圖像混合
AI 可以將不同的圖片(最多4 張)進(jìn)行混合。AI 會先分析這些圖片的內(nèi)容和特征,然后將它們有機地結(jié)合在一起,創(chuàng)作出全新的作品。這個過程有時會帶來一些出人意料的創(chuàng)意效果。例如,通過融合一張小男孩踢足球的照片和一張花園的照片,AI 能創(chuàng)作出一幅全新的畫面,畫中的小男孩在花園里踢足球。這幅新生成的圖像能夠保持小男孩與花園的原始特征,兩個場景的結(jié)合也毫無違和感。
原圖(左)與圖像混合的生成結(jié)果(右)
局部重繪
AI 還允許用戶對圖像的特定區(qū)域進(jìn)行細(xì)化或修改。這一功能極大地增強了對圖像細(xì)節(jié)的控制能力,同時為創(chuàng)作具有創(chuàng)意的圖像效果提供了可能。例如,若要在圖像中的女孩臉部或頭部添加新元素,如墨鏡、口罩或安全帽,用戶只需要利用此功能引導(dǎo)AI 對特定區(qū)域進(jìn)行調(diào)整。如此操作,新添加的元素能夠和諧地融入原始場景之中,確保整體圖像的一致性和自然感。
原圖(左)與局部重繪后的圖片(右)
保持人物一致性
在AI 繪畫領(lǐng)域,一直存在一個大問題,即AI 很難在多張圖片中保持單個人物的一致性,這使得我們很難生成一些同一人物的連續(xù)性畫面。然而,在最新的Midjourney 更新中,AI 已經(jīng)可以根據(jù)我們提供的人物肖像以及提示詞內(nèi)容,在各種場景和動作姿勢下保持生成人物的形象與參考圖的一致性。這項功能的出現(xiàn),讓我們能夠利用AI 來創(chuàng)作連環(huán)畫、影視分鏡甚至人物攝影作品。
原圖(左)與AI 生成的連續(xù)性圖片(右)
如今,AI 技術(shù)已經(jīng)在影視、辦公、醫(yī)療等領(lǐng)域得到了實際應(yīng)用。在AI 的支持下,我們能夠輕松地完成一些煩瑣的工作任務(wù),也能夠輕易地將某些創(chuàng)意想法落實到現(xiàn)實中。盡管當(dāng)前AI 繪畫技術(shù)在可控性等方面仍面臨挑戰(zhàn),導(dǎo)致實際輸出結(jié)果與預(yù)期存在偏差,但是技術(shù)的迅速發(fā)展預(yù)示著它具有巨大潛力。AI 繪畫正逐步成為藝術(shù)和設(shè)計領(lǐng)域的關(guān)鍵工具,為創(chuàng)意人士提供了探索新領(lǐng)域的機會。隨著技術(shù)的持續(xù)進(jìn)步,我們期待AI 繪畫能夠帶來更高層次的創(chuàng)作能力,開創(chuàng)一個人類與AI 協(xié)作共創(chuàng)的新紀(jì)元!
文/姜斌、孟凡民 圖/網(wǎng)絡(luò)