正在閱讀:

萬(wàn)字長(zhǎng)文講透AI藝術(shù):緣起、意義和未來(lái)(下篇)

掃一掃下載界面新聞APP

萬(wàn)字長(zhǎng)文講透AI藝術(shù):緣起、意義和未來(lái)(下篇)

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間。

文|巴比特資訊

AI 藝術(shù)更為直接的是一場(chǎng)新消費(fèi)變革,但以未來(lái)為終局,其必將是一場(chǎng)新技術(shù)變革,這是自十多年前移動(dòng)互聯(lián)網(wǎng)革命以來(lái)久違的一幕,讓開(kāi)源生態(tài)點(diǎn)燃的這星星之火燃遍新十年創(chuàng)業(yè)的每個(gè)角落。與區(qū)塊鏈引領(lǐng)的加密變革稍有不同,AIGC(AI 藝術(shù)所歸屬的大類)帶給人們的興奮感并不來(lái)自純金融和財(cái)富預(yù)期(“多巴胺”),更多的是發(fā)自人類內(nèi)心本質(zhì)的對(duì)嶄新未來(lái)的渴望,那是一種真正的“內(nèi)啡肽”。

未來(lái):技術(shù)為王

由于當(dāng)前最大的開(kāi)源生態(tài)是以 SD 為導(dǎo)向,因此本文所談?wù)摰募夹g(shù)動(dòng)向皆來(lái)自于 SD 大生態(tài)。MJ 在算法本質(zhì)上與 SD 同宗同源且大同小異,其關(guān)鍵為不斷進(jìn)化的數(shù)據(jù)集和美學(xué)算法增強(qiáng),期待 MJ 開(kāi)源的那一日,與世人共享其普惠萬(wàn)物的力量。

(一)二次元模型開(kāi)辟可商用垂直模型先河

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間,其近乎可商業(yè)化的使用體驗(yàn)也開(kāi)辟了“萬(wàn)物皆可垂直”的垂直模型先河,彌補(bǔ)了像 SD 這種大通用模型在個(gè)別美學(xué)領(lǐng)域的“力不從心”。當(dāng)然在這個(gè)過(guò)程中也是伴隨著詬病、質(zhì)疑和抨擊,但商業(yè)與技術(shù)應(yīng)該一分為二去看待。

以 NovelAI Diffusion 為例

由原本做 AIGC 生成小說(shuō)內(nèi)容的商業(yè)實(shí)體 Novel 推出,基于 SD 算法框架和 Danbooru 二次元圖庫(kù)數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化,被外網(wǎng)稱為“最強(qiáng)二次元生成模型”。

除去手部細(xì)節(jié),NovelAI 的出圖質(zhì)量可謂上乘。最大的功勞來(lái)自 Danbooru,是一個(gè)二次元圖片堆圖網(wǎng)站,會(huì)標(biāo)注畫師名、原作、角色,以及像文字描述一遍畫面內(nèi)容的詳細(xì) tag(可能會(huì)詳細(xì)到角色的發(fā)型發(fā)色、外貌特征、服裝、姿勢(shì)表情、包含一些其他可識(shí)別內(nèi)容的程度),而這些對(duì)擴(kuò)散模型的訓(xùn)練尤為重要,省去了大量的人工篩選標(biāo)注工作。

Danbooru 的商業(yè)定位也給了 NovelAI “可乘之機(jī)”:根據(jù)搜索結(jié)果內(nèi)容量來(lái)看,這個(gè)網(wǎng)站是其他用戶自發(fā)保存(例如在推上有一些熱度的繪畫作品)并上傳上去的,所以在日本一直有這個(gè)網(wǎng)站無(wú)授權(quán)轉(zhuǎn)載的爭(zhēng)議。關(guān)于這次 AI 學(xué)習(xí)素材庫(kù)的事情,Danbooru方面也有做出回應(yīng):與包括NovelAI 在內(nèi)的 AI 作畫網(wǎng)站沒(méi)什么關(guān)系,且不認(rèn)可他們的行為。

(注:以上相關(guān)內(nèi)容引用自微博大 V:夜露·茍·布魯圖斯)

但從正面意義來(lái)看,NovelAI 的確也在技術(shù)上給 SD 帶來(lái)了新的空間,就連 StabilityAI 的老板 Emad 也在推特上宣傳到:“NovelAI 的技術(shù)工作是對(duì) SD 極大的提升,包括手指修復(fù)、任意分辨率等等。”對(duì)技術(shù)感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對(duì) SD 的改進(jìn)工作,大致是修改了 SD 模型架構(gòu)及訓(xùn)練過(guò)程。

像 NovelAI 這類的二次元模型對(duì)于用戶輸入的描述詞的專業(yè)程度要求較高,如下所示:

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),

(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不僅需要描述人物,更是要對(duì)人物的二次元細(xì)節(jié)進(jìn)行刻畫,甚至還要加一些有助于畫質(zhì)增強(qiáng)的詞匯,這一系列操作被網(wǎng)友戲稱為“咒語(yǔ)”,就像要進(jìn)入一個(gè)二次元世界一般,首先你要學(xué)會(huì)“念咒”。好在社區(qū)力量是無(wú)限的,陸續(xù)出現(xiàn)了很多“寶典”,如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典 第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL,將二次元的“心法口訣”公諸于眾,且全民共創(chuàng),這很“二次元”。

(二)AI 畫二次元漫畫逐漸可行

二次元模型對(duì)于畫特定形象的人物十分擅長(zhǎng),比如在如下的連續(xù)出圖中,我們大致可以認(rèn)為都是一個(gè)“主人公”(稱之為白小蘇蘇)在變 Pose 或者換裝。因?yàn)槲覀兘o予 AI 的描述中對(duì)該人物進(jìn)行了極為細(xì)致的刻畫,就像固定了她的基因一般,加上二次元模型本身對(duì)于人物的勾畫(平圖)相對(duì)于真實(shí)人物就“粗放”一些,只要重要人物特征一致,便可以判別為同一個(gè)人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome,Hair glows,dramatic angle

直譯為:

{頭像},{一個(gè)極其精致美麗的女孩},cg 8k墻紙,杰作,冷漠的表情,英俊,上半身,看著觀眾,校服,水手服,瘋狂,白發(fā),凌亂的長(zhǎng)發(fā),紅色的眼睛,美麗細(xì)致的眼睛{{一個(gè)黑色的十字發(fā)夾}},英俊,頭發(fā)發(fā)光,戲劇性的角度

于是進(jìn)一步的,可以通過(guò)“底圖模式”去約束人物的動(dòng)作表達(dá)或者情節(jié)表達(dá),再配上同樣的人物特征關(guān)鍵詞描述,便可以輸出該人物動(dòng)漫劇情般的“生命周期”,她不再活在一幅圖中。何為“底圖”控制,如下所示:

圖片來(lái)源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

給 AI 上傳左邊的“粗制圖”,是為底圖,底圖負(fù)責(zé)勾勒畫面的大體結(jié)構(gòu),但未對(duì)人物細(xì)節(jié)進(jìn)行刻畫,隨后由 AI 將人物特征細(xì)節(jié)進(jìn)行“填充”,便會(huì)出現(xiàn)同一主人公擺出不同 Pose 的漫畫劇情。

圖片來(lái)源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

最后再配上文字、漫畫格式框,稍微經(jīng)過(guò) PS 整合,便能出來(lái)一幅像模像樣的漫畫了。

圖片來(lái)源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

當(dāng)然上述都是基于現(xiàn)在 AI 模型的發(fā)展所提出的“妥協(xié)”手段,實(shí)際上我們?cè)诋嫸卧嫊r(shí)應(yīng)該追求絕對(duì)的主人公一致性(真正是同一個(gè)人物)和更為精準(zhǔn)的動(dòng)作控制、背景控制甚至數(shù)量控制和表情控制等等,而這些都需要借助更為先進(jìn)的技術(shù),即如下所要講述的模型訓(xùn)練和以交叉注意力為代表的精準(zhǔn)控制技術(shù)。

(三)開(kāi)放模型訓(xùn)練催生“萬(wàn)物皆可垂直”

隨著二次元模型的成功流行,人們也越來(lái)越渴望更多類似的模型出現(xiàn),以解決五花八門的創(chuàng)作需求。一個(gè)中心化的商業(yè)平臺(tái)便需要做出一個(gè)大而全的產(chǎn)品以迎合用戶需求,但面對(duì)指數(shù)級(jí)的市場(chǎng)增長(zhǎng),這顯然是不現(xiàn)實(shí)的。最佳解決辦法便是交給一個(gè)去中心化的自組織生態(tài),像迸發(fā)二次元模型一樣實(shí)現(xiàn)模型的“涌現(xiàn)”,去解決人們?nèi)找嬖鲩L(zhǎng)的創(chuàng)作需求。這便特別需要一種開(kāi)放模型的力量,而 SD 在開(kāi)源之處便將這種力量完全交給了所有人,每個(gè)人都可以去獲得算法模型,都可以去訓(xùn)練自己的模型。于是,創(chuàng)作無(wú)限,模型涌現(xiàn)!

模型訓(xùn)練技術(shù)分 Checkpoint Merger(檢查點(diǎn)合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超網(wǎng)絡(luò)模型)、Aesthetic Gradient(審美梯度)以及重量級(jí)的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行,分別有著不同的技術(shù)原理和優(yōu)勢(shì)。

知名博主“Simon 的白日夢(mèng)“在微博分享了自己使用 SD 的 Textual Inversion 技術(shù)訓(xùn)練的“黏菌衛(wèi)星圖”案例。首先需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集,大概一萬(wàn)張衛(wèi)星地圖;我們都知道 SD 模型本身要么只能單獨(dú)出城市衛(wèi)星圖,要么只能出黏菌圖;博主通過(guò) Textual Inversion 再次訓(xùn)練之后,成功地把城市衛(wèi)星圖肌理和黏菌的微觀結(jié)構(gòu)融合在了一起。

再分享另外一個(gè)知名博主“大谷 Spitzer”使用 Textual Inversion 進(jìn)行“分鏡設(shè)計(jì)”的案例。我們?cè)谏厦嫣岬揭龆卧嬰x不開(kāi)固定主人公形象,所謂分鏡設(shè)計(jì)便是能否用 AI 繪制出獨(dú)特且相貌保持連續(xù)性的動(dòng)漫角色。大谷用 Textual Inversion + 自制數(shù)據(jù)集訓(xùn)練了 6、7 種不同的相貌作為臉部基因。之后在輸入給 AI 的文字中,即可通過(guò)改變訓(xùn)練好的幾個(gè)相貌 tag 的比例權(quán)重,融合出現(xiàn)實(shí)里不存在,同時(shí)在系列圖片里長(zhǎng)相可以保持一致的角色。如下兩幅圖便是不同比例權(quán)重下出現(xiàn)的兩位“主人公”,而對(duì)于同一位主人公,可以通過(guò) AI 讓其出現(xiàn)在各種各樣的場(chǎng)景。比如“太空之聲”里的女孩是同一個(gè)形象的不同故事表達(dá),而“都市探員”里的主人公膚色更深、形象健碩,真的像一名探員。

 

在具體操作上,正如“Simon 的白日夢(mèng)”所說(shuō):

當(dāng)你輸入一個(gè)模型中沒(méi)有的概念,例如生成一個(gè)“Simon 的白日夢(mèng) up 主的照片”,因?yàn)?sd 模型沒(méi)有見(jiàn)過(guò)我,自然不能生成我的照片。但是注意,其實(shí) sd 模型中是具備生成我的照片的所有要素的的能力,畢竟我只是一個(gè)普通的中國(guó)技術(shù)宅,模型中應(yīng)該有不少亞洲人的特征可以用于合成。

那這時(shí)候給出幾張我的照片(坐標(biāo)也可以通過(guò)編碼圖片獲得),對(duì)比剛才說(shuō)的文字提示,訓(xùn)練 textual inversion,其實(shí)是告訴模型“我是誰(shuí)”,從而獲得根據(jù)我的文字提示獲得一個(gè)更準(zhǔn)確的坐標(biāo)。因此,訓(xùn)練完后,我們會(huì)發(fā)現(xiàn)并沒(méi)有生成新的模型 ckpt 文件,而是得到了一個(gè)幾十 k 大小的 .pt 文件,然后下次啟動(dòng) stable diffuison webui 的時(shí)候就可以掛載這個(gè)文件,當(dāng)我下次再輸入“Simon 的白日夢(mèng) up 主的照片”這段文字的時(shí)候,模型就會(huì)讀取這個(gè) .pt 文件里邊的準(zhǔn)確坐標(biāo),并和其它文字描述包含的坐標(biāo)融合,然后生成更符合文字描述的圖片。

社區(qū)也在利用 Textual Inversion 為二次元模型豐富其尚不能繪制的形象,比如很多國(guó)產(chǎn)動(dòng)漫角色,如秦時(shí)明月。只要有合法的數(shù)據(jù)集,技術(shù)都是現(xiàn)成的,通過(guò)算力讓人物形象在 AI 的世界“凝聚”。

embedding即為Textual Inversion

Textual Inversion 的優(yōu)勢(shì)是輕量級(jí)、簡(jiǎn)單上手。它可以對(duì)主體(object)進(jìn)行訓(xùn)練,讓 AI 記住這個(gè)“人”或“物”,也可以對(duì)畫風(fēng)(style)進(jìn)行訓(xùn)練,比如可以記住某位在世藝術(shù)家的畫風(fēng)然后讓 AI 以此畫風(fēng)來(lái)畫任何事物;訓(xùn)練出的模型文件可以直接掛載到 SD 模型框架中,類似 Linux 開(kāi)放時(shí)代不斷完善的動(dòng)態(tài)連接庫(kù),因此對(duì) SD 也是友好的。但劣勢(shì)是,效果較為粗糙,目前尚未有可以進(jìn)入商業(yè)化產(chǎn)品效果的模型出現(xiàn),社區(qū)更多期待給予了另外一項(xiàng)技術(shù)——Dreambooth。

相較于 Textual Inversion 等在 SD 框架上的增添,Dreambooth 是直接調(diào)整整個(gè) SD 模型本身,SD 模型是一個(gè)大概 4G 左右的 ckpt 文件,經(jīng)過(guò) Dreambooth 重訓(xùn)模型后,會(huì)生成一個(gè)新的 ckpt 文件,是一種深度融合。因此 Dreambooth 的訓(xùn)練會(huì)更為復(fù)雜苛刻。

由于 dreambooth 會(huì)將訓(xùn)練對(duì)模型的影響鎖定在某一種物體的類別內(nèi),所以訓(xùn)練的時(shí)候不僅需要描述的文字、對(duì)應(yīng)圖片,還需要告訴模型你訓(xùn)練的物體的類別(訓(xùn)練完使用的時(shí)候,也要同時(shí)在 prompt 中包含類別和 token 關(guān)鍵字),并且用訓(xùn)練前的模型先生成一系列這一種類物體的正則化圖片(regularization image)用于后續(xù)和你給的圖片做半監(jiān)督訓(xùn)練。所以,生成正則化圖片要消耗額外的圖片(一般要 1K+,但是可以用別人生成好的);訓(xùn)練的時(shí)候因?yàn)槭钦{(diào)整整個(gè)模型(即便只是模型中的部分參數(shù)),對(duì)算力和時(shí)間要求也比較高。我在本地一塊 3090 上訓(xùn)練時(shí)顯存占用達(dá)到 23.7G,訓(xùn)練 10K 張 10000epoch 需要 4 個(gè)半小時(shí)。

—— Simon 的白日夢(mèng)

黏菌衛(wèi)星圖模型兩種訓(xùn)練效果對(duì)比,dreambooth更勝一籌

再回到二次元這個(gè)話題,同樣有大 V 利用 Dreambooth 訓(xùn)練出了一個(gè)賽博風(fēng)的二次元模型——Cyberpunk Anime Diffusion,由“大谷 Spitzer”開(kāi)發(fā),現(xiàn)已開(kāi)源。

Cyberpunk Anime Diffusion開(kāi)源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

提這種模型并不是打廣告,而是致敬其開(kāi)創(chuàng)意義,起碼在國(guó)內(nèi)都是值得后來(lái)者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克:邊緣行者》畫風(fēng)素材,在基礎(chǔ)模型上使用的是一個(gè)基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型,然后用 Dreambooth 導(dǎo)入自定義數(shù)據(jù)集訓(xùn)練了 13700 步就獲得了以下的生成效果(使用方法,在 prompt 中加入關(guān)鍵詞"dgs illustration style")。

憑借著對(duì)底層基礎(chǔ)模型更為深度地改進(jìn),Dreambooth 也被稱為“核彈級(jí)技術(shù)”。同 textual inversion 一樣,dreambooth 也可以訓(xùn)練主體、記住主體,比如輸入幾張自己的照片(家里的小狗),dreambooth 就會(huì)記住照片中的物體長(zhǎng)什么樣,然后就能把這個(gè)物體作為關(guān)鍵詞套用到任何場(chǎng)景和風(fēng)格中,“一鍵實(shí)現(xiàn)無(wú)限分鏡”。

Dreambooth技術(shù)最早來(lái)自google論文,此為論文中的案例,一只現(xiàn)實(shí)小狗無(wú)限藝術(shù)分鏡

同樣可以人也可以,比如給自己來(lái)張自拍,然后讓自己出現(xiàn)在藝術(shù)的大千世界中。

記住主體更大的意義是,可以對(duì)主體進(jìn)行“屬性修改”。比如當(dāng) AI 記住了輸入的“小汽車”后,便可以隨心所欲地對(duì)其顏色進(jìn)行更改,而其他特征保持一致。再回到二次元漫畫那個(gè)話題,這種精準(zhǔn)屬性控制技術(shù)也是其關(guān)鍵推動(dòng)技術(shù)之一。

正如 《上線一個(gè)月成為準(zhǔn)獨(dú)角獸、上萬(wàn)人排隊(duì)注冊(cè),AI Art是下一個(gè)NFT?》一文中寫到:

“2022 年,可稱為被 Diffusion 開(kāi)啟的 AI Art 元年。接下來(lái)的三至五年內(nèi),AI Art 將會(huì)往更加自由的方向發(fā)展,比如展現(xiàn)出更強(qiáng)的耦合性,可被用戶定制的空間更大,也就是說(shuō)更貼近“主觀創(chuàng)作”的過(guò)程,藝術(shù)作品中也會(huì)分化和體現(xiàn)出越來(lái)越細(xì)致的用戶想法。Google 近期上線的 DreamBooth AI 已經(jīng)展現(xiàn)出了這一特點(diǎn)?!?/p>

除了上述對(duì)主體的訓(xùn)練,Dreambooth 最常被用來(lái)“記住”畫風(fēng),即訓(xùn)練 style。上述博主(“地球土著座一億”)用了十張夏阿老師的畫,通過(guò) dreambooth “記住”了他的畫風(fēng),效果對(duì)比如下。

(備注:夏阿是出生于揚(yáng)州,定居于南京的 80 后插畫師。因 2014 年經(jīng)常在網(wǎng)上發(fā)布“穿越”“混搭”“搞笑”類的國(guó)畫作品,深受網(wǎng)友喜愛(ài)而“走紅”。)

如下為夏阿的原作——

如下為 dreambooth 的訓(xùn)練效果出圖——

不論是輕量級(jí)的 Textual Inversion,還是重量級(jí)的 Dreambooth,抑或介于二者之間的如 Hypernetwork(超網(wǎng)絡(luò)模型)和 Aesthetic Gradient(審美梯度)等,包括更多的原生模型訓(xùn)練方式:模型融合、微調(diào)(Fine Tuning)等,都是現(xiàn)階段輸出更加可商業(yè)化新模型的利器。短短一個(gè)月時(shí)間便已經(jīng)涌現(xiàn)出了大量在概念驗(yàn)證階段的垂直模型,五彩繽紛。

社區(qū)基于 Textual Inversion 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區(qū)基于 Dreambooth 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

采用更多訓(xùn)練技術(shù)的模型大全站點(diǎn) Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

如果說(shuō) SD 為 AI 藝術(shù)打開(kāi)了第一扇窗戶,那么今天這些五光十色、極具創(chuàng)意的“大千”模型則為 AI 藝術(shù)打開(kāi)了第一扇大門。尤其在 Dreambooth 模型生態(tài)中,有能夠?qū)崿F(xiàn)迪士尼風(fēng)的模型、有當(dāng)下 MJ 生態(tài)最火的機(jī)甲風(fēng)模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

(四)交叉注意力實(shí)現(xiàn)畫面的精準(zhǔn)控制

開(kāi)放模型的出現(xiàn)給予了降維解決一切難題的方式,真正實(shí)現(xiàn)了“創(chuàng)造”二字。與此同時(shí),也不能忽略一些輔助技術(shù)的發(fā)展,還是拿二次元漫畫為例,我們不免要對(duì)一些更細(xì)節(jié)的繪制表現(xiàn)進(jìn)行控制。如下,我們希望保留汽車和樹木背景,但改變?cè)谒厦娴摹爸魅斯保换蛘邔⒁环F(xiàn)實(shí)照片進(jìn)行漫畫風(fēng)格的變化,以做漫畫敘事背景設(shè)計(jì)。

開(kāi)源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制(Cross-Attention Control)技術(shù),連 StabilityAI 創(chuàng)始人也不禁為這項(xiàng)技術(shù)點(diǎn)贊:“在類似技術(shù)幫助下,你可以去創(chuàng)造任何你夢(mèng)想的事物。”

該項(xiàng)目開(kāi)源連接——

GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt

在這個(gè)項(xiàng)目 demo 中,可以改變主人公“小貓”的坐騎,可以給背景畫一道彩虹,可以讓擁擠的路上變得空曠。在如下類似的研究項(xiàng)目中,還可以做到讓主人公豎大拇指、讓兩只鳥 kiss、讓一個(gè)香蕉變兩個(gè)。

不論是【Imagic】還是【Prompt-to-Prompt】,精準(zhǔn)控制技術(shù)對(duì)于實(shí)現(xiàn) AI 繪圖的自主可控十分重要,也是構(gòu)建二次元漫畫體系比較重要的技術(shù)動(dòng)向之一,目前尚處于行業(yè)研究前沿。

(五)精準(zhǔn)控制系列之 Inpainting 和 Outpainting

說(shuō)到了精準(zhǔn)控制,它不是某一項(xiàng)技術(shù),交叉注意力是其一,還有很多輔助性手段為其服務(wù),最為流行和商業(yè)成熟的是 inpainting 和 outpainting 技術(shù)。這是傳統(tǒng)設(shè)計(jì)領(lǐng)域的概念,AI 藝術(shù)也繼承了過(guò)來(lái)。當(dāng)前 SD 也推出了 inpainting 功能,可翻譯為“涂抹”,即對(duì)于畫面中不滿意的部分進(jìn)行“涂抹”,然后 AI 會(huì)在涂抹區(qū)重新生成想要替換的內(nèi)容,具體見(jiàn)下圖操作。

開(kāi)源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

同樣以二次元漫畫這個(gè)終極追求為例,當(dāng)需要給女主人公增加一位帥氣的男士時(shí),便可以在她旁邊區(qū)域進(jìn)行涂抹,然后附上一段霸道總裁的關(guān)鍵詞 prompt,AI 便會(huì)給女主一段“姻緣”。

另外一項(xiàng)技術(shù) outpainting,被譽(yù)為“無(wú)限畫布”,最早出現(xiàn)在 Dalle2 的商業(yè)產(chǎn)品體系中,當(dāng)時(shí)也是震驚世人。簡(jiǎn)單來(lái)講,將一張需要擴(kuò)展的圖上傳給 AI,outpainting 便會(huì)在這張圖的四周擴(kuò)展出“無(wú)限的”畫布,至于填充什么內(nèi)容,也完全交給用戶自己輸入的 prompt 決定,無(wú)限畫布,無(wú)限想象空間。如下利用 outpainting 為一幅經(jīng)典名畫填充了大量背景,產(chǎn)生了令人驚喜的效果。如今 SD 生態(tài)也擁有了自己的 outpainting 技術(shù),開(kāi)源地址——

Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

在 outpainting 的加持下,不僅可以為一幅單調(diào)的圖加無(wú)限的背景,更可以極大拓展 AI 藝術(shù)出圖的尺寸,在 SD 生態(tài)一般出圖為幾百像素,遠(yuǎn)遠(yuǎn)不能滿足大尺寸海報(bào)的需求,而 outpainting 技術(shù)便可以極大擴(kuò)展 AI 藝術(shù)原生出圖的尺寸。同樣對(duì)于二次元漫畫,甚至可以在一幅圖中展現(xiàn)所有“參演人員”的形色百態(tài)。

(六)其他更多技術(shù)概念

除了上述重要技術(shù)外,還有很多細(xì)分技術(shù)被社區(qū)津津樂(lè)道。

可以利用 Deforum 做 SD 動(dòng)畫

SD動(dòng)畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個(gè)完整制作 AI 動(dòng)畫的工作流——

其中提到了多種技術(shù),如利用 inpainting 修改細(xì)節(jié),用 outpainting 向外擴(kuò)展,用 dreambooth 做動(dòng)畫主角,用 Deforum 不斷生成改變、用 coherence 進(jìn)行連續(xù)性控制、用 flowframe 補(bǔ)幀等等。更做二次元漫畫一樣,也是一項(xiàng)系統(tǒng)性工程。

prompt 逆向反推

整個(gè) AI 藝術(shù)最關(guān)鍵的是 prompt,尤其對(duì)于新人用戶,能否獲得好的 prompt 是其能否獲得優(yōu)質(zhì)出圖的關(guān)鍵所在,因此很多產(chǎn)品化的 AI 工具都會(huì)在用戶輸入 prompt 這方面進(jìn)行改進(jìn)。除了大量可以獲取關(guān)鍵詞的搜索引擎網(wǎng)站外,逆向反推成為了一項(xiàng)重要輔助手段。所謂逆向反推,即給出一張圖片,可以是真實(shí)世界的,也可以來(lái)自 AI 生成,逆向反推技術(shù)便可以輸出能夠繪制該畫面的 prompt。雖然在實(shí)際效果中,無(wú)法反推出生成效果一模一樣的 prompt,但這給予了很多新人用戶獲取帶有復(fù)雜藝術(shù)修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關(guān)鍵詞,其開(kāi)源地址——

GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具,使用連接如下——

CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

 

類似的還有 methexis-inc 發(fā)布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

除了直接以圖片進(jìn)行反推外,還有一種工具如 Prompt Extend,可以一鍵加長(zhǎng) Prompt,可以將一個(gè)小白用戶輸入的“太陽(yáng)”一鍵加長(zhǎng)到帶有豐富藝術(shù)修飾的“大神級(jí)”描述,工具地址——

Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說(shuō)到 prompt,不得不說(shuō)被譽(yù)為寶庫(kù)的各大搜索引擎網(wǎng)站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開(kāi)源地址github.com/krea-ai/open-prompts

Just a moment...lexica.art/

 

在搜索引擎中搜索自己想要的畫面,便會(huì)呈現(xiàn)符合主題的配圖及其對(duì)應(yīng)的 prompt。還有不直接給 prompt 搜索,而是引導(dǎo)用戶一步步構(gòu)建 prompt 的提示性工具——

Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

如上圖,可根據(jù)網(wǎng)站提示,一步步構(gòu)建出一幅“美麗的面孔”。在這些工具的加持下,即便從未接觸過(guò) AI 藝術(shù)的用戶,在短短幾天內(nèi)也能逐漸摸清構(gòu)建 prompt 的精髓。

(七)除了作圖,更多 AI 藝術(shù)領(lǐng)域

AI 藝術(shù)從 AI 作圖開(kāi)始,也稱之為 text-to-image,但時(shí)至今日,藝術(shù)并不局限于圖片,AI 藝術(shù)也不局限于 AI 作圖,更多的 text-to-X 開(kāi)始預(yù)示著未來(lái) AI 藝術(shù)的新形態(tài)。最為知名的有:

text-to-3D

即文本生成 3D 模型,同樣在 SD 生態(tài)也有類似項(xiàng)目,地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來(lái)源:量子位《Text-to-3D!建筑學(xué)小哥自稱編程菜鳥,攢了個(gè)AI作畫三維版,還是彩色的》

在給 AI 輸入“一幅美麗的花樹畫,作者 Chiho Aoshima,長(zhǎng)鏡頭,超現(xiàn)實(shí)主義”,就能瞬間得到一個(gè)長(zhǎng)這樣的花樹視頻,時(shí)長(zhǎng) 13 秒。這個(gè) text-to-3D 項(xiàng)目叫 dreamfields3D,現(xiàn)已開(kāi)源——

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外,還有個(gè)項(xiàng)目叫 DreamFusion,地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有著較好的 3D 效果,也被 SD 生態(tài)嫁接到了 SD 實(shí)現(xiàn)中,開(kāi)源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有 如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型;英偉達(dá)開(kāi)源 3D 模型生成工具,GET3D——

GET3D開(kāi)源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

文本生成視頻對(duì)技術(shù)要求極大,目前只有 google 和 meta 在爭(zhēng)相發(fā)布體驗(yàn)性質(zhì)的產(chǎn)品,知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內(nèi)生成一個(gè) 128*128 8fps 的長(zhǎng)達(dá) 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻,可達(dá) 1280*768 24fps。

text-to-Music

文本生成音樂(lè),如項(xiàng)目 Dance Diffusion,試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過(guò)文本描述生成“在風(fēng)聲中吹口哨”、“警報(bào)器和嗡嗡作響的引擎接近后走遠(yuǎn)”等特殊聲音效果。

寫在最后

技術(shù),永無(wú)止境,則 AI 藝術(shù),永無(wú)止境。最后,以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結(jié)束——

“我們要建立一個(gè)充滿活力、活躍、智能內(nèi)容規(guī)則的世界,一個(gè)充滿活力、你可以與之互動(dòng)的數(shù)字世界,共同創(chuàng)造的內(nèi)容,那是你的。加入到這股大潮吧,你將不再只是在未來(lái)的網(wǎng)絡(luò)上沖浪、被動(dòng)地消費(fèi)內(nèi)容。你將創(chuàng)造它!“

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

環(huán)旭電子

2.5k
  • 印尼央行稱正干預(yù)外匯市場(chǎng)以平抑市場(chǎng)波動(dòng)
  • 巴西對(duì)華平軋鋼板發(fā)起反傾銷日落復(fù)審調(diào)查

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

萬(wàn)字長(zhǎng)文講透AI藝術(shù):緣起、意義和未來(lái)(下篇)

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間。

文|巴比特資訊

AI 藝術(shù)更為直接的是一場(chǎng)新消費(fèi)變革,但以未來(lái)為終局,其必將是一場(chǎng)新技術(shù)變革,這是自十多年前移動(dòng)互聯(lián)網(wǎng)革命以來(lái)久違的一幕,讓開(kāi)源生態(tài)點(diǎn)燃的這星星之火燃遍新十年創(chuàng)業(yè)的每個(gè)角落。與區(qū)塊鏈引領(lǐng)的加密變革稍有不同,AIGC(AI 藝術(shù)所歸屬的大類)帶給人們的興奮感并不來(lái)自純金融和財(cái)富預(yù)期(“多巴胺”),更多的是發(fā)自人類內(nèi)心本質(zhì)的對(duì)嶄新未來(lái)的渴望,那是一種真正的“內(nèi)啡肽”。

未來(lái):技術(shù)為王

由于當(dāng)前最大的開(kāi)源生態(tài)是以 SD 為導(dǎo)向,因此本文所談?wù)摰募夹g(shù)動(dòng)向皆來(lái)自于 SD 大生態(tài)。MJ 在算法本質(zhì)上與 SD 同宗同源且大同小異,其關(guān)鍵為不斷進(jìn)化的數(shù)據(jù)集和美學(xué)算法增強(qiáng),期待 MJ 開(kāi)源的那一日,與世人共享其普惠萬(wàn)物的力量。

(一)二次元模型開(kāi)辟可商用垂直模型先河

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間,其近乎可商業(yè)化的使用體驗(yàn)也開(kāi)辟了“萬(wàn)物皆可垂直”的垂直模型先河,彌補(bǔ)了像 SD 這種大通用模型在個(gè)別美學(xué)領(lǐng)域的“力不從心”。當(dāng)然在這個(gè)過(guò)程中也是伴隨著詬病、質(zhì)疑和抨擊,但商業(yè)與技術(shù)應(yīng)該一分為二去看待。

以 NovelAI Diffusion 為例

由原本做 AIGC 生成小說(shuō)內(nèi)容的商業(yè)實(shí)體 Novel 推出,基于 SD 算法框架和 Danbooru 二次元圖庫(kù)數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化,被外網(wǎng)稱為“最強(qiáng)二次元生成模型”。

除去手部細(xì)節(jié),NovelAI 的出圖質(zhì)量可謂上乘。最大的功勞來(lái)自 Danbooru,是一個(gè)二次元圖片堆圖網(wǎng)站,會(huì)標(biāo)注畫師名、原作、角色,以及像文字描述一遍畫面內(nèi)容的詳細(xì) tag(可能會(huì)詳細(xì)到角色的發(fā)型發(fā)色、外貌特征、服裝、姿勢(shì)表情、包含一些其他可識(shí)別內(nèi)容的程度),而這些對(duì)擴(kuò)散模型的訓(xùn)練尤為重要,省去了大量的人工篩選標(biāo)注工作。

Danbooru 的商業(yè)定位也給了 NovelAI “可乘之機(jī)”:根據(jù)搜索結(jié)果內(nèi)容量來(lái)看,這個(gè)網(wǎng)站是其他用戶自發(fā)保存(例如在推上有一些熱度的繪畫作品)并上傳上去的,所以在日本一直有這個(gè)網(wǎng)站無(wú)授權(quán)轉(zhuǎn)載的爭(zhēng)議。關(guān)于這次 AI 學(xué)習(xí)素材庫(kù)的事情,Danbooru方面也有做出回應(yīng):與包括NovelAI 在內(nèi)的 AI 作畫網(wǎng)站沒(méi)什么關(guān)系,且不認(rèn)可他們的行為。

(注:以上相關(guān)內(nèi)容引用自微博大 V:夜露·茍·布魯圖斯)

但從正面意義來(lái)看,NovelAI 的確也在技術(shù)上給 SD 帶來(lái)了新的空間,就連 StabilityAI 的老板 Emad 也在推特上宣傳到:“NovelAI 的技術(shù)工作是對(duì) SD 極大的提升,包括手指修復(fù)、任意分辨率等等。”對(duì)技術(shù)感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對(duì) SD 的改進(jìn)工作,大致是修改了 SD 模型架構(gòu)及訓(xùn)練過(guò)程。

像 NovelAI 這類的二次元模型對(duì)于用戶輸入的描述詞的專業(yè)程度要求較高,如下所示:

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),

(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不僅需要描述人物,更是要對(duì)人物的二次元細(xì)節(jié)進(jìn)行刻畫,甚至還要加一些有助于畫質(zhì)增強(qiáng)的詞匯,這一系列操作被網(wǎng)友戲稱為“咒語(yǔ)”,就像要進(jìn)入一個(gè)二次元世界一般,首先你要學(xué)會(huì)“念咒”。好在社區(qū)力量是無(wú)限的,陸續(xù)出現(xiàn)了很多“寶典”,如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典 第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL,將二次元的“心法口訣”公諸于眾,且全民共創(chuàng),這很“二次元”。

(二)AI 畫二次元漫畫逐漸可行

二次元模型對(duì)于畫特定形象的人物十分擅長(zhǎng),比如在如下的連續(xù)出圖中,我們大致可以認(rèn)為都是一個(gè)“主人公”(稱之為白小蘇蘇)在變 Pose 或者換裝。因?yàn)槲覀兘o予 AI 的描述中對(duì)該人物進(jìn)行了極為細(xì)致的刻畫,就像固定了她的基因一般,加上二次元模型本身對(duì)于人物的勾畫(平圖)相對(duì)于真實(shí)人物就“粗放”一些,只要重要人物特征一致,便可以判別為同一個(gè)人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome,Hair glows,dramatic angle

直譯為:

{頭像},{一個(gè)極其精致美麗的女孩},cg 8k墻紙,杰作,冷漠的表情,英俊,上半身,看著觀眾,校服,水手服,瘋狂,白發(fā),凌亂的長(zhǎng)發(fā),紅色的眼睛,美麗細(xì)致的眼睛{{一個(gè)黑色的十字發(fā)夾}},英俊,頭發(fā)發(fā)光,戲劇性的角度

于是進(jìn)一步的,可以通過(guò)“底圖模式”去約束人物的動(dòng)作表達(dá)或者情節(jié)表達(dá),再配上同樣的人物特征關(guān)鍵詞描述,便可以輸出該人物動(dòng)漫劇情般的“生命周期”,她不再活在一幅圖中。何為“底圖”控制,如下所示:

圖片來(lái)源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

給 AI 上傳左邊的“粗制圖”,是為底圖,底圖負(fù)責(zé)勾勒畫面的大體結(jié)構(gòu),但未對(duì)人物細(xì)節(jié)進(jìn)行刻畫,隨后由 AI 將人物特征細(xì)節(jié)進(jìn)行“填充”,便會(huì)出現(xiàn)同一主人公擺出不同 Pose 的漫畫劇情。

圖片來(lái)源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

最后再配上文字、漫畫格式框,稍微經(jīng)過(guò) PS 整合,便能出來(lái)一幅像模像樣的漫畫了。

圖片來(lái)源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

當(dāng)然上述都是基于現(xiàn)在 AI 模型的發(fā)展所提出的“妥協(xié)”手段,實(shí)際上我們?cè)诋嫸卧嫊r(shí)應(yīng)該追求絕對(duì)的主人公一致性(真正是同一個(gè)人物)和更為精準(zhǔn)的動(dòng)作控制、背景控制甚至數(shù)量控制和表情控制等等,而這些都需要借助更為先進(jìn)的技術(shù),即如下所要講述的模型訓(xùn)練和以交叉注意力為代表的精準(zhǔn)控制技術(shù)。

(三)開(kāi)放模型訓(xùn)練催生“萬(wàn)物皆可垂直”

隨著二次元模型的成功流行,人們也越來(lái)越渴望更多類似的模型出現(xiàn),以解決五花八門的創(chuàng)作需求。一個(gè)中心化的商業(yè)平臺(tái)便需要做出一個(gè)大而全的產(chǎn)品以迎合用戶需求,但面對(duì)指數(shù)級(jí)的市場(chǎng)增長(zhǎng),這顯然是不現(xiàn)實(shí)的。最佳解決辦法便是交給一個(gè)去中心化的自組織生態(tài),像迸發(fā)二次元模型一樣實(shí)現(xiàn)模型的“涌現(xiàn)”,去解決人們?nèi)找嬖鲩L(zhǎng)的創(chuàng)作需求。這便特別需要一種開(kāi)放模型的力量,而 SD 在開(kāi)源之處便將這種力量完全交給了所有人,每個(gè)人都可以去獲得算法模型,都可以去訓(xùn)練自己的模型。于是,創(chuàng)作無(wú)限,模型涌現(xiàn)!

模型訓(xùn)練技術(shù)分 Checkpoint Merger(檢查點(diǎn)合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超網(wǎng)絡(luò)模型)、Aesthetic Gradient(審美梯度)以及重量級(jí)的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行,分別有著不同的技術(shù)原理和優(yōu)勢(shì)。

知名博主“Simon 的白日夢(mèng)“在微博分享了自己使用 SD 的 Textual Inversion 技術(shù)訓(xùn)練的“黏菌衛(wèi)星圖”案例。首先需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集,大概一萬(wàn)張衛(wèi)星地圖;我們都知道 SD 模型本身要么只能單獨(dú)出城市衛(wèi)星圖,要么只能出黏菌圖;博主通過(guò) Textual Inversion 再次訓(xùn)練之后,成功地把城市衛(wèi)星圖肌理和黏菌的微觀結(jié)構(gòu)融合在了一起。

再分享另外一個(gè)知名博主“大谷 Spitzer”使用 Textual Inversion 進(jìn)行“分鏡設(shè)計(jì)”的案例。我們?cè)谏厦嫣岬揭龆卧嬰x不開(kāi)固定主人公形象,所謂分鏡設(shè)計(jì)便是能否用 AI 繪制出獨(dú)特且相貌保持連續(xù)性的動(dòng)漫角色。大谷用 Textual Inversion + 自制數(shù)據(jù)集訓(xùn)練了 6、7 種不同的相貌作為臉部基因。之后在輸入給 AI 的文字中,即可通過(guò)改變訓(xùn)練好的幾個(gè)相貌 tag 的比例權(quán)重,融合出現(xiàn)實(shí)里不存在,同時(shí)在系列圖片里長(zhǎng)相可以保持一致的角色。如下兩幅圖便是不同比例權(quán)重下出現(xiàn)的兩位“主人公”,而對(duì)于同一位主人公,可以通過(guò) AI 讓其出現(xiàn)在各種各樣的場(chǎng)景。比如“太空之聲”里的女孩是同一個(gè)形象的不同故事表達(dá),而“都市探員”里的主人公膚色更深、形象健碩,真的像一名探員。

 

在具體操作上,正如“Simon 的白日夢(mèng)”所說(shuō):

當(dāng)你輸入一個(gè)模型中沒(méi)有的概念,例如生成一個(gè)“Simon 的白日夢(mèng) up 主的照片”,因?yàn)?sd 模型沒(méi)有見(jiàn)過(guò)我,自然不能生成我的照片。但是注意,其實(shí) sd 模型中是具備生成我的照片的所有要素的的能力,畢竟我只是一個(gè)普通的中國(guó)技術(shù)宅,模型中應(yīng)該有不少亞洲人的特征可以用于合成。

那這時(shí)候給出幾張我的照片(坐標(biāo)也可以通過(guò)編碼圖片獲得),對(duì)比剛才說(shuō)的文字提示,訓(xùn)練 textual inversion,其實(shí)是告訴模型“我是誰(shuí)”,從而獲得根據(jù)我的文字提示獲得一個(gè)更準(zhǔn)確的坐標(biāo)。因此,訓(xùn)練完后,我們會(huì)發(fā)現(xiàn)并沒(méi)有生成新的模型 ckpt 文件,而是得到了一個(gè)幾十 k 大小的 .pt 文件,然后下次啟動(dòng) stable diffuison webui 的時(shí)候就可以掛載這個(gè)文件,當(dāng)我下次再輸入“Simon 的白日夢(mèng) up 主的照片”這段文字的時(shí)候,模型就會(huì)讀取這個(gè) .pt 文件里邊的準(zhǔn)確坐標(biāo),并和其它文字描述包含的坐標(biāo)融合,然后生成更符合文字描述的圖片。

社區(qū)也在利用 Textual Inversion 為二次元模型豐富其尚不能繪制的形象,比如很多國(guó)產(chǎn)動(dòng)漫角色,如秦時(shí)明月。只要有合法的數(shù)據(jù)集,技術(shù)都是現(xiàn)成的,通過(guò)算力讓人物形象在 AI 的世界“凝聚”。

embedding即為Textual Inversion

Textual Inversion 的優(yōu)勢(shì)是輕量級(jí)、簡(jiǎn)單上手。它可以對(duì)主體(object)進(jìn)行訓(xùn)練,讓 AI 記住這個(gè)“人”或“物”,也可以對(duì)畫風(fēng)(style)進(jìn)行訓(xùn)練,比如可以記住某位在世藝術(shù)家的畫風(fēng)然后讓 AI 以此畫風(fēng)來(lái)畫任何事物;訓(xùn)練出的模型文件可以直接掛載到 SD 模型框架中,類似 Linux 開(kāi)放時(shí)代不斷完善的動(dòng)態(tài)連接庫(kù),因此對(duì) SD 也是友好的。但劣勢(shì)是,效果較為粗糙,目前尚未有可以進(jìn)入商業(yè)化產(chǎn)品效果的模型出現(xiàn),社區(qū)更多期待給予了另外一項(xiàng)技術(shù)——Dreambooth。

相較于 Textual Inversion 等在 SD 框架上的增添,Dreambooth 是直接調(diào)整整個(gè) SD 模型本身,SD 模型是一個(gè)大概 4G 左右的 ckpt 文件,經(jīng)過(guò) Dreambooth 重訓(xùn)模型后,會(huì)生成一個(gè)新的 ckpt 文件,是一種深度融合。因此 Dreambooth 的訓(xùn)練會(huì)更為復(fù)雜苛刻。

由于 dreambooth 會(huì)將訓(xùn)練對(duì)模型的影響鎖定在某一種物體的類別內(nèi),所以訓(xùn)練的時(shí)候不僅需要描述的文字、對(duì)應(yīng)圖片,還需要告訴模型你訓(xùn)練的物體的類別(訓(xùn)練完使用的時(shí)候,也要同時(shí)在 prompt 中包含類別和 token 關(guān)鍵字),并且用訓(xùn)練前的模型先生成一系列這一種類物體的正則化圖片(regularization image)用于后續(xù)和你給的圖片做半監(jiān)督訓(xùn)練。所以,生成正則化圖片要消耗額外的圖片(一般要 1K+,但是可以用別人生成好的);訓(xùn)練的時(shí)候因?yàn)槭钦{(diào)整整個(gè)模型(即便只是模型中的部分參數(shù)),對(duì)算力和時(shí)間要求也比較高。我在本地一塊 3090 上訓(xùn)練時(shí)顯存占用達(dá)到 23.7G,訓(xùn)練 10K 張 10000epoch 需要 4 個(gè)半小時(shí)。

—— Simon 的白日夢(mèng)

黏菌衛(wèi)星圖模型兩種訓(xùn)練效果對(duì)比,dreambooth更勝一籌

再回到二次元這個(gè)話題,同樣有大 V 利用 Dreambooth 訓(xùn)練出了一個(gè)賽博風(fēng)的二次元模型——Cyberpunk Anime Diffusion,由“大谷 Spitzer”開(kāi)發(fā),現(xiàn)已開(kāi)源。

Cyberpunk Anime Diffusion開(kāi)源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

提這種模型并不是打廣告,而是致敬其開(kāi)創(chuàng)意義,起碼在國(guó)內(nèi)都是值得后來(lái)者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克:邊緣行者》畫風(fēng)素材,在基礎(chǔ)模型上使用的是一個(gè)基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型,然后用 Dreambooth 導(dǎo)入自定義數(shù)據(jù)集訓(xùn)練了 13700 步就獲得了以下的生成效果(使用方法,在 prompt 中加入關(guān)鍵詞"dgs illustration style")。

憑借著對(duì)底層基礎(chǔ)模型更為深度地改進(jìn),Dreambooth 也被稱為“核彈級(jí)技術(shù)”。同 textual inversion 一樣,dreambooth 也可以訓(xùn)練主體、記住主體,比如輸入幾張自己的照片(家里的小狗),dreambooth 就會(huì)記住照片中的物體長(zhǎng)什么樣,然后就能把這個(gè)物體作為關(guān)鍵詞套用到任何場(chǎng)景和風(fēng)格中,“一鍵實(shí)現(xiàn)無(wú)限分鏡”。

Dreambooth技術(shù)最早來(lái)自google論文,此為論文中的案例,一只現(xiàn)實(shí)小狗無(wú)限藝術(shù)分鏡

同樣可以人也可以,比如給自己來(lái)張自拍,然后讓自己出現(xiàn)在藝術(shù)的大千世界中。

記住主體更大的意義是,可以對(duì)主體進(jìn)行“屬性修改”。比如當(dāng) AI 記住了輸入的“小汽車”后,便可以隨心所欲地對(duì)其顏色進(jìn)行更改,而其他特征保持一致。再回到二次元漫畫那個(gè)話題,這種精準(zhǔn)屬性控制技術(shù)也是其關(guān)鍵推動(dòng)技術(shù)之一。

正如 《上線一個(gè)月成為準(zhǔn)獨(dú)角獸、上萬(wàn)人排隊(duì)注冊(cè),AI Art是下一個(gè)NFT?》一文中寫到:

“2022 年,可稱為被 Diffusion 開(kāi)啟的 AI Art 元年。接下來(lái)的三至五年內(nèi),AI Art 將會(huì)往更加自由的方向發(fā)展,比如展現(xiàn)出更強(qiáng)的耦合性,可被用戶定制的空間更大,也就是說(shuō)更貼近“主觀創(chuàng)作”的過(guò)程,藝術(shù)作品中也會(huì)分化和體現(xiàn)出越來(lái)越細(xì)致的用戶想法。Google 近期上線的 DreamBooth AI 已經(jīng)展現(xiàn)出了這一特點(diǎn)?!?/p>

除了上述對(duì)主體的訓(xùn)練,Dreambooth 最常被用來(lái)“記住”畫風(fēng),即訓(xùn)練 style。上述博主(“地球土著座一億”)用了十張夏阿老師的畫,通過(guò) dreambooth “記住”了他的畫風(fēng),效果對(duì)比如下。

(備注:夏阿是出生于揚(yáng)州,定居于南京的 80 后插畫師。因 2014 年經(jīng)常在網(wǎng)上發(fā)布“穿越”“混搭”“搞笑”類的國(guó)畫作品,深受網(wǎng)友喜愛(ài)而“走紅”。)

如下為夏阿的原作——

如下為 dreambooth 的訓(xùn)練效果出圖——

不論是輕量級(jí)的 Textual Inversion,還是重量級(jí)的 Dreambooth,抑或介于二者之間的如 Hypernetwork(超網(wǎng)絡(luò)模型)和 Aesthetic Gradient(審美梯度)等,包括更多的原生模型訓(xùn)練方式:模型融合、微調(diào)(Fine Tuning)等,都是現(xiàn)階段輸出更加可商業(yè)化新模型的利器。短短一個(gè)月時(shí)間便已經(jīng)涌現(xiàn)出了大量在概念驗(yàn)證階段的垂直模型,五彩繽紛。

社區(qū)基于 Textual Inversion 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區(qū)基于 Dreambooth 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

采用更多訓(xùn)練技術(shù)的模型大全站點(diǎn) Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

如果說(shuō) SD 為 AI 藝術(shù)打開(kāi)了第一扇窗戶,那么今天這些五光十色、極具創(chuàng)意的“大千”模型則為 AI 藝術(shù)打開(kāi)了第一扇大門。尤其在 Dreambooth 模型生態(tài)中,有能夠?qū)崿F(xiàn)迪士尼風(fēng)的模型、有當(dāng)下 MJ 生態(tài)最火的機(jī)甲風(fēng)模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

(四)交叉注意力實(shí)現(xiàn)畫面的精準(zhǔn)控制

開(kāi)放模型的出現(xiàn)給予了降維解決一切難題的方式,真正實(shí)現(xiàn)了“創(chuàng)造”二字。與此同時(shí),也不能忽略一些輔助技術(shù)的發(fā)展,還是拿二次元漫畫為例,我們不免要對(duì)一些更細(xì)節(jié)的繪制表現(xiàn)進(jìn)行控制。如下,我們希望保留汽車和樹木背景,但改變?cè)谒厦娴摹爸魅斯保换蛘邔⒁环F(xiàn)實(shí)照片進(jìn)行漫畫風(fēng)格的變化,以做漫畫敘事背景設(shè)計(jì)。

開(kāi)源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制(Cross-Attention Control)技術(shù),連 StabilityAI 創(chuàng)始人也不禁為這項(xiàng)技術(shù)點(diǎn)贊:“在類似技術(shù)幫助下,你可以去創(chuàng)造任何你夢(mèng)想的事物?!?/p>

該項(xiàng)目開(kāi)源連接——

GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt

在這個(gè)項(xiàng)目 demo 中,可以改變主人公“小貓”的坐騎,可以給背景畫一道彩虹,可以讓擁擠的路上變得空曠。在如下類似的研究項(xiàng)目中,還可以做到讓主人公豎大拇指、讓兩只鳥 kiss、讓一個(gè)香蕉變兩個(gè)。

不論是【Imagic】還是【Prompt-to-Prompt】,精準(zhǔn)控制技術(shù)對(duì)于實(shí)現(xiàn) AI 繪圖的自主可控十分重要,也是構(gòu)建二次元漫畫體系比較重要的技術(shù)動(dòng)向之一,目前尚處于行業(yè)研究前沿。

(五)精準(zhǔn)控制系列之 Inpainting 和 Outpainting

說(shuō)到了精準(zhǔn)控制,它不是某一項(xiàng)技術(shù),交叉注意力是其一,還有很多輔助性手段為其服務(wù),最為流行和商業(yè)成熟的是 inpainting 和 outpainting 技術(shù)。這是傳統(tǒng)設(shè)計(jì)領(lǐng)域的概念,AI 藝術(shù)也繼承了過(guò)來(lái)。當(dāng)前 SD 也推出了 inpainting 功能,可翻譯為“涂抹”,即對(duì)于畫面中不滿意的部分進(jìn)行“涂抹”,然后 AI 會(huì)在涂抹區(qū)重新生成想要替換的內(nèi)容,具體見(jiàn)下圖操作。

開(kāi)源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

同樣以二次元漫畫這個(gè)終極追求為例,當(dāng)需要給女主人公增加一位帥氣的男士時(shí),便可以在她旁邊區(qū)域進(jìn)行涂抹,然后附上一段霸道總裁的關(guān)鍵詞 prompt,AI 便會(huì)給女主一段“姻緣”。

另外一項(xiàng)技術(shù) outpainting,被譽(yù)為“無(wú)限畫布”,最早出現(xiàn)在 Dalle2 的商業(yè)產(chǎn)品體系中,當(dāng)時(shí)也是震驚世人。簡(jiǎn)單來(lái)講,將一張需要擴(kuò)展的圖上傳給 AI,outpainting 便會(huì)在這張圖的四周擴(kuò)展出“無(wú)限的”畫布,至于填充什么內(nèi)容,也完全交給用戶自己輸入的 prompt 決定,無(wú)限畫布,無(wú)限想象空間。如下利用 outpainting 為一幅經(jīng)典名畫填充了大量背景,產(chǎn)生了令人驚喜的效果。如今 SD 生態(tài)也擁有了自己的 outpainting 技術(shù),開(kāi)源地址——

Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

在 outpainting 的加持下,不僅可以為一幅單調(diào)的圖加無(wú)限的背景,更可以極大拓展 AI 藝術(shù)出圖的尺寸,在 SD 生態(tài)一般出圖為幾百像素,遠(yuǎn)遠(yuǎn)不能滿足大尺寸海報(bào)的需求,而 outpainting 技術(shù)便可以極大擴(kuò)展 AI 藝術(shù)原生出圖的尺寸。同樣對(duì)于二次元漫畫,甚至可以在一幅圖中展現(xiàn)所有“參演人員”的形色百態(tài)。

(六)其他更多技術(shù)概念

除了上述重要技術(shù)外,還有很多細(xì)分技術(shù)被社區(qū)津津樂(lè)道。

可以利用 Deforum 做 SD 動(dòng)畫

SD動(dòng)畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個(gè)完整制作 AI 動(dòng)畫的工作流——

其中提到了多種技術(shù),如利用 inpainting 修改細(xì)節(jié),用 outpainting 向外擴(kuò)展,用 dreambooth 做動(dòng)畫主角,用 Deforum 不斷生成改變、用 coherence 進(jìn)行連續(xù)性控制、用 flowframe 補(bǔ)幀等等。更做二次元漫畫一樣,也是一項(xiàng)系統(tǒng)性工程。

prompt 逆向反推

整個(gè) AI 藝術(shù)最關(guān)鍵的是 prompt,尤其對(duì)于新人用戶,能否獲得好的 prompt 是其能否獲得優(yōu)質(zhì)出圖的關(guān)鍵所在,因此很多產(chǎn)品化的 AI 工具都會(huì)在用戶輸入 prompt 這方面進(jìn)行改進(jìn)。除了大量可以獲取關(guān)鍵詞的搜索引擎網(wǎng)站外,逆向反推成為了一項(xiàng)重要輔助手段。所謂逆向反推,即給出一張圖片,可以是真實(shí)世界的,也可以來(lái)自 AI 生成,逆向反推技術(shù)便可以輸出能夠繪制該畫面的 prompt。雖然在實(shí)際效果中,無(wú)法反推出生成效果一模一樣的 prompt,但這給予了很多新人用戶獲取帶有復(fù)雜藝術(shù)修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關(guān)鍵詞,其開(kāi)源地址——

GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具,使用連接如下——

CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

 

類似的還有 methexis-inc 發(fā)布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

除了直接以圖片進(jìn)行反推外,還有一種工具如 Prompt Extend,可以一鍵加長(zhǎng) Prompt,可以將一個(gè)小白用戶輸入的“太陽(yáng)”一鍵加長(zhǎng)到帶有豐富藝術(shù)修飾的“大神級(jí)”描述,工具地址——

Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說(shuō)到 prompt,不得不說(shuō)被譽(yù)為寶庫(kù)的各大搜索引擎網(wǎng)站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開(kāi)源地址github.com/krea-ai/open-prompts

Just a moment...lexica.art/

 

在搜索引擎中搜索自己想要的畫面,便會(huì)呈現(xiàn)符合主題的配圖及其對(duì)應(yīng)的 prompt。還有不直接給 prompt 搜索,而是引導(dǎo)用戶一步步構(gòu)建 prompt 的提示性工具——

Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

如上圖,可根據(jù)網(wǎng)站提示,一步步構(gòu)建出一幅“美麗的面孔”。在這些工具的加持下,即便從未接觸過(guò) AI 藝術(shù)的用戶,在短短幾天內(nèi)也能逐漸摸清構(gòu)建 prompt 的精髓。

(七)除了作圖,更多 AI 藝術(shù)領(lǐng)域

AI 藝術(shù)從 AI 作圖開(kāi)始,也稱之為 text-to-image,但時(shí)至今日,藝術(shù)并不局限于圖片,AI 藝術(shù)也不局限于 AI 作圖,更多的 text-to-X 開(kāi)始預(yù)示著未來(lái) AI 藝術(shù)的新形態(tài)。最為知名的有:

text-to-3D

即文本生成 3D 模型,同樣在 SD 生態(tài)也有類似項(xiàng)目,地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來(lái)源:量子位《Text-to-3D!建筑學(xué)小哥自稱編程菜鳥,攢了個(gè)AI作畫三維版,還是彩色的》

在給 AI 輸入“一幅美麗的花樹畫,作者 Chiho Aoshima,長(zhǎng)鏡頭,超現(xiàn)實(shí)主義”,就能瞬間得到一個(gè)長(zhǎng)這樣的花樹視頻,時(shí)長(zhǎng) 13 秒。這個(gè) text-to-3D 項(xiàng)目叫 dreamfields3D,現(xiàn)已開(kāi)源——

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外,還有個(gè)項(xiàng)目叫 DreamFusion,地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有著較好的 3D 效果,也被 SD 生態(tài)嫁接到了 SD 實(shí)現(xiàn)中,開(kāi)源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有 如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型;英偉達(dá)開(kāi)源 3D 模型生成工具,GET3D——

GET3D開(kāi)源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

文本生成視頻對(duì)技術(shù)要求極大,目前只有 google 和 meta 在爭(zhēng)相發(fā)布體驗(yàn)性質(zhì)的產(chǎn)品,知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內(nèi)生成一個(gè) 128*128 8fps 的長(zhǎng)達(dá) 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻,可達(dá) 1280*768 24fps。

text-to-Music

文本生成音樂(lè),如項(xiàng)目 Dance Diffusion,試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過(guò)文本描述生成“在風(fēng)聲中吹口哨”、“警報(bào)器和嗡嗡作響的引擎接近后走遠(yuǎn)”等特殊聲音效果。

寫在最后

技術(shù),永無(wú)止境,則 AI 藝術(shù),永無(wú)止境。最后,以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結(jié)束——

“我們要建立一個(gè)充滿活力、活躍、智能內(nèi)容規(guī)則的世界,一個(gè)充滿活力、你可以與之互動(dòng)的數(shù)字世界,共同創(chuàng)造的內(nèi)容,那是你的。加入到這股大潮吧,你將不再只是在未來(lái)的網(wǎng)絡(luò)上沖浪、被動(dòng)地消費(fèi)內(nèi)容。你將創(chuàng)造它!“

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。