1a级毛片免费观看,国产成人手机在线观看

文｜巴比特資訊

AI 藝術(shù)更為直接的是一場(chǎng)新消費(fèi)變革，但以未來(lái)為終局，其必將是一場(chǎng)新技術(shù)變革，這是自十多年前移動(dòng)互聯(lián)網(wǎng)革命以來(lái)久違的一幕，讓開(kāi)源生態(tài)點(diǎn)燃的這星星之火燃遍新十年創(chuàng)業(yè)的每個(gè)角落。與區(qū)塊鏈引領(lǐng)的加密變革稍有不同，AIGC（AI 藝術(shù)所歸屬的大類）帶給人們的興奮感并不來(lái)自純金融和財(cái)富預(yù)期（“多巴胺”），更多的是發(fā)自人類內(nèi)心本質(zhì)的對(duì)嶄新未來(lái)的渴望，那是一種真正的“內(nèi)啡肽”。

未來(lái)：技術(shù)為王

由于當(dāng)前最大的開(kāi)源生態(tài)是以 SD 為導(dǎo)向，因此本文所談?wù)摰募夹g(shù)動(dòng)向皆來(lái)自于 SD 大生態(tài)。MJ 在算法本質(zhì)上與 SD 同宗同源且大同小異，其關(guān)鍵為不斷進(jìn)化的數(shù)據(jù)集和美學(xué)算法增強(qiáng)，期待 MJ 開(kāi)源的那一日，與世人共享其普惠萬(wàn)物的力量。

（一）二次元模型開(kāi)辟可商用垂直模型先河

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間，其近乎可商業(yè)化的使用體驗(yàn)也開(kāi)辟了“萬(wàn)物皆可垂直”的垂直模型先河，彌補(bǔ)了像 SD 這種大通用模型在個(gè)別美學(xué)領(lǐng)域的“力不從心”。當(dāng)然在這個(gè)過(guò)程中也是伴隨著詬病、質(zhì)疑和抨擊，但商業(yè)與技術(shù)應(yīng)該一分為二去看待。

以 NovelAI Diffusion 為例

由原本做 AIGC 生成小說(shuō)內(nèi)容的商業(yè)實(shí)體 Novel 推出，基于 SD 算法框架和 Danbooru 二次元圖庫(kù)數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化，被外網(wǎng)稱為“最強(qiáng)二次元生成模型”。

除去手部細(xì)節(jié)，NovelAI 的出圖質(zhì)量可謂上乘。最大的功勞來(lái)自 Danbooru，是一個(gè)二次元圖片堆圖網(wǎng)站，會(huì)標(biāo)注畫師名、原作、角色，以及像文字描述一遍畫面內(nèi)容的詳細(xì) tag（可能會(huì)詳細(xì)到角色的發(fā)型發(fā)色、外貌特征、服裝、姿勢(shì)表情、包含一些其他可識(shí)別內(nèi)容的程度），而這些對(duì)擴(kuò)散模型的訓(xùn)練尤為重要，省去了大量的人工篩選標(biāo)注工作。

Danbooru 的商業(yè)定位也給了 NovelAI “可乘之機(jī)”：根據(jù)搜索結(jié)果內(nèi)容量來(lái)看，這個(gè)網(wǎng)站是其他用戶自發(fā)保存（例如在推上有一些熱度的繪畫作品）并上傳上去的，所以在日本一直有這個(gè)網(wǎng)站無(wú)授權(quán)轉(zhuǎn)載的爭(zhēng)議。關(guān)于這次 AI 學(xué)習(xí)素材庫(kù)的事情，Danbooru方面也有做出回應(yīng)：與包括NovelAI 在內(nèi)的 AI 作畫網(wǎng)站沒(méi)什么關(guān)系，且不認(rèn)可他們的行為。

（注：以上相關(guān)內(nèi)容引用自微博大 V：夜露·茍·布魯圖斯）

但從正面意義來(lái)看，NovelAI 的確也在技術(shù)上給 SD 帶來(lái)了新的空間，就連 StabilityAI 的老板 Emad 也在推特上宣傳到：“NovelAI 的技術(shù)工作是對(duì) SD 極大的提升，包括手指修復(fù)、任意分辨率等等。”對(duì)技術(shù)感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對(duì) SD 的改進(jìn)工作，大致是修改了 SD 模型架構(gòu)及訓(xùn)練過(guò)程。

像 NovelAI 這類的二次元模型對(duì)于用戶輸入的描述詞的專業(yè)程度要求較高，如下所示：

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),

(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不僅需要描述人物，更是要對(duì)人物的二次元細(xì)節(jié)進(jìn)行刻畫，甚至還要加一些有助于畫質(zhì)增強(qiáng)的詞匯，這一系列操作被網(wǎng)友戲稱為“咒語(yǔ)”，就像要進(jìn)入一個(gè)二次元世界一般，首先你要學(xué)會(huì)“念咒”。好在社區(qū)力量是無(wú)限的，陸續(xù)出現(xiàn)了很多“寶典”，如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL，將二次元的“心法口訣”公諸于眾，且全民共創(chuàng)，這很“二次元”。

（二）AI 畫二次元漫畫逐漸可行

二次元模型對(duì)于畫特定形象的人物十分擅長(zhǎng)，比如在如下的連續(xù)出圖中，我們大致可以認(rèn)為都是一個(gè)“主人公”（稱之為白小蘇蘇）在變 Pose 或者換裝。因?yàn)槲覀兘o予 AI 的描述中對(duì)該人物進(jìn)行了極為細(xì)致的刻畫，就像固定了她的基因一般，加上二次元模型本身對(duì)于人物的勾畫（平圖）相對(duì)于真實(shí)人物就“粗放”一些，只要重要人物特征一致，便可以判別為同一個(gè)人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome，Hair glows,dramatic angle

直譯為：

{頭像}，{一個(gè)極其精致美麗的女孩}，cg 8k墻紙，杰作，冷漠的表情，英俊，上半身，看著觀眾，校服，水手服，瘋狂，白發(fā)，凌亂的長(zhǎng)發(fā)，紅色的眼睛，美麗細(xì)致的眼睛{{一個(gè)黑色的十字發(fā)夾}}，英俊，頭發(fā)發(fā)光，戲劇性的角度

于是進(jìn)一步的，可以通過(guò)“底圖模式”去約束人物的動(dòng)作表達(dá)或者情節(jié)表達(dá)，再配上同樣的人物特征關(guān)鍵詞描述，便可以輸出該人物動(dòng)漫劇情般的“生命周期”，她不再活在一幅圖中。何為“底圖”控制，如下所示：

圖片來(lái)源：wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了？！》

給 AI 上傳左邊的“粗制圖”，是為底圖，底圖負(fù)責(zé)勾勒畫面的大體結(jié)構(gòu)，但未對(duì)人物細(xì)節(jié)進(jìn)行刻畫，隨后由 AI 將人物特征細(xì)節(jié)進(jìn)行“填充”，便會(huì)出現(xiàn)同一主人公擺出不同 Pose 的漫畫劇情。

圖片來(lái)源：wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了？！》

最后再配上文字、漫畫格式框，稍微經(jīng)過(guò) PS 整合，便能出來(lái)一幅像模像樣的漫畫了。

圖片來(lái)源：wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了？！》

當(dāng)然上述都是基于現(xiàn)在 AI 模型的發(fā)展所提出的“妥協(xié)”手段，實(shí)際上我們?cè)诋嫸卧嫊r(shí)應(yīng)該追求絕對(duì)的主人公一致性（真正是同一個(gè)人物）和更為精準(zhǔn)的動(dòng)作控制、背景控制甚至數(shù)量控制和表情控制等等，而這些都需要借助更為先進(jìn)的技術(shù)，即如下所要講述的模型訓(xùn)練和以交叉注意力為代表的精準(zhǔn)控制技術(shù)。

（三）開(kāi)放模型訓(xùn)練催生“萬(wàn)物皆可垂直”

隨著二次元模型的成功流行，人們也越來(lái)越渴望更多類似的模型出現(xiàn)，以解決五花八門的創(chuàng)作需求。一個(gè)中心化的商業(yè)平臺(tái)便需要做出一個(gè)大而全的產(chǎn)品以迎合用戶需求，但面對(duì)指數(shù)級(jí)的市場(chǎng)增長(zhǎng)，這顯然是不現(xiàn)實(shí)的。最佳解決辦法便是交給一個(gè)去中心化的自組織生態(tài)，像迸發(fā)二次元模型一樣實(shí)現(xiàn)模型的“涌現(xiàn)”，去解決人們?nèi)找嬖鲩L(zhǎng)的創(chuàng)作需求。這便特別需要一種開(kāi)放模型的力量，而 SD 在開(kāi)源之處便將這種力量完全交給了所有人，每個(gè)人都可以去獲得算法模型，都可以去訓(xùn)練自己的模型。于是，創(chuàng)作無(wú)限，模型涌現(xiàn)！

模型訓(xùn)練技術(shù)分 Checkpoint Merger（檢查點(diǎn)合并）、Textual Inversion（Embedding 嵌入模型）、Hypernetwork（超網(wǎng)絡(luò)模型）、Aesthetic Gradient（審美梯度）以及重量級(jí)的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行，分別有著不同的技術(shù)原理和優(yōu)勢(shì)。

知名博主“Simon 的白日夢(mèng)“在微博分享了自己使用 SD 的 Textual Inversion 技術(shù)訓(xùn)練的“黏菌衛(wèi)星圖”案例。首先需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集，大概一萬(wàn)張衛(wèi)星地圖；我們都知道 SD 模型本身要么只能單獨(dú)出城市衛(wèi)星圖，要么只能出黏菌圖；博主通過(guò) Textual Inversion 再次訓(xùn)練之后，成功地把城市衛(wèi)星圖肌理和黏菌的微觀結(jié)構(gòu)融合在了一起。

再分享另外一個(gè)知名博主“大谷 Spitzer”使用 Textual Inversion 進(jìn)行“分鏡設(shè)計(jì)”的案例。我們?cè)谏厦嫣岬揭龆卧嬰x不開(kāi)固定主人公形象，所謂分鏡設(shè)計(jì)便是能否用 AI 繪制出獨(dú)特且相貌保持連續(xù)性的動(dòng)漫角色。大谷用 Textual Inversion + 自制數(shù)據(jù)集訓(xùn)練了 6、7 種不同的相貌作為臉部基因。之后在輸入給 AI 的文字中，即可通過(guò)改變訓(xùn)練好的幾個(gè)相貌 tag 的比例權(quán)重，融合出現(xiàn)實(shí)里不存在，同時(shí)在系列圖片里長(zhǎng)相可以保持一致的角色。如下兩幅圖便是不同比例權(quán)重下出現(xiàn)的兩位“主人公”，而對(duì)于同一位主人公，可以通過(guò) AI 讓其出現(xiàn)在各種各樣的場(chǎng)景。比如“太空之聲”里的女孩是同一個(gè)形象的不同故事表達(dá)，而“都市探員”里的主人公膚色更深、形象健碩，真的像一名探員。

在具體操作上，正如“Simon 的白日夢(mèng)”所說(shuō)：

當(dāng)你輸入一個(gè)模型中沒(méi)有的概念，例如生成一個(gè)“Simon 的白日夢(mèng) up 主的照片”，因?yàn)?sd 模型沒(méi)有見(jiàn)過(guò)我，自然不能生成我的照片。但是注意，其實(shí) sd 模型中是具備生成我的照片的所有要素的的能力，畢竟我只是一個(gè)普通的中國(guó)技術(shù)宅，模型中應(yīng)該有不少亞洲人的特征可以用于合成。

那這時(shí)候給出幾張我的照片（坐標(biāo)也可以通過(guò)編碼圖片獲得），對(duì)比剛才說(shuō)的文字提示，訓(xùn)練 textual inversion，其實(shí)是告訴模型“我是誰(shuí)”，從而獲得根據(jù)我的文字提示獲得一個(gè)更準(zhǔn)確的坐標(biāo)。因此，訓(xùn)練完后，我們會(huì)發(fā)現(xiàn)并沒(méi)有生成新的模型 ckpt 文件，而是得到了一個(gè)幾十 k 大小的 .pt 文件，然后下次啟動(dòng) stable diffuison webui 的時(shí)候就可以掛載這個(gè)文件，當(dāng)我下次再輸入“Simon 的白日夢(mèng) up 主的照片”這段文字的時(shí)候，模型就會(huì)讀取這個(gè) .pt 文件里邊的準(zhǔn)確坐標(biāo)，并和其它文字描述包含的坐標(biāo)融合，然后生成更符合文字描述的圖片。

社區(qū)也在利用 Textual Inversion 為二次元模型豐富其尚不能繪制的形象，比如很多國(guó)產(chǎn)動(dòng)漫角色，如秦時(shí)明月。只要有合法的數(shù)據(jù)集，技術(shù)都是現(xiàn)成的，通過(guò)算力讓人物形象在 AI 的世界“凝聚”。

embedding即為Textual Inversion

Textual Inversion 的優(yōu)勢(shì)是輕量級(jí)、簡(jiǎn)單上手。它可以對(duì)主體（object）進(jìn)行訓(xùn)練，讓 AI 記住這個(gè)“人”或“物”，也可以對(duì)畫風(fēng)（style）進(jìn)行訓(xùn)練，比如可以記住某位在世藝術(shù)家的畫風(fēng)然后讓 AI 以此畫風(fēng)來(lái)畫任何事物；訓(xùn)練出的模型文件可以直接掛載到 SD 模型框架中，類似 Linux 開(kāi)放時(shí)代不斷完善的動(dòng)態(tài)連接庫(kù)，因此對(duì) SD 也是友好的。但劣勢(shì)是，效果較為粗糙，目前尚未有可以進(jìn)入商業(yè)化產(chǎn)品效果的模型出現(xiàn)，社區(qū)更多期待給予了另外一項(xiàng)技術(shù)——Dreambooth。

相較于 Textual Inversion 等在 SD 框架上的增添，Dreambooth 是直接調(diào)整整個(gè) SD 模型本身，SD 模型是一個(gè)大概 4G 左右的 ckpt 文件，經(jīng)過(guò) Dreambooth 重訓(xùn)模型后，會(huì)生成一個(gè)新的 ckpt 文件，是一種深度融合。因此 Dreambooth 的訓(xùn)練會(huì)更為復(fù)雜苛刻。

由于 dreambooth 會(huì)將訓(xùn)練對(duì)模型的影響鎖定在某一種物體的類別內(nèi)，所以訓(xùn)練的時(shí)候不僅需要描述的文字、對(duì)應(yīng)圖片，還需要告訴模型你訓(xùn)練的物體的類別（訓(xùn)練完使用的時(shí)候，也要同時(shí)在 prompt 中包含類別和 token 關(guān)鍵字），并且用訓(xùn)練前的模型先生成一系列這一種類物體的正則化圖片（regularization image）用于后續(xù)和你給的圖片做半監(jiān)督訓(xùn)練。所以，生成正則化圖片要消耗額外的圖片（一般要 1K+，但是可以用別人生成好的）；訓(xùn)練的時(shí)候因?yàn)槭钦{(diào)整整個(gè)模型（即便只是模型中的部分參數(shù)），對(duì)算力和時(shí)間要求也比較高。我在本地一塊 3090 上訓(xùn)練時(shí)顯存占用達(dá)到 23.7G，訓(xùn)練 10K 張 10000epoch 需要 4 個(gè)半小時(shí)。

—— Simon 的白日夢(mèng)

黏菌衛(wèi)星圖模型兩種訓(xùn)練效果對(duì)比，dreambooth更勝一籌

再回到二次元這個(gè)話題，同樣有大 V 利用 Dreambooth 訓(xùn)練出了一個(gè)賽博風(fēng)的二次元模型——Cyberpunk Anime Diffusion，由“大谷 Spitzer”開(kāi)發(fā)，現(xiàn)已開(kāi)源。

Cyberpunk Anime Diffusion開(kāi)源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

提這種模型并不是打廣告，而是致敬其開(kāi)創(chuàng)意義，起碼在國(guó)內(nèi)都是值得后來(lái)者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克：邊緣行者》畫風(fēng)素材，在基礎(chǔ)模型上使用的是一個(gè)基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型，然后用 Dreambooth 導(dǎo)入自定義數(shù)據(jù)集訓(xùn)練了 13700 步就獲得了以下的生成效果（使用方法，在 prompt 中加入關(guān)鍵詞"dgs illustration style"）。

憑借著對(duì)底層基礎(chǔ)模型更為深度地改進(jìn)，Dreambooth 也被稱為“核彈級(jí)技術(shù)”。同 textual inversion 一樣，dreambooth 也可以訓(xùn)練主體、記住主體，比如輸入幾張自己的照片（家里的小狗），dreambooth 就會(huì)記住照片中的物體長(zhǎng)什么樣，然后就能把這個(gè)物體作為關(guān)鍵詞套用到任何場(chǎng)景和風(fēng)格中，“一鍵實(shí)現(xiàn)無(wú)限分鏡”。

Dreambooth技術(shù)最早來(lái)自google論文，此為論文中的案例，一只現(xiàn)實(shí)小狗無(wú)限藝術(shù)分鏡

同樣可以人也可以，比如給自己來(lái)張自拍，然后讓自己出現(xiàn)在藝術(shù)的大千世界中。

記住主體更大的意義是，可以對(duì)主體進(jìn)行“屬性修改”。比如當(dāng) AI 記住了輸入的“小汽車”后，便可以隨心所欲地對(duì)其顏色進(jìn)行更改，而其他特征保持一致。再回到二次元漫畫那個(gè)話題，這種精準(zhǔn)屬性控制技術(shù)也是其關(guān)鍵推動(dòng)技術(shù)之一。

正如《上線一個(gè)月成為準(zhǔn)獨(dú)角獸、上萬(wàn)人排隊(duì)注冊(cè)，AI Art是下一個(gè)NFT？》一文中寫到：

“2022 年，可稱為被 Diffusion 開(kāi)啟的 AI Art 元年。接下來(lái)的三至五年內(nèi)，AI Art 將會(huì)往更加自由的方向發(fā)展，比如展現(xiàn)出更強(qiáng)的耦合性，可被用戶定制的空間更大，也就是說(shuō)更貼近“主觀創(chuàng)作”的過(guò)程，藝術(shù)作品中也會(huì)分化和體現(xiàn)出越來(lái)越細(xì)致的用戶想法。Google 近期上線的 DreamBooth AI 已經(jīng)展現(xiàn)出了這一特點(diǎn)?！?/p>

除了上述對(duì)主體的訓(xùn)練，Dreambooth 最常被用來(lái)“記住”畫風(fēng)，即訓(xùn)練 style。上述博主（“地球土著座一億”）用了十張夏阿老師的畫，通過(guò) dreambooth “記住”了他的畫風(fēng)，效果對(duì)比如下。

（備注：夏阿是出生于揚(yáng)州，定居于南京的 80 后插畫師。因 2014 年經(jīng)常在網(wǎng)上發(fā)布“穿越”“混搭”“搞笑”類的國(guó)畫作品，深受網(wǎng)友喜愛(ài)而“走紅”。）

如下為夏阿的原作——

如下為 dreambooth 的訓(xùn)練效果出圖——

不論是輕量級(jí)的 Textual Inversion，還是重量級(jí)的 Dreambooth，抑或介于二者之間的如 Hypernetwork（超網(wǎng)絡(luò)模型）和 Aesthetic Gradient（審美梯度）等，包括更多的原生模型訓(xùn)練方式：模型融合、微調(diào)（Fine Tuning）等，都是現(xiàn)階段輸出更加可商業(yè)化新模型的利器。短短一個(gè)月時(shí)間便已經(jīng)涌現(xiàn)出了大量在概念驗(yàn)證階段的垂直模型，五彩繽紛。

社區(qū)基于 Textual Inversion 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區(qū)基于 Dreambooth 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

采用更多訓(xùn)練技術(shù)的模型大全站點(diǎn) Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

如果說(shuō) SD 為 AI 藝術(shù)打開(kāi)了第一扇窗戶，那么今天這些五光十色、極具創(chuàng)意的“大千”模型則為 AI 藝術(shù)打開(kāi)了第一扇大門。尤其在 Dreambooth 模型生態(tài)中，有能夠?qū)崿F(xiàn)迪士尼風(fēng)的模型、有當(dāng)下 MJ 生態(tài)最火的機(jī)甲風(fēng)模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

（四）交叉注意力實(shí)現(xiàn)畫面的精準(zhǔn)控制

開(kāi)放模型的出現(xiàn)給予了降維解決一切難題的方式，真正實(shí)現(xiàn)了“創(chuàng)造”二字。與此同時(shí)，也不能忽略一些輔助技術(shù)的發(fā)展，還是拿二次元漫畫為例，我們不免要對(duì)一些更細(xì)節(jié)的繪制表現(xiàn)進(jìn)行控制。如下，我們希望保留汽車和樹木背景，但改變?cè)谒厦娴摹爸魅斯保换蛘邔⒁环F(xiàn)實(shí)照片進(jìn)行漫畫風(fēng)格的變化，以做漫畫敘事背景設(shè)計(jì)。

開(kāi)源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制（Cross-Attention Control）技術(shù)，連 StabilityAI 創(chuàng)始人也不禁為這項(xiàng)技術(shù)點(diǎn)贊：“在類似技術(shù)幫助下，你可以去創(chuàng)造任何你夢(mèng)想的事物。”

該項(xiàng)目開(kāi)源連接——

GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt

在這個(gè)項(xiàng)目 demo 中，可以改變主人公“小貓”的坐騎，可以給背景畫一道彩虹，可以讓擁擠的路上變得空曠。在如下類似的研究項(xiàng)目中，還可以做到讓主人公豎大拇指、讓兩只鳥 kiss、讓一個(gè)香蕉變兩個(gè)。

不論是【Imagic】還是【Prompt-to-Prompt】，精準(zhǔn)控制技術(shù)對(duì)于實(shí)現(xiàn) AI 繪圖的自主可控十分重要，也是構(gòu)建二次元漫畫體系比較重要的技術(shù)動(dòng)向之一，目前尚處于行業(yè)研究前沿。

（五）精準(zhǔn)控制系列之 Inpainting 和 Outpainting

說(shuō)到了精準(zhǔn)控制，它不是某一項(xiàng)技術(shù)，交叉注意力是其一，還有很多輔助性手段為其服務(wù)，最為流行和商業(yè)成熟的是 inpainting 和 outpainting 技術(shù)。這是傳統(tǒng)設(shè)計(jì)領(lǐng)域的概念，AI 藝術(shù)也繼承了過(guò)來(lái)。當(dāng)前 SD 也推出了 inpainting 功能，可翻譯為“涂抹”，即對(duì)于畫面中不滿意的部分進(jìn)行“涂抹”，然后 AI 會(huì)在涂抹區(qū)重新生成想要替換的內(nèi)容，具體見(jiàn)下圖操作。

開(kāi)源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

同樣以二次元漫畫這個(gè)終極追求為例，當(dāng)需要給女主人公增加一位帥氣的男士時(shí)，便可以在她旁邊區(qū)域進(jìn)行涂抹，然后附上一段霸道總裁的關(guān)鍵詞 prompt，AI 便會(huì)給女主一段“姻緣”。

另外一項(xiàng)技術(shù) outpainting，被譽(yù)為“無(wú)限畫布”，最早出現(xiàn)在 Dalle2 的商業(yè)產(chǎn)品體系中，當(dāng)時(shí)也是震驚世人。簡(jiǎn)單來(lái)講，將一張需要擴(kuò)展的圖上傳給 AI，outpainting 便會(huì)在這張圖的四周擴(kuò)展出“無(wú)限的”畫布，至于填充什么內(nèi)容，也完全交給用戶自己輸入的 prompt 決定，無(wú)限畫布，無(wú)限想象空間。如下利用 outpainting 為一幅經(jīng)典名畫填充了大量背景，產(chǎn)生了令人驚喜的效果。如今 SD 生態(tài)也擁有了自己的 outpainting 技術(shù)，開(kāi)源地址——

Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

在 outpainting 的加持下，不僅可以為一幅單調(diào)的圖加無(wú)限的背景，更可以極大拓展 AI 藝術(shù)出圖的尺寸，在 SD 生態(tài)一般出圖為幾百像素，遠(yuǎn)遠(yuǎn)不能滿足大尺寸海報(bào)的需求，而 outpainting 技術(shù)便可以極大擴(kuò)展 AI 藝術(shù)原生出圖的尺寸。同樣對(duì)于二次元漫畫，甚至可以在一幅圖中展現(xiàn)所有“參演人員”的形色百態(tài)。

（六）其他更多技術(shù)概念

除了上述重要技術(shù)外，還有很多細(xì)分技術(shù)被社區(qū)津津樂(lè)道。

可以利用 Deforum 做 SD 動(dòng)畫

SD動(dòng)畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個(gè)完整制作 AI 動(dòng)畫的工作流——

其中提到了多種技術(shù)，如利用 inpainting 修改細(xì)節(jié)，用 outpainting 向外擴(kuò)展，用 dreambooth 做動(dòng)畫主角，用 Deforum 不斷生成改變、用 coherence 進(jìn)行連續(xù)性控制、用 flowframe 補(bǔ)幀等等。更做二次元漫畫一樣，也是一項(xiàng)系統(tǒng)性工程。

prompt 逆向反推

整個(gè) AI 藝術(shù)最關(guān)鍵的是 prompt，尤其對(duì)于新人用戶，能否獲得好的 prompt 是其能否獲得優(yōu)質(zhì)出圖的關(guān)鍵所在，因此很多產(chǎn)品化的 AI 工具都會(huì)在用戶輸入 prompt 這方面進(jìn)行改進(jìn)。除了大量可以獲取關(guān)鍵詞的搜索引擎網(wǎng)站外，逆向反推成為了一項(xiàng)重要輔助手段。所謂逆向反推，即給出一張圖片，可以是真實(shí)世界的，也可以來(lái)自 AI 生成，逆向反推技術(shù)便可以輸出能夠繪制該畫面的 prompt。雖然在實(shí)際效果中，無(wú)法反推出生成效果一模一樣的 prompt，但這給予了很多新人用戶獲取帶有復(fù)雜藝術(shù)修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關(guān)鍵詞，其開(kāi)源地址——

GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具，使用連接如下——

CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

類似的還有 methexis-inc 發(fā)布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

除了直接以圖片進(jìn)行反推外，還有一種工具如 Prompt Extend，可以一鍵加長(zhǎng) Prompt，可以將一個(gè)小白用戶輸入的“太陽(yáng)”一鍵加長(zhǎng)到帶有豐富藝術(shù)修飾的“大神級(jí)”描述，工具地址——

Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說(shuō)到 prompt，不得不說(shuō)被譽(yù)為寶庫(kù)的各大搜索引擎網(wǎng)站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開(kāi)源地址github.com/krea-ai/open-prompts

Just a moment...lexica.art/

在搜索引擎中搜索自己想要的畫面，便會(huì)呈現(xiàn)符合主題的配圖及其對(duì)應(yīng)的 prompt。還有不直接給 prompt 搜索，而是引導(dǎo)用戶一步步構(gòu)建 prompt 的提示性工具——

Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

如上圖，可根據(jù)網(wǎng)站提示，一步步構(gòu)建出一幅“美麗的面孔”。在這些工具的加持下，即便從未接觸過(guò) AI 藝術(shù)的用戶，在短短幾天內(nèi)也能逐漸摸清構(gòu)建 prompt 的精髓。

（七）除了作圖，更多 AI 藝術(shù)領(lǐng)域

AI 藝術(shù)從 AI 作圖開(kāi)始，也稱之為 text-to-image，但時(shí)至今日，藝術(shù)并不局限于圖片，AI 藝術(shù)也不局限于 AI 作圖，更多的 text-to-X 開(kāi)始預(yù)示著未來(lái) AI 藝術(shù)的新形態(tài)。最為知名的有：

text-to-3D

即文本生成 3D 模型，同樣在 SD 生態(tài)也有類似項(xiàng)目，地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來(lái)源：量子位《Text-to-3D！建筑學(xué)小哥自稱編程菜鳥，攢了個(gè)AI作畫三維版，還是彩色的》

在給 AI 輸入“一幅美麗的花樹畫，作者 Chiho Aoshima，長(zhǎng)鏡頭，超現(xiàn)實(shí)主義”，就能瞬間得到一個(gè)長(zhǎng)這樣的花樹視頻，時(shí)長(zhǎng) 13 秒。這個(gè) text-to-3D 項(xiàng)目叫 dreamfields3D，現(xiàn)已開(kāi)源——

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外，還有個(gè)項(xiàng)目叫 DreamFusion，地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有著較好的 3D 效果，也被 SD 生態(tài)嫁接到了 SD 實(shí)現(xiàn)中，開(kāi)源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型；英偉達(dá)開(kāi)源 3D 模型生成工具，GET3D——

GET3D開(kāi)源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

文本生成視頻對(duì)技術(shù)要求極大，目前只有 google 和 meta 在爭(zhēng)相發(fā)布體驗(yàn)性質(zhì)的產(chǎn)品，知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內(nèi)生成一個(gè) 128*128 8fps 的長(zhǎng)達(dá) 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻，可達(dá) 1280*768 24fps。

text-to-Music

文本生成音樂(lè)，如項(xiàng)目 Dance Diffusion，試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過(guò)文本描述生成“在風(fēng)聲中吹口哨”、“警報(bào)器和嗡嗡作響的引擎接近后走遠(yuǎn)”等特殊聲音效果。

寫在最后

技術(shù)，永無(wú)止境，則 AI 藝術(shù)，永無(wú)止境。最后，以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結(jié)束——

“我們要建立一個(gè)充滿活力、活躍、智能內(nèi)容規(guī)則的世界，一個(gè)充滿活力、你可以與之互動(dòng)的數(shù)字世界，共同創(chuàng)造的內(nèi)容，那是你的。加入到這股大潮吧，你將不再只是在未來(lái)的網(wǎng)絡(luò)上沖浪、被動(dòng)地消費(fèi)內(nèi)容。你將創(chuàng)造它！“

文｜巴比特資訊

未來(lái)：技術(shù)為王

（一）二次元模型開(kāi)辟可商用垂直模型先河

以 NovelAI Diffusion 為例

（注：以上相關(guān)內(nèi)容引用自微博大 V：夜露·茍·布魯圖斯）

像 NovelAI 這類的二次元模型對(duì)于用戶輸入的描述詞的專業(yè)程度要求較高，如下所示：

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),

（二）AI 畫二次元漫畫逐漸可行

直譯為：

圖片來(lái)源：wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了？！》

最后再配上文字、漫畫格式框，稍微經(jīng)過(guò) PS 整合，便能出來(lái)一幅像模像樣的漫畫了。

圖片來(lái)源：wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了？！》

（三）開(kāi)放模型訓(xùn)練催生“萬(wàn)物皆可垂直”

在具體操作上，正如“Simon 的白日夢(mèng)”所說(shuō)：

embedding即為Textual Inversion

—— Simon 的白日夢(mèng)

黏菌衛(wèi)星圖模型兩種訓(xùn)練效果對(duì)比，dreambooth更勝一籌

Cyberpunk Anime Diffusion開(kāi)源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

Dreambooth技術(shù)最早來(lái)自google論文，此為論文中的案例，一只現(xiàn)實(shí)小狗無(wú)限藝術(shù)分鏡

同樣可以人也可以，比如給自己來(lái)張自拍，然后讓自己出現(xiàn)在藝術(shù)的大千世界中。

正如《上線一個(gè)月成為準(zhǔn)獨(dú)角獸、上萬(wàn)人排隊(duì)注冊(cè)，AI Art是下一個(gè)NFT？》一文中寫到：

如下為夏阿的原作——

如下為 dreambooth 的訓(xùn)練效果出圖——

社區(qū)基于 Textual Inversion 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區(qū)基于 Dreambooth 訓(xùn)練的模型大全開(kāi)源庫(kù)——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

采用更多訓(xùn)練技術(shù)的模型大全站點(diǎn) Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

（四）交叉注意力實(shí)現(xiàn)畫面的精準(zhǔn)控制

開(kāi)源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制（Cross-Attention Control）技術(shù)，連 StabilityAI 創(chuàng)始人也不禁為這項(xiàng)技術(shù)點(diǎn)贊：“在類似技術(shù)幫助下，你可以去創(chuàng)造任何你夢(mèng)想的事物?！?/p>

該項(xiàng)目開(kāi)源連接——

GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt

（五）精準(zhǔn)控制系列之 Inpainting 和 Outpainting

開(kāi)源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

（六）其他更多技術(shù)概念

除了上述重要技術(shù)外，還有很多細(xì)分技術(shù)被社區(qū)津津樂(lè)道。

可以利用 Deforum 做 SD 動(dòng)畫

SD動(dòng)畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個(gè)完整制作 AI 動(dòng)畫的工作流——

prompt 逆向反推

GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具，使用連接如下——

CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

類似的還有 methexis-inc 發(fā)布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說(shuō)到 prompt，不得不說(shuō)被譽(yù)為寶庫(kù)的各大搜索引擎網(wǎng)站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開(kāi)源地址github.com/krea-ai/open-prompts

Just a moment...lexica.art/

Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

（七）除了作圖，更多 AI 藝術(shù)領(lǐng)域

text-to-3D

即文本生成 3D 模型，同樣在 SD 生態(tài)也有類似項(xiàng)目，地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來(lái)源：量子位《Text-to-3D！建筑學(xué)小哥自稱編程菜鳥，攢了個(gè)AI作畫三維版，還是彩色的》

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外，還有個(gè)項(xiàng)目叫 DreamFusion，地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有著較好的 3D 效果，也被 SD 生態(tài)嫁接到了 SD 實(shí)現(xiàn)中，開(kāi)源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型；英偉達(dá)開(kāi)源 3D 模型生成工具，GET3D——

GET3D開(kāi)源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

text-to-Music

文本生成音樂(lè)，如項(xiàng)目 Dance Diffusion，試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過(guò)文本描述生成“在風(fēng)聲中吹口哨”、“警報(bào)器和嗡嗡作響的引擎接近后走遠(yuǎn)”等特殊聲音效果。

寫在最后

技術(shù)，永無(wú)止境，則 AI 藝術(shù)，永無(wú)止境。最后，以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結(jié)束——

歷史搜索全部刪除

熱門搜索

萬(wàn)字長(zhǎng)文講透AI藝術(shù)：緣起、意義和未來(lái)（下篇）

未來(lái)：技術(shù)為王

寫在最后

環(huán)旭電子

評(píng)論

萬(wàn)字長(zhǎng)文講透AI藝術(shù)：緣起、意義和未來(lái)（下篇）

未來(lái)：技術(shù)為王

寫在最后

萬(wàn)字長(zhǎng)文講透AI藝術(shù)：緣起、意義和未來(lái)（下篇）

未來(lái)：技術(shù)為王

寫在最后

環(huán)旭電子

評(píng)論

萬(wàn)字長(zhǎng)文講透AI藝術(shù)：緣起、意義和未來(lái)（下篇）

未來(lái)：技術(shù)為王

寫在最后

萬(wàn)字長(zhǎng)文講透AI藝術(shù)：緣起、意義和未來(lái)（下篇）