正在閱讀:

AI作畫爆火背后,一半海水一半火焰

掃一掃下載界面新聞APP

AI作畫爆火背后,一半海水一半火焰

AI作畫比賽贏了人類,但現(xiàn)在還無法取代人類。

文|洞見新研社 辰紋

“未來十年,AIGC(人工智能自主生產(chǎn)內(nèi)容)將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式??梢詫崿F(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。”

李彥宏7月在百度世界大會上的發(fā)言話音未落,AI作畫的風(fēng)潮如同一場旋風(fēng),席卷了互聯(lián)網(wǎng)的每個角落,不光引發(fā)了社會各界的廣泛討論,而且開始從專業(yè)領(lǐng)域走進(jìn)普通人的生活。

曾敗于AI的天才棋手柯潔、知名畫師烏合麒麟等都曾參與過相關(guān)討論,閑魚上甚至出現(xiàn)售賣AI繪畫作品的帖子,“1分鐘內(nèi)出圖”,“5元4張”,主打一個低價高速。

而隨著像百度、華為這樣的科技巨頭以及資本的入場,更是將AI繪畫的熱度抬高了一個等級。

百度和華為分別推出了各自的AI繪畫平臺“文心一格”與ModelArts。

生成式AI平臺“TIAMAT”則在10月12日宣布完成由知名風(fēng)投機(jī)構(gòu)DCM投資的數(shù)百萬美元天使輪融資。

在此之前,Stability AI獲得了1.01億美元種子輪融資,正式晉升獨角獸行列;幾乎同一時間,另一家人工智能獨角獸公司Jasper也宣布獲得了1.25億美元的新融資。

AI作畫爆火,展示了AIGC技術(shù)的突破進(jìn)展,當(dāng)然有值得高興的地方,可技術(shù)的進(jìn)步與落地如何產(chǎn)生價值,進(jìn)而引導(dǎo)相關(guān)行業(yè)完成生產(chǎn)力與生產(chǎn)關(guān)系的重建,卻仍有諸多疑問待解。

01 為什么是AI作畫?

AI作畫并不是什么新鮮事物,早在2012年就已經(jīng)有所發(fā)展,只是AI繪畫的早期作品看起來還很粗糙,直到今年年初時,AI繪畫還只停留在“能看”的階段。

其實對比一下現(xiàn)階段的AI寫作、AI作曲、AI配音、AI唱歌等技術(shù),可以發(fā)現(xiàn)這些活A(yù)I都能做,但與人類相比,存在明顯的差距,當(dāng)時的AI繪畫大致也是這樣的水平。

大眾對AI繪畫觀感的轉(zhuǎn)變發(fā)生在今年8月,美國游戲設(shè)計師Jason Allen用一張AI繪畫作品《太空歌劇院》,拿下了美國科羅拉多州博覽會美術(shù)競賽一等獎。

大賽評委對這副AI作品的評語是:即使它是AI生成的作品,也依舊配得上這樣的成績。

雖然這副作品在AI生成之后,設(shè)計師還進(jìn)行了上千次的修改,花費了近80個小時才完成,但并不妨礙公眾對AI能力的重新認(rèn)識:原來AI繪畫已經(jīng)可以超越人類了!

《太空歌劇院》能獲得專業(yè)評委認(rèn)可并獲獎,背后支撐技術(shù)的突破功不可沒。

在今年年初時,AI繪圖軟件Disco Diffuion解決了效率問題,可以在很短的時間內(nèi)批量生產(chǎn)繪畫作品;

后續(xù)幾個月,經(jīng)過DALL·E 2與MidJourney等AI繪畫平臺的相繼測試,AI已經(jīng)可以生成符合大眾審美要求的人物形象;

到了7月份,Disco Diffuion成功解決了細(xì)節(jié)與效率的問題,AI繪畫的精度提升到藝術(shù)品級別,生產(chǎn)效率提升到秒級,創(chuàng)造所需的門檻也大大降低,普通電腦甚至手機(jī)也能適用。

AI繪畫最終引爆的導(dǎo)火索當(dāng)屬Disco Diffuion的開源,此次開源開放的不僅僅是程序,還有訓(xùn)練好的模型,這大大降低了AI繪畫創(chuàng)業(yè)的難度,同時也對技術(shù)的普及起到了極大的推動作用。

在技術(shù)之外,C端用戶的瘋狂追捧,也成為AI繪畫爆火的重要因素。

相比其他AIGC創(chuàng)造,AI繪畫的門檻更低,參與度更高。

最開始時,MidJourney、Disco diffusion、Stable Diffusion等AI繪圖平臺生產(chǎn)了大量AI繪畫作品,這些作品在推特、Facebook等社交媒體平臺發(fā)布后,引發(fā)大量用戶圍觀,特別是當(dāng)用戶輸入幾個關(guān)鍵詞,就能在十幾秒內(nèi)生成一幅高質(zhì)量的繪畫作品,極大刺激了用戶的參與熱情。

在中國,是由搖滾樂隊萬能青年旅店的MV作品《殺死那個石家莊人》在B站率先引爆的,這個MV的每個畫面都取自歌曲的歌詞,由Midjourney平臺生成。

在此之后,《七里香》《孤勇者》《加州旅館》《波西米亞狂想曲》等熱門歌曲都被UP主們用AI繪畫的作品作為MV的素材重新創(chuàng)作了一次。

對此,有專業(yè)人士評述,對于用戶而言,AI作畫讓原來沒有繪畫基礎(chǔ)的人,能夠享受到創(chuàng)作帶來的愉悅,對于一些專業(yè)畫師,則是一個很好的工具,能夠更有效率的完成作品。

B站上有個熱評,在一定程度上反應(yīng)了C端用戶喜歡AI繪畫的原因:一是出概念、找靈感,二是當(dāng)成P圖素材與手工結(jié)合。

02 一座待挖的金礦

那么問題來了,AI繪畫能賺錢嗎?又該怎樣賺錢呢?

AI繪畫平臺們面對洶涌而至的C端需求,利用社交平臺的引流,推出類似于付費服務(wù)或者“會員制”的收費模式。

由于目前面向C端的AI繪畫平臺大多為輕量級的工具應(yīng)用,能夠展現(xiàn)出來的玩法和內(nèi)容場景都比較有限,同時C端用戶進(jìn)入AI繪畫平臺,大多出于好奇嘗鮮的目的,當(dāng)新鮮感過去之后,如果不是專業(yè)人員,很難再刺激用戶進(jìn)行二次消費,因而當(dāng)前這種純粹To C的商業(yè)模式的根基并不穩(wěn)固。

但若圍繞AI繪畫在C端用戶中的社交屬性,以及AIGC本身所包含的內(nèi)容社區(qū)屬性去挖掘,則仍有一個非常大的成長空間等待開拓,利用微信小程序,創(chuàng)造了日增5萬用戶的紀(jì)錄的AI繪畫平臺“盜夢師”團(tuán)隊也認(rèn)為這是一個機(jī)會,但“難度很大”。

 
事實上,AI繪畫平臺將更多的目光瞄向了B端市場。

五大時尚刊物之一《時尚芭莎》在36周年紀(jì)念刊特地邀約了幾位AI畫手,借助AI繪畫工具完成了一幅東方美學(xué)與超現(xiàn)實主義相結(jié)合的畫作,這可視為AI繪畫在B端應(yīng)用的一個典型。

而在醫(yī)療、工業(yè)設(shè)計、動漫設(shè)計、游戲制作、服裝設(shè)計等領(lǐng)域中,AI繪畫可以施展的空間就更大了。

比如,有一種心理咨詢療法叫繪畫藝術(shù)療法,有的病人很難用語言表達(dá)自己的心理狀態(tài),咨詢師就會請他們繪畫,從畫中看出他們的心理狀態(tài)。

但不是每個病人都會畫畫,如果在其中應(yīng)用到AI繪畫的能力,病人表述畫作的構(gòu)思與關(guān)鍵詞,AI生成畫面后經(jīng)病人確認(rèn),或可為心理咨詢療法提供更多的支持。

比如,網(wǎng)絡(luò)小說與漫畫的聯(lián)創(chuàng),通常情況下,小說的寫作速度會高于漫畫的繪制速度,但有了AI繪畫后,可以大膽想象直接將小說的內(nèi)容生成漫畫圖片,此時不光提高內(nèi)容生產(chǎn)速度,更是整個內(nèi)容生態(tài)的重構(gòu)。

再比如,在元宇宙的世界中,從元宇宙場景的創(chuàng)建,到個人自我角色在元宇宙中的內(nèi)容創(chuàng)作,AI繪畫乃至AIGC都是不可或缺的一項能力,很多專業(yè)人士認(rèn)為,AI繪畫乃至AIGC與元宇宙的結(jié)合是必然趨勢。

其實AI繪畫能夠落地哪些場景,行業(yè)都有共識,在技術(shù)之外,AI繪畫平臺之間競爭的焦點則在于成本。

針對B端市場,面向一個特定行業(yè)時,AI繪畫要對相關(guān)模型進(jìn)行大量的專業(yè)訓(xùn)練,其中需要花費高額模型訓(xùn)練成本,當(dāng)營收無法覆蓋研發(fā)支出時,其商業(yè)模式也就無法成立了。

特別是當(dāng)AI繪畫或?qū)⑷〈鷮I(yè)畫師時,企業(yè)需要考慮的因素就更多了,兩者之間的成本差是一方面,更重要的是,企業(yè)會要求AI不但要便宜,還要比人類畫的更好,才會有動力和足夠的理由推動變革的進(jìn)行。

03 什么是中國式AI作畫該有的樣子?

回到中國市場,在行業(yè)內(nèi)普遍由DALL-E 2和Stable Diffusion等國外模型唱主角的背景下,如何讓AI繪畫更好的表達(dá)中國元素成為一個不容忽視的問題。

為什么要這么說,我們先來看看一副AI繪畫作品是如何產(chǎn)生的。

在盜夢師小程序中輸入文本:

沐浴在晨光里;山頂上有中國式建筑;壯麗的、奇妙的;約翰·豪;山水;湖泊;云;早晨;農(nóng)田;王凌;神話;光效;夢;格雷格·魯特科夫斯基,虛擬引擎;詹姆斯·格尼;ArtStation

幾秒之后就能生成以下一副作品。

很明顯,模型對中文語義與中國文化的理解非常重要,特別是在實際落地階段,模型如果不能理解具有中國特色的行業(yè)特點,那么AI繪畫出的產(chǎn)品將很難適用行業(yè)及場景的需求。

對此,盜夢師雖然用的是Stable Diffusion模型,但對該模型進(jìn)行了中國本土化的改造,用自己寫的follow instruction的方式對模型進(jìn)行訓(xùn)練,并且加入了大量本地化數(shù)據(jù)。

TIAMAT也認(rèn)為,AI模型的訓(xùn)練過程其實和小學(xué)生練習(xí)寫作的過程非常相似,不斷吸收優(yōu)秀作品的寫作風(fēng)格、修辭手法,才能最終創(chuàng)作出一篇高分作品,其中采用中國元素的數(shù)據(jù)資源進(jìn)行訓(xùn)練是極為關(guān)鍵的一環(huán)。

百度發(fā)布的AI繪畫平臺文心ERNIE-ViLG 2.0中,則采用了知識增強(qiáng)算法的混合降噪專家建模。

為了能夠準(zhǔn)確理解用戶在使用AI繪畫應(yīng)用時輸入文字的語義,特別是一些復(fù)雜描述,ERNIE-ViLG 2.0通過視覺、語言等多源知識指引擴(kuò)散模型學(xué)習(xí),強(qiáng)化文圖生成擴(kuò)散模型對于語義的精確理解。

為了增強(qiáng)AI繪畫生成作品的精細(xì)度,ERNIE-ViLG 2.0又引入了基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡(luò),從而實現(xiàn)更加細(xì)致的降噪任務(wù)建模,進(jìn)而提升生成圖像的質(zhì)量。

眾所周知,要想提高AI作畫的能力,特別是對中文語義和中國文化的理解,就必須有大量的中文圖文數(shù)據(jù)對模型進(jìn)行訓(xùn)練,這是一個極其繁瑣與耗費時間與金錢的過程,如果沒有足夠多的市場需求,一般的AI繪畫平臺不會投入太多資源。

百度不同,它在搜索、AI以及深度學(xué)習(xí)框架等業(yè)務(wù)的研發(fā)中已經(jīng)積累了海量的中文圖文數(shù)據(jù)資源,這些資源可以隨時調(diào)用,同時也成為ERNIE-ViLG 2.0的核心競爭力,相比其他模型,ERNIE-ViLG 2.0在表達(dá)具有中國風(fēng)意境的畫作中表現(xiàn)更為突出。

在某種程度上來說,AI作畫的技術(shù)突破雖然是由美國帶動的,但中國的跟進(jìn)速度并不慢,演化到現(xiàn)在,AI繪畫并不是簡簡單單的市場開拓方面的商業(yè)競爭,更是關(guān)乎到自主掌控AI關(guān)鍵技術(shù)的競爭,而其中取勝的關(guān)鍵是技術(shù)研發(fā)過程中尋找市場的內(nèi)生需求,通過因地制宜的本土化適配,做好細(xì)分市場和細(xì)分場景的落地。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI作畫爆火背后,一半海水一半火焰

AI作畫比賽贏了人類,但現(xiàn)在還無法取代人類。

文|洞見新研社 辰紋

“未來十年,AIGC(人工智能自主生產(chǎn)內(nèi)容)將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式??梢詫崿F(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。”

李彥宏7月在百度世界大會上的發(fā)言話音未落,AI作畫的風(fēng)潮如同一場旋風(fēng),席卷了互聯(lián)網(wǎng)的每個角落,不光引發(fā)了社會各界的廣泛討論,而且開始從專業(yè)領(lǐng)域走進(jìn)普通人的生活。

曾敗于AI的天才棋手柯潔、知名畫師烏合麒麟等都曾參與過相關(guān)討論,閑魚上甚至出現(xiàn)售賣AI繪畫作品的帖子,“1分鐘內(nèi)出圖”,“5元4張”,主打一個低價高速。

而隨著像百度、華為這樣的科技巨頭以及資本的入場,更是將AI繪畫的熱度抬高了一個等級。

百度和華為分別推出了各自的AI繪畫平臺“文心一格”與ModelArts。

生成式AI平臺“TIAMAT”則在10月12日宣布完成由知名風(fēng)投機(jī)構(gòu)DCM投資的數(shù)百萬美元天使輪融資。

在此之前,Stability AI獲得了1.01億美元種子輪融資,正式晉升獨角獸行列;幾乎同一時間,另一家人工智能獨角獸公司Jasper也宣布獲得了1.25億美元的新融資。

AI作畫爆火,展示了AIGC技術(shù)的突破進(jìn)展,當(dāng)然有值得高興的地方,可技術(shù)的進(jìn)步與落地如何產(chǎn)生價值,進(jìn)而引導(dǎo)相關(guān)行業(yè)完成生產(chǎn)力與生產(chǎn)關(guān)系的重建,卻仍有諸多疑問待解。

01 為什么是AI作畫?

AI作畫并不是什么新鮮事物,早在2012年就已經(jīng)有所發(fā)展,只是AI繪畫的早期作品看起來還很粗糙,直到今年年初時,AI繪畫還只停留在“能看”的階段。

其實對比一下現(xiàn)階段的AI寫作、AI作曲、AI配音、AI唱歌等技術(shù),可以發(fā)現(xiàn)這些活A(yù)I都能做,但與人類相比,存在明顯的差距,當(dāng)時的AI繪畫大致也是這樣的水平。

大眾對AI繪畫觀感的轉(zhuǎn)變發(fā)生在今年8月,美國游戲設(shè)計師Jason Allen用一張AI繪畫作品《太空歌劇院》,拿下了美國科羅拉多州博覽會美術(shù)競賽一等獎。

大賽評委對這副AI作品的評語是:即使它是AI生成的作品,也依舊配得上這樣的成績。

雖然這副作品在AI生成之后,設(shè)計師還進(jìn)行了上千次的修改,花費了近80個小時才完成,但并不妨礙公眾對AI能力的重新認(rèn)識:原來AI繪畫已經(jīng)可以超越人類了!

《太空歌劇院》能獲得專業(yè)評委認(rèn)可并獲獎,背后支撐技術(shù)的突破功不可沒。

在今年年初時,AI繪圖軟件Disco Diffuion解決了效率問題,可以在很短的時間內(nèi)批量生產(chǎn)繪畫作品;

后續(xù)幾個月,經(jīng)過DALL·E 2與MidJourney等AI繪畫平臺的相繼測試,AI已經(jīng)可以生成符合大眾審美要求的人物形象;

到了7月份,Disco Diffuion成功解決了細(xì)節(jié)與效率的問題,AI繪畫的精度提升到藝術(shù)品級別,生產(chǎn)效率提升到秒級,創(chuàng)造所需的門檻也大大降低,普通電腦甚至手機(jī)也能適用。

AI繪畫最終引爆的導(dǎo)火索當(dāng)屬Disco Diffuion的開源,此次開源開放的不僅僅是程序,還有訓(xùn)練好的模型,這大大降低了AI繪畫創(chuàng)業(yè)的難度,同時也對技術(shù)的普及起到了極大的推動作用。

在技術(shù)之外,C端用戶的瘋狂追捧,也成為AI繪畫爆火的重要因素。

相比其他AIGC創(chuàng)造,AI繪畫的門檻更低,參與度更高。

最開始時,MidJourney、Disco diffusion、Stable Diffusion等AI繪圖平臺生產(chǎn)了大量AI繪畫作品,這些作品在推特、Facebook等社交媒體平臺發(fā)布后,引發(fā)大量用戶圍觀,特別是當(dāng)用戶輸入幾個關(guān)鍵詞,就能在十幾秒內(nèi)生成一幅高質(zhì)量的繪畫作品,極大刺激了用戶的參與熱情。

在中國,是由搖滾樂隊萬能青年旅店的MV作品《殺死那個石家莊人》在B站率先引爆的,這個MV的每個畫面都取自歌曲的歌詞,由Midjourney平臺生成。

在此之后,《七里香》《孤勇者》《加州旅館》《波西米亞狂想曲》等熱門歌曲都被UP主們用AI繪畫的作品作為MV的素材重新創(chuàng)作了一次。

對此,有專業(yè)人士評述,對于用戶而言,AI作畫讓原來沒有繪畫基礎(chǔ)的人,能夠享受到創(chuàng)作帶來的愉悅,對于一些專業(yè)畫師,則是一個很好的工具,能夠更有效率的完成作品。

B站上有個熱評,在一定程度上反應(yīng)了C端用戶喜歡AI繪畫的原因:一是出概念、找靈感,二是當(dāng)成P圖素材與手工結(jié)合。

02 一座待挖的金礦

那么問題來了,AI繪畫能賺錢嗎?又該怎樣賺錢呢?

AI繪畫平臺們面對洶涌而至的C端需求,利用社交平臺的引流,推出類似于付費服務(wù)或者“會員制”的收費模式。

由于目前面向C端的AI繪畫平臺大多為輕量級的工具應(yīng)用,能夠展現(xiàn)出來的玩法和內(nèi)容場景都比較有限,同時C端用戶進(jìn)入AI繪畫平臺,大多出于好奇嘗鮮的目的,當(dāng)新鮮感過去之后,如果不是專業(yè)人員,很難再刺激用戶進(jìn)行二次消費,因而當(dāng)前這種純粹To C的商業(yè)模式的根基并不穩(wěn)固。

但若圍繞AI繪畫在C端用戶中的社交屬性,以及AIGC本身所包含的內(nèi)容社區(qū)屬性去挖掘,則仍有一個非常大的成長空間等待開拓,利用微信小程序,創(chuàng)造了日增5萬用戶的紀(jì)錄的AI繪畫平臺“盜夢師”團(tuán)隊也認(rèn)為這是一個機(jī)會,但“難度很大”。

 
事實上,AI繪畫平臺將更多的目光瞄向了B端市場。

五大時尚刊物之一《時尚芭莎》在36周年紀(jì)念刊特地邀約了幾位AI畫手,借助AI繪畫工具完成了一幅東方美學(xué)與超現(xiàn)實主義相結(jié)合的畫作,這可視為AI繪畫在B端應(yīng)用的一個典型。

而在醫(yī)療、工業(yè)設(shè)計、動漫設(shè)計、游戲制作、服裝設(shè)計等領(lǐng)域中,AI繪畫可以施展的空間就更大了。

比如,有一種心理咨詢療法叫繪畫藝術(shù)療法,有的病人很難用語言表達(dá)自己的心理狀態(tài),咨詢師就會請他們繪畫,從畫中看出他們的心理狀態(tài)。

但不是每個病人都會畫畫,如果在其中應(yīng)用到AI繪畫的能力,病人表述畫作的構(gòu)思與關(guān)鍵詞,AI生成畫面后經(jīng)病人確認(rèn),或可為心理咨詢療法提供更多的支持。

比如,網(wǎng)絡(luò)小說與漫畫的聯(lián)創(chuàng),通常情況下,小說的寫作速度會高于漫畫的繪制速度,但有了AI繪畫后,可以大膽想象直接將小說的內(nèi)容生成漫畫圖片,此時不光提高內(nèi)容生產(chǎn)速度,更是整個內(nèi)容生態(tài)的重構(gòu)。

再比如,在元宇宙的世界中,從元宇宙場景的創(chuàng)建,到個人自我角色在元宇宙中的內(nèi)容創(chuàng)作,AI繪畫乃至AIGC都是不可或缺的一項能力,很多專業(yè)人士認(rèn)為,AI繪畫乃至AIGC與元宇宙的結(jié)合是必然趨勢。

其實AI繪畫能夠落地哪些場景,行業(yè)都有共識,在技術(shù)之外,AI繪畫平臺之間競爭的焦點則在于成本。

針對B端市場,面向一個特定行業(yè)時,AI繪畫要對相關(guān)模型進(jìn)行大量的專業(yè)訓(xùn)練,其中需要花費高額模型訓(xùn)練成本,當(dāng)營收無法覆蓋研發(fā)支出時,其商業(yè)模式也就無法成立了。

特別是當(dāng)AI繪畫或?qū)⑷〈鷮I(yè)畫師時,企業(yè)需要考慮的因素就更多了,兩者之間的成本差是一方面,更重要的是,企業(yè)會要求AI不但要便宜,還要比人類畫的更好,才會有動力和足夠的理由推動變革的進(jìn)行。

03 什么是中國式AI作畫該有的樣子?

回到中國市場,在行業(yè)內(nèi)普遍由DALL-E 2和Stable Diffusion等國外模型唱主角的背景下,如何讓AI繪畫更好的表達(dá)中國元素成為一個不容忽視的問題。

為什么要這么說,我們先來看看一副AI繪畫作品是如何產(chǎn)生的。

在盜夢師小程序中輸入文本:

沐浴在晨光里;山頂上有中國式建筑;壯麗的、奇妙的;約翰·豪;山水;湖泊;云;早晨;農(nóng)田;王凌;神話;光效;夢;格雷格·魯特科夫斯基,虛擬引擎;詹姆斯·格尼;ArtStation

幾秒之后就能生成以下一副作品。

很明顯,模型對中文語義與中國文化的理解非常重要,特別是在實際落地階段,模型如果不能理解具有中國特色的行業(yè)特點,那么AI繪畫出的產(chǎn)品將很難適用行業(yè)及場景的需求。

對此,盜夢師雖然用的是Stable Diffusion模型,但對該模型進(jìn)行了中國本土化的改造,用自己寫的follow instruction的方式對模型進(jìn)行訓(xùn)練,并且加入了大量本地化數(shù)據(jù)。

TIAMAT也認(rèn)為,AI模型的訓(xùn)練過程其實和小學(xué)生練習(xí)寫作的過程非常相似,不斷吸收優(yōu)秀作品的寫作風(fēng)格、修辭手法,才能最終創(chuàng)作出一篇高分作品,其中采用中國元素的數(shù)據(jù)資源進(jìn)行訓(xùn)練是極為關(guān)鍵的一環(huán)。

百度發(fā)布的AI繪畫平臺文心ERNIE-ViLG 2.0中,則采用了知識增強(qiáng)算法的混合降噪專家建模。

為了能夠準(zhǔn)確理解用戶在使用AI繪畫應(yīng)用時輸入文字的語義,特別是一些復(fù)雜描述,ERNIE-ViLG 2.0通過視覺、語言等多源知識指引擴(kuò)散模型學(xué)習(xí),強(qiáng)化文圖生成擴(kuò)散模型對于語義的精確理解。

為了增強(qiáng)AI繪畫生成作品的精細(xì)度,ERNIE-ViLG 2.0又引入了基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡(luò),從而實現(xiàn)更加細(xì)致的降噪任務(wù)建模,進(jìn)而提升生成圖像的質(zhì)量。

眾所周知,要想提高AI作畫的能力,特別是對中文語義和中國文化的理解,就必須有大量的中文圖文數(shù)據(jù)對模型進(jìn)行訓(xùn)練,這是一個極其繁瑣與耗費時間與金錢的過程,如果沒有足夠多的市場需求,一般的AI繪畫平臺不會投入太多資源。

百度不同,它在搜索、AI以及深度學(xué)習(xí)框架等業(yè)務(wù)的研發(fā)中已經(jīng)積累了海量的中文圖文數(shù)據(jù)資源,這些資源可以隨時調(diào)用,同時也成為ERNIE-ViLG 2.0的核心競爭力,相比其他模型,ERNIE-ViLG 2.0在表達(dá)具有中國風(fēng)意境的畫作中表現(xiàn)更為突出。

在某種程度上來說,AI作畫的技術(shù)突破雖然是由美國帶動的,但中國的跟進(jìn)速度并不慢,演化到現(xiàn)在,AI繪畫并不是簡簡單單的市場開拓方面的商業(yè)競爭,更是關(guān)乎到自主掌控AI關(guān)鍵技術(shù)的競爭,而其中取勝的關(guān)鍵是技術(shù)研發(fā)過程中尋找市場的內(nèi)生需求,通過因地制宜的本土化適配,做好細(xì)分市場和細(xì)分場景的落地。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。