文|阿爾法工場(chǎng)
目前,隨著AI技術(shù)的快速迭代,各種基于AIGC(人工智能內(nèi)容生成)技術(shù)的產(chǎn)品不斷涌向社會(huì),而其中最普遍的,則莫過(guò)于大量的AI繪圖模型,如Midjourney、Dreambooth、Novel AI和Stable Diffusion等。
雖然AI繪圖領(lǐng)域,看似進(jìn)入了百花齊放的時(shí)代,但目前業(yè)內(nèi)的頂流,仍然是Midjourney和Stable Diffusion為代表兩大龍頭。
今年4月,Midjourney進(jìn)一步宣布推出針對(duì)二次元、動(dòng)漫風(fēng)格的繪圖模型Niji-journey V5。
這一模型與以往最大的不同,就是它能“取代”高級(jí)原畫師了。
憑借著出眾的造型張力和色彩使用、以及豐富的風(fēng)格化表現(xiàn)力,Niji V5不光看傻一眾吃瓜群眾,甚至驚艷了業(yè)內(nèi)畫師,讓人直呼其已經(jīng)具有了大師插畫的味道。
之所以能夠如此質(zhì)變,一大原因在于相較此前版本,Niji V5 支持了風(fēng)格化(stylize)參數(shù)設(shè)置。
簡(jiǎn)而言之,在該版本下,用戶只需使用風(fēng)格化命令,就能引用不同藝術(shù)家設(shè)計(jì)風(fēng)格產(chǎn)出圖片。
在Niji V5的助力下,人們輕易地生成了許多“大師級(jí)”的作品。
Niji V5產(chǎn)出圖片的品質(zhì)相當(dāng)優(yōu)秀,幾乎覆蓋市面上的常見(jiàn)風(fēng)格。在此基礎(chǔ)上,使用者只需要微調(diào)設(shè)計(jì),基本能夠達(dá)到大部分優(yōu)秀高級(jí)原畫的工作需求。
如此出色的技術(shù),不禁讓人對(duì)其背后的Midjourney公司產(chǎn)生了強(qiáng)烈的興趣。
實(shí)際上,雖然Midjourney和Stable Diffusion同為當(dāng)前AI繪畫的兩大領(lǐng)軍者,但其當(dāng)下的境遇卻有著天壤之別。
Stable Diffusion背后的明星公司——Stability AI,目前正面臨嚴(yán)重的財(cái)政困境,由于沒(méi)有明確的盈利途徑,公司正面臨倒閉的危機(jī)。
相較之下,Midjourney卻運(yùn)行得風(fēng)生水起,憑借著付費(fèi)訂閱的商業(yè)模式,Midjourney不僅獲得了每年1 億美元的營(yíng)收,并且在Discord上已經(jīng)積累了1000多萬(wàn)用戶。
同為開(kāi)發(fā)繪畫AI的團(tuán)隊(duì),Midjourney是怎么取得今天的成就的呢?
01、延伸人類想象力
雖然Midjourney在不融資的情況下就實(shí)現(xiàn)了盈利,但從創(chuàng)建的背景來(lái)看,創(chuàng)始人大衛(wèi)·霍爾茨(David Holz),并不像那種鉆進(jìn)錢眼里的人。
他為Midjourney設(shè)立了一個(gè)非常不“銅臭”的宗旨:AI 不是現(xiàn)實(shí)世界的復(fù)刻,而是人類想象力的延伸。
而這樣充滿科幻色彩的宗旨,和大衛(wèi)的背景、經(jīng)歷有著很大的關(guān)系。
MidJourney的創(chuàng)始人大衛(wèi)·霍爾茨
作為一個(gè)數(shù)學(xué)專業(yè)的博士生,大衛(wèi)曾在大學(xué)期間研究激光雷達(dá)、大氣科學(xué)和火星任務(wù),可謂是一個(gè)涉獵甚廣,且充滿好奇心的“怪才”。
經(jīng)過(guò)了廣泛的探索后,大衛(wèi)似乎找到了自己真正的興趣所在,于是,在2010年便創(chuàng)立了一家研發(fā)手部跟蹤技術(shù)為主的公司——Leap Motion。
然而,由于與之相關(guān)的VR/AR技術(shù)一直不成熟,Leap Motion也始終沒(méi)能做出有具體應(yīng)用場(chǎng)景的產(chǎn)品。
大衛(wèi)之前研發(fā)的手部追蹤產(chǎn)品
最終,2019年,大衛(wèi)把 Leap Motion 公司賣給了競(jìng)爭(zhēng)對(duì)手 Ultrahaptics。隨后,他成立了一個(gè)工作室來(lái)探索新的機(jī)會(huì),
恰巧在這時(shí),AI在生成藝術(shù)方面取得了突破。
Transformer架構(gòu)的出現(xiàn),徹底改寫了圖像合成的歷史。從此,多模態(tài)深度學(xué)習(xí)整合了NLP和計(jì)算機(jī)視覺(jué)的技術(shù),成為圖像合成的藝術(shù)方法。
于是,借著生成式AI的東風(fēng),大衛(wèi)創(chuàng)建了Midjourney。
公司團(tuán)隊(duì)成員僅11人,其中1位創(chuàng)始人、8位研發(fā)人員、1位法務(wù)、1位財(cái)務(wù)。
在公司的構(gòu)成中,完全沒(méi)有產(chǎn)品經(jīng)理、市場(chǎng)銷售人員,除了創(chuàng)始人、兩個(gè)支持性崗位(法務(wù)、財(cái)務(wù)),80%的人員都是研發(fā)人員。
而作為中堅(jiān)力量的研發(fā)成員,一半(4位)都是尚未畢業(yè)的本科生。
雖然這四位本科生都有一些實(shí)操甚至是創(chuàng)業(yè)經(jīng)歷,但是確實(shí)經(jīng)驗(yàn)有限,而且也非畢業(yè)頂尖名校。
剩下來(lái)的幾位研發(fā)人員,都有著比較豐富的職業(yè)經(jīng)歷。
在聚攏人才后,大衛(wèi)也進(jìn)一步明確了自己對(duì)于Midjourney的理念。
大衛(wèi)將公司Logos 設(shè)計(jì)成了一艘在波浪中航行的帆船,意為水既危險(xiǎn),又是文明的驅(qū)動(dòng)力。
懂得如何與水一起生活和工作的人類,將有能力在水中游泳、做船、筑壩發(fā)電,從而更好的生活,因此,大衛(wèi)認(rèn)為AI是人類想象力的引擎。
然而,在當(dāng)時(shí)生成式AI的競(jìng)爭(zhēng)格局上,有這類“雄心壯志”的團(tuán)隊(duì),可不只Midjourney一家。
例如Stable Diffusion的母公司 Stability.AI,在創(chuàng)立時(shí)也聲稱要將自己的使命定格為成為世界領(lǐng)先的開(kāi)源AI公司,并發(fā)揚(yáng)將AI共享于全世界的理念。
然而,口號(hào)喊得震天響,理念終歸是不能當(dāng)飯吃的啊。
情懷滿滿的大衛(wèi),之后是怎么解決一系列公司融資、盈利的問(wèn)題的呢?
02、開(kāi)源VS閉源
從今天來(lái)看,Midjourney的盈利模式看上去十分簡(jiǎn)單,即通過(guò)付費(fèi)訂閱的商業(yè)模式,按月向用戶收取費(fèi)用,其標(biāo)準(zhǔn)有3種套餐,分別是10/30/60美元/月。
不過(guò),這樣的模式要想行得通,得解決兩大關(guān)鍵問(wèn)題:
1.憑什么讓用戶產(chǎn)生付費(fèi)的意愿?
2.大模型訓(xùn)練所需要的高昂成本怎么解決?
先來(lái)說(shuō)說(shuō)第一點(diǎn),實(shí)際上,當(dāng)AI圖像生成技術(shù)開(kāi)始方興未艾之時(shí),很多使用者并不覺(jué)得這種技術(shù)是需要“付費(fèi)”的。
原因就在于,當(dāng)時(shí)像Stable Diffusion這樣的行業(yè)龍頭,為了吸引大量的開(kāi)發(fā)者,最大程度的把模型用起來(lái),因此采取了開(kāi)源的模式。
和Dall·E、Midjourney不同,Stable Diffusion是完全免費(fèi)、不限次數(shù)、任何人都可用的。
雖然對(duì)硬件有著一定要求,但也能在幾秒鐘內(nèi)生成高清圖像。
這樣的好處在于,開(kāi)源社區(qū)會(huì)齊心協(xié)力地完善模型文檔,共同解決技術(shù)難題。這使得代碼的迭代速度非??欤瑑?yōu)化效率遠(yuǎn)遠(yuǎn)高于閉源系統(tǒng)。
但缺點(diǎn)也很顯而易見(jiàn),那就是商業(yè)化不夠直接,可能為別人“做了嫁衣”。
而相較之下,Midjourney卻采用了不那么開(kāi)放的“閉源系統(tǒng)”。
如果說(shuō)閉源系統(tǒng)真的有什么好處,那就是針對(duì)性更強(qiáng)了。
因?yàn)槟P烷]源,并通過(guò)龐大的用戶量積累了獨(dú)有的數(shù)據(jù)集,可以根據(jù)用戶需求不斷地針對(duì)性訓(xùn)練模型,長(zhǎng)期來(lái)看更有利于建立競(jìng)爭(zhēng)壁壘。
在探索用戶需求這點(diǎn)上,大衛(wèi)采取了產(chǎn)品上線后邊測(cè)試邊改進(jìn)的辦法。
例如Midjourney模型最開(kāi)始很慢,需要20分鐘才能出一張高質(zhì)量的圖片。后來(lái)團(tuán)隊(duì)推出了一個(gè)做15秒生產(chǎn)圖片,但是質(zhì)量沒(méi)那么高的版本,
經(jīng)過(guò)多輪測(cè)試,團(tuán)隊(duì)了解到,速度和質(zhì)量其實(shí)都只是表象,因?yàn)椴煌脩舻倪x擇,實(shí)際上是多維度的。
在針對(duì)用戶需求進(jìn)行調(diào)整后,無(wú)論是創(chuàng)意行業(yè)設(shè)計(jì)者,還是普通愛(ài)好者,都能通過(guò)Midjourney滿足自身的繪畫需求。
除了了解用戶需求外,在使用流程方面,Midjourney也并不像Stable Diffusion需要本地部署,操作十分便捷,對(duì)顯卡和硬件性能也幾乎沒(méi)有要求。
雖為閉源,但Midjourney在使用難易度上,卻更像一個(gè)“親民”的大眾產(chǎn)品。
于是,Midjourney 獲得大量用戶后,養(yǎng)成了用戶使用習(xí)慣,且在開(kāi)啟付費(fèi)訂閱后就進(jìn)一步加強(qiáng)了用戶粘性。
03、算力難題
剛才提到,Midjourney在硬件方面,對(duì)用戶幾乎沒(méi)什么要求。而這樣的原因,則是由于Midjourney所有的圖片都是在云上完成并訓(xùn)練的。
但如此龐大的云計(jì)算量,必然需要高昂的成本,這就回到了剛才的第二個(gè)問(wèn)題:
在沒(méi)有融資的情況下,在云上進(jìn)行大模型訓(xùn)練所需要的高昂,該成本怎么解決?
實(shí)際上,大衛(wèi)解決這個(gè)問(wèn)題的方式很簡(jiǎn)單,也很不可思議。
當(dāng)大衛(wèi)需要找到一個(gè)云供應(yīng)商提供10,000個(gè)GPU時(shí),他直接給云供應(yīng)商的負(fù)責(zé)人發(fā)了封電子郵件,結(jié)果對(duì)方就直接給到了這些資源,完全不需要風(fēng)險(xiǎn)投資。
看到這兒,也許有人驚得下巴都掉了,這種事在現(xiàn)實(shí)中真的可能嗎?
當(dāng)然,供應(yīng)商并不是抽風(fēng)了,而是看中了大衛(wèi)之前的成就和聲譽(yù)。
大衛(wèi)之前的創(chuàng)業(yè)已經(jīng)獲得了聲譽(yù),大衛(wèi)打從創(chuàng)辦Leap Motion的時(shí)候起就有一個(gè)觀點(diǎn),他覺(jué)得技術(shù)的最大限制不是規(guī)模、成本或速度,而是人們?nèi)绾闻c之互動(dòng)。
Leap Motion的手勢(shì)互動(dòng)是一個(gè)嘗試,到了Midjourney這里,他開(kāi)始使用更短的繪畫關(guān)鍵詞(prompt)來(lái)催動(dòng)AI產(chǎn)出。
這樣的理念,吸引了每一個(gè)了解大衛(wèi)的人,也讓他得到了云供應(yīng)商的支持。
然而,在獲得了供應(yīng)商的鼎力支持后,大衛(wèi)也仍然要面對(duì)算力捉襟見(jiàn)肘的問(wèn)題。
從成本來(lái)說(shuō),Midjourney大約10%的云成本用于訓(xùn)練,90%是用戶制作圖像的推理。所以幾乎所有的成本都在制作圖像上。
為解決這一點(diǎn),Midjourney在世界上八個(gè)不同的地區(qū),設(shè)立了自己的服務(wù)器,比如韓國(guó)、日本或荷蘭等,在每個(gè)時(shí)區(qū)的夜間,當(dāng)?shù)厝硕荚谒X(jué),沒(méi)有人使用GPU。Midjourney就可以充分利用這些算力,實(shí)現(xiàn)GPU負(fù)載平衡。
實(shí)際上,這種依靠云端服務(wù)器來(lái)降低成本、加快模型訓(xùn)練的做法,與目前騰訊訓(xùn)練大模型的策略十分相似。
在算力已經(jīng)愈發(fā)成為大模型訓(xùn)練瓶頸的今天,如果在訓(xùn)練開(kāi)發(fā)環(huán)節(jié),直接調(diào)用云端的大模型和AI算力資源,完成后一鍵分發(fā)到用戶終端上,就可以大大降低成本,減少工作量。
因此,Midjourney “云上計(jì)算”的這一步棋,著實(shí)是摸準(zhǔn)了時(shí)代的方向。
互聯(lián)網(wǎng)的演進(jìn)之路,已經(jīng)說(shuō)明,無(wú)論To B還是To C行業(yè),都在追求越來(lái)越集約精簡(jiǎn)的終端硬件、越來(lái)越低門檻的交互入口、越來(lái)越輕盈的軟件應(yīng)用。
所以說(shuō),大模型從云入端,是模型服務(wù)商實(shí)現(xiàn)商業(yè)化的必爭(zhēng)之地。
04、總結(jié)
從Midjourney看似不可思議的創(chuàng)業(yè)經(jīng)歷,我們可以發(fā)現(xiàn),在這次AIGC時(shí)代的浪潮中,能夠脫穎而出的企業(yè)、團(tuán)隊(duì),未必是財(cái)大氣粗的頭部大廠。
因?yàn)樵谏墒紸I、云計(jì)算等技術(shù)逐漸抹平大企業(yè)與中小企業(yè)之間的技術(shù)、成本差距后,各企業(yè)真正比拼的,只剩下人才、創(chuàng)意與執(zhí)行力。
而這也是為什么, Midjourney這類僅有寥寥十幾人的小團(tuán)隊(duì)能脫穎而出的原因。因?yàn)檫@樣依靠少數(shù)尖端人才組建的團(tuán)隊(duì),具有大企業(yè)所沒(méi)有的靈活性、創(chuàng)見(jiàn)和魄力。
而這類小團(tuán)隊(duì)的創(chuàng)意、靈感,若要真正在市場(chǎng)、社會(huì)中扎下根,就離不開(kāi)對(duì)用戶多樣化、個(gè)性化需求的追蹤。
這是因?yàn)?,AIGC技術(shù)的“泛用性”,決定了其絕不是針對(duì)某一行業(yè)、人群,或是某一類企業(yè)的技術(shù)。
只有在這多樣化的需求中,盡可能地滿足不同層級(jí)用戶的特定需求,一款產(chǎn)品才能真正地具有長(zhǎng)遠(yuǎn)的生命。
既服務(wù)所有人,又不忽視每一個(gè)特殊的人,這或許就是Midjourney成功的最大原因。
來(lái)源:阿爾法工場(chǎng)——AI新智能
原標(biāo)題:Midjourney:偉大的公司只需要十一人