文|經(jīng)緯創(chuàng)投
每隔一段時間,一項(xiàng)技術(shù)就會捕獲全世界的想象力。從硅谷、華爾街、中關(guān)村、到世界各個角落的辦公室和大學(xué)教室,人們都在熱烈地討論ChatGPT及人工智能的未來。
面對這個剛剛開始的顛覆性變革,我們有太多問題想問,有太多問題值得思考。但本文將聚焦在:
- ChatGPT對于創(chuàng)業(yè)公司來說意味著什么?
- 這一波AI產(chǎn)品可能的應(yīng)用場景有哪些?
- 未來可能會形成怎樣的新AI產(chǎn)業(yè)生態(tài)?
- 我們根據(jù)GPT-3 Demo及其他相關(guān)網(wǎng)站,來看看海外當(dāng)下,有哪些熱門創(chuàng)業(yè)方向(App和應(yīng)用案例)?
1、引子:為什么這次不一樣
最近幾乎所有大型人工智能的前沿突破,都來自巨頭公司,因?yàn)樗麄儞碛袕?qiáng)大的資金和算力。ChatGPT與上一波人工智能產(chǎn)品蘋果Siri、微軟小冰的核心不同是,過去都是小模型,而如今是真正的大模型。
以前,小模型的人工智能中,其實(shí)包含了若干Agent(類似于執(zhí)行具體任務(wù)的程序),一個專門負(fù)責(zé)聊天對話、一個專門負(fù)責(zé)詩詞生成、一個專門負(fù)責(zé)代碼生成、一個專門負(fù)責(zé)營銷文案等等,如果想添加新功能,可以去訓(xùn)練新Agent。一旦用戶的問題超出了這個范圍,人工智能就會變成人工智障。
而如今的ChatGPT之所以被稱為真正的人工智能,就在于采用了成百上千億參數(shù)的大模型,比如GPT-3模型就有1750億個參數(shù)。而GPT本身是一個單項(xiàng)模型,是從左到右進(jìn)行閱讀,所以更擅長“寫作文”。與谷歌BERT不同,BERT是一個雙向模型,可以聯(lián)系上下文進(jìn)行分析,更擅長“完形填空”,但GPT與人類的思維方式更接近,所以我們能看到基于ChatGPT的創(chuàng)意寫作應(yīng)用,或是制作繪本。
InstructGPT的技術(shù)邏輯:RLHF的主要改變在于人工監(jiān)督數(shù)據(jù)與調(diào)整后的獎勵模型;圖片來源:OpenAI
但大模型的高昂投入,讓普通創(chuàng)業(yè)公司難以為繼,因此參與者都是科技巨頭。2022年OpenAI的收入為3000萬美元,但凈虧損總額預(yù)計為5.445億美元。而GPT3訓(xùn)練一次的費(fèi)用,大概是460萬美元。當(dāng)模型被訓(xùn)練好之后,仍然有使用成本,目前ChatGPT單輪對話的平均費(fèi)用,大概在0.01-0.2美元之間。
并且先發(fā)優(yōu)勢會非常明顯,因?yàn)檫@里有一個“數(shù)據(jù)和模型的飛輪效應(yīng)”。在GPT-3之后,OpenAI所有的模型都沒有開源,而是提供了API調(diào)用。在這個過程中,OpenAI可以借助ChatGPT建立真實(shí)用戶調(diào)用和模型迭代之間的飛輪,OpenAI非常重視真實(shí)世界數(shù)據(jù)的調(diào)用,以及這些數(shù)據(jù)對模型的迭代。
文本模型的訓(xùn)練成本;圖片來源:東吳證券
對于AI的發(fā)展來說,工程的重要性不亞于科學(xué),創(chuàng)建一個迭代反饋的閉環(huán)至關(guān)重要。這也將是后來者,趕超ChatGPT的重要難點(diǎn)。
那么,這股AI新浪潮對于創(chuàng)業(yè)公司來說,意味著什么?
2、對創(chuàng)業(yè)公司來說意味著什么?
OpenAI的創(chuàng)始人山姆·阿爾特曼(Sam Altman),曾對AI產(chǎn)業(yè)生態(tài)有過一個預(yù)測,他認(rèn)為:
“將來應(yīng)該會出現(xiàn)幾個大型的基礎(chǔ)模型,開發(fā)人員都將基于這些基礎(chǔ)模型研發(fā)AI應(yīng)用。但目前的情況依然是某一家公司開發(fā)出一個大型語言模型,然后開放API供他人使用。
我認(rèn)為,將來在基礎(chǔ)模型和具體AI應(yīng)用研發(fā)之間會有一個中間層:出現(xiàn)一批專門負(fù)責(zé)調(diào)整大型模型以適應(yīng)具體AI應(yīng)用需求的初創(chuàng)企業(yè)。能做好這一點(diǎn)的初創(chuàng)公司將會非常成功,但這取決于它們能在「數(shù)據(jù)飛輪」上走多遠(yuǎn)。
創(chuàng)業(yè)公司會訓(xùn)練自己的模型,只不過不是從頭開始。他們將采用基礎(chǔ)模型,這些模型已經(jīng)經(jīng)過大量的計算和數(shù)據(jù)訓(xùn)練,然后在這些模型之上進(jìn)行訓(xùn)練,為每個垂類創(chuàng)建模型。
他們所做的 1% 的訓(xùn)練,對于應(yīng)用來說至關(guān)重要。我認(rèn)為,這些創(chuàng)業(yè)公司將會非常成功,并且與眾不同。可能包括一段時間內(nèi)存在的 prompt engineering(提示工程)或基礎(chǔ)核心模型(core base model)。
將來承擔(dān)模型訓(xùn)練角色的應(yīng)該不會是初創(chuàng)公司,但這些企業(yè)可以在上述的中間層角色中發(fā)揮巨大價值。我認(rèn)為中間那一層會創(chuàng)造很多價值。”
總結(jié)來說,這個產(chǎn)業(yè)生態(tài)可能會是:
1、基礎(chǔ)設(shè)施層:在最底層,是提供芯片、云計算等基礎(chǔ)能力的廠商。
2、模型層:大公司負(fù)責(zé)訓(xùn)練基礎(chǔ)大模型,這種基礎(chǔ)能力可能會逐漸走向開放。一種可能是,最終形成類似ISO 和Android兩大陣營,或是類似云計算的格局,一般這種量級的生態(tài)圈最終不會容納太多家,但也不會被一家壟斷。目前來看微軟(OpenAI拔得頭籌)vs谷歌(旗下有Deepmind)已經(jīng)開戰(zhàn),但巨頭的基礎(chǔ)模型之間是否會形成差異?以及會形成怎樣的差異性?這個問題也值得觀察。但無論如何,這將會是繼移動互聯(lián)網(wǎng)之后,下一個史詩級的重大戰(zhàn)略窗口,中國公司也需要積極加入戰(zhàn)局。
國內(nèi)外互聯(lián)網(wǎng)大廠紛紛推出自研AI大模型;圖片來源:安信證券
3、應(yīng)用中間層:在大模型的基礎(chǔ)上,不同垂直領(lǐng)域會有各自的特殊情況,比如醫(yī)療、司法等等領(lǐng)域,這些特定領(lǐng)域的數(shù)據(jù)本身也是稀缺的。創(chuàng)業(yè)公司可以扎根各自的垂直領(lǐng)域,基于特定的數(shù)據(jù)集+行業(yè)knowhow,形成各自的商業(yè)化路徑,并保護(hù)用戶數(shù)據(jù)和隱私。
4、重構(gòu)“AI應(yīng)用”?此外,在Sam Altman所說的應(yīng)用中間層之上,在AI應(yīng)用端本身,是否存在一個重構(gòu)當(dāng)下App的機(jī)遇?是現(xiàn)有玩家往AI轉(zhuǎn)型,還是會涌現(xiàn)新玩家,這個問題也值得持續(xù)觀察,還未達(dá)成市場共識。
在現(xiàn)有玩家往AI的轉(zhuǎn)型中,最典型的莫過于微軟。微軟計劃將ChatGPT模塊,應(yīng)用于搜索引擎Bing中,以對抗占據(jù)主導(dǎo)市場份額的谷歌,New Bing可能在今年一季度就能落地。搜索引擎還只是前菜,微軟還計劃將OpenAI與自身業(yè)務(wù)進(jìn)行更大程度的融合,比如嵌入Word、PowerPoint、Excel、Outlook等等,對于用戶來說,只需給人工智能直接下達(dá)指令,就能獲得自動生成的文章、Excel表格、PPT,或是電子郵件,這將是AI進(jìn)入C端的一次巨大突破。
而在新玩家中,涌現(xiàn)了一批AI繪畫、AI編程、各類自動化工具等等方向的創(chuàng)新項(xiàng)目,類似當(dāng)年移動互聯(lián)網(wǎng),這些新方向也有可能誕生一批優(yōu)秀的新公司。
現(xiàn)在,已經(jīng)有一些新老玩家,在使用已經(jīng)訓(xùn)練好的基礎(chǔ)模型,然后再基于這些模型進(jìn)一步優(yōu)化,例如GitHub的Copilot功能,以及Notion的協(xié)助功能,都是基于OpenAI的相關(guān)模型開發(fā)而來。隨著模型不斷被AI應(yīng)用平臺使用,下一步就是訓(xùn)練數(shù)據(jù),甚至整個業(yè)務(wù)邏輯。新老玩家們,未來可能會在一些領(lǐng)域激烈競爭。
這個發(fā)展過程也許可以類比云計算。當(dāng)年云計算最初通過便利性,來吸引用戶把計算放在云端。然后隨著計算逐漸遷移到云端,數(shù)據(jù)也開始搬遷到云上,然后再是整個公司的業(yè)務(wù)邏輯,都在云上運(yùn)行?;贠penAI GPT-3、Deepmind Gopher等基礎(chǔ)模型,各個應(yīng)用層面的新老玩家,未來都會在“云”上提供更豐富的服務(wù),最終形成龐大生態(tài)。
我們也非常想知道,基于ChatGPT,當(dāng)下全球最流行、最有潛力的應(yīng)用場景到底是什么?我們做了一個初步的研究,根據(jù):
- GPT-3 Demo所羅列的651款A(yù)pp(這是一個實(shí)時統(tǒng)計基于GPT-3所誕生的App的網(wǎng)站,不斷更新中)
- 當(dāng)下市場上熱門的AIGC應(yīng)用
- ChatGPT自己給出的答案
我們羅列了10款熱門應(yīng)用,其中的一些或許會令你眼前一亮,一些或許還比較稚嫩,但我們認(rèn)為AI變革這次不一樣,在大浪潮的初始,這些探索者值得被持續(xù)關(guān)注。
- AI寫作:Jasper AI
- AI寫作:Copy.ai
- AI聲音:podcast.ai
- AI繪圖:Midjourney
- AI繪圖:Stability AI
- AI修圖:Lensa
- AI音視頻編輯:Descript
- AI編程:GitHub Copilot
- AI筆記:Mem
- AI游戲:AI Dungeon
1) AI寫作:Jasper AI
作為 AIGC 圈新貴,Jasper AI已經(jīng)不是一個陌生的名字。在去年10月,Jasper AI就宣布了以15億美元估值的A輪融資,而Jasper AI的產(chǎn)品上線也就18個月時間。
Jasper以“AI文字生成”為主打產(chǎn)品,用戶借助AI可以輕松生成各類文字,例如幫著起Instagram的標(biāo)題、編寫TikTok視頻腳本、廣告營銷文本、博客、電子郵件內(nèi)容等等,這些功能,令Jasper在社交媒體、電商、視頻制作等多個領(lǐng)域非?;鸨?。
Jasper的底層技術(shù)就是OpenAI的GPT-3,但團(tuán)隊(duì)在此基礎(chǔ)上,對語言模型做了大量的改進(jìn),特別是在廣告和營銷的內(nèi)容生成這部分,Jasper也加大了用戶在生成內(nèi)容時的反饋機(jī)制。相比于其他AI寫作應(yīng)用,Jasper更專注于長篇內(nèi)容。
除了文字內(nèi)容外,Jasper也推出了AI繪圖產(chǎn)品Jasper Art,與其他熱門產(chǎn)品類似,也是用戶輸入圖片描述,AI會自動生成圖片。當(dāng)然Jasper 的定位會更偏向市場營銷應(yīng)用設(shè)計。
2) AI寫作:Copy.ai
Copy.ai與剛剛介紹的Jasper AI類似,也是基于GPT-3模型的AI寫作創(chuàng)業(yè)項(xiàng)目,Copy.ai可以用幾秒鐘,就生成高質(zhì)量的廣告和營銷文案,針對ToB企業(yè)場景。
Copy.ai也引入了人工修正,不斷訓(xùn)練出更優(yōu)秀的人工智能模型。Copy.ai的核心目標(biāo)不是完全取代人工,而是通過AI的建議,將人類創(chuàng)作文案的構(gòu)思階段縮短80%,營銷人員用自己的創(chuàng)造力來填補(bǔ)剩余的20%。Copy.ai提供了大量的場景模版,幾乎涵蓋了市場營銷需要文案的所有場景。
對于用戶來說,只需要輸入標(biāo)題和簡單的幾句話介紹來描述需求,例如根據(jù)內(nèi)容發(fā)布平臺的調(diào)性,來選擇文章的調(diào)性。如果有語法錯誤,還可以通過另一款應(yīng)用Grammarly來自動修改。
3) AI聲音:podcast.ai
Podcast.ai是一個完全由AI生成的播客,每周都會深入探討一個新話題。
Podcast.ai的第一期節(jié)目引爆全網(wǎng),Podcast.ai通過喬布斯的傳記,和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,用Play.ht的語言模型大量訓(xùn)練,最終生成了一段美國知名播客主持人Joe Rogan采訪喬布斯的播客內(nèi)容。在這期播客里,喬布斯的各種語音、語調(diào)都模擬的非常相似。
在這段20分鐘的對話里,喬布斯“死而復(fù)生”,與Joe Rogan討論了關(guān)于曾經(jīng)的大學(xué)時光、對計算機(jī)的看法、工作狀態(tài)以及信仰等等。
圖片來源:https://podcast.ai/
Podcast.ai所采用的Play.ht,是一個AI文本轉(zhuǎn)換語音生成器,模型覆蓋了數(shù)千種說話的聲音,還可以學(xué)習(xí)人類的情感、說話語氣以及笑聲等。從文本語言模型到音頻語言模型時,音頻數(shù)據(jù)速率增高是一個大難題,一個句子的幾十個字符用音頻波形表達(dá),所包含的數(shù)值往往多達(dá)數(shù)十萬個。此外,由于文本和音頻之間的一對多關(guān)系,也即是一個語句可以有不同的說話風(fēng)格、情感等,這也成為了語音模型研究中需要解決的問題。
總體來說,Podcast.ai的效果已經(jīng)相當(dāng)接近真人,感興趣的朋友可以去這里聽一下Podcast.ai關(guān)于喬布斯的這期節(jié)目:https://podcast.ai/
4) AI繪圖:Midjourney
Midjourney是一眾AI繪畫產(chǎn)品中的佼佼者,高質(zhì)量、高精度、耗時短,在網(wǎng)上非常出圈。Midjourney目前直接搭載在Discord頻道上,你不需要寫代碼,只需輸入描述指令,AI就幫你生成驚艷的繪畫,這個過程和發(fā)微信聊天幾乎一樣。
圖片來源:https://discord.com/channels/662267976984297473/@home
如今,無數(shù)人都在用Midjourney生成圖片。例如《經(jīng)濟(jì)學(xué)人》用Midjourney生成的圖片做了雜志封面:
以及《空間歌劇院》,在美國科羅拉多州博覽會上獲得一等獎,隨后其作者Jason Allen才透露,這幅作品是出自Midjourney AI之手。
再比如英國藝術(shù)家Daniel Oxford,運(yùn)用Maya、PS等軟件配合AI輔助創(chuàng)作,一幅幅油畫質(zhì)感的CG從他手下產(chǎn)生:
又或者是當(dāng)你輸入“指環(huán)王”,Midjourney生成的是這樣的:
由于用Midjourney畫畫,基本上和用微信聊天差不多,所以你的描述非常重要,比如你需要想清楚:
What:種類是什么?油畫?水彩?陶瓷?木雕?
Who:主題是什么?人?物?景?
When:何時?早中晚?季節(jié)?年代?時期?
Where:何地?什么場景?陸??眨客馓??
How:怎么畫?風(fēng)格?引擎?渲染?照明?鏡頭?清晰度?真實(shí)度?
這些問題都可獨(dú)立,也可搭配在一起,看你想讓AI畫到什么程度。描述的越多,AI會以自己的理解,按權(quán)重優(yōu)先級進(jìn)行繪制;而如果描述的少,AI也會根據(jù)自己的理解繪畫,也許能給出驚喜的創(chuàng)意。
建筑師也在使用來尋找靈感。例如芝加哥建筑師斯蒂芬·庫拉斯(Stephen Coorlas)使用Midjourney為芝加哥北岸地區(qū)設(shè)計的露天展館。
圖片來源:庫拉斯建筑(Coorlas Architecture)
基于這個概念圖像進(jìn)行簡單的3D建模后,庫拉斯將這些模型的圖像反饋給Midjourney,并令其迭代建筑圖紙。然后就得到了這個展館的建筑圖紙,雖然還缺乏細(xì)節(jié)。
圖片來源:Coorlas建筑
扎哈·哈迪德建筑倫敦工作室的計算研究小組(ZHACODE)設(shè)計師Tim Fu,使用Midjourney設(shè)計的鋼琴家的住宅:
由Tim Fu使用Midjourney設(shè)計的鋼琴家的住宅。圖片來源:Tim Fu
這些進(jìn)步,得益于生成擴(kuò)散模型和多模態(tài)預(yù)訓(xùn)練模型等技術(shù)的快速發(fā)展,在圖文生成效果上有了顯著進(jìn)步,讓AI可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。
在2021年之前,AIGC還主要是文字生成。而新一代的模型可以處理任何內(nèi)容格式,包含文字、語音、代碼、圖像、視頻、3D模型、機(jī)器人的動作等等。比如近期以DALL-E2和stable-diffusion為代表的AIGC技術(shù)在圖文生成效果上,能夠廣泛應(yīng)用于內(nèi)容生成、編輯和創(chuàng)作等領(lǐng)域。
5)AI繪圖:Stability AI
Stability AI也在去年10月宣布完成了1.01億美金的種子輪融資,估值達(dá)10億美金,Stability AI成立僅2年時間。
與Midjourney類似,Stability AI也是一個開放的AI繪圖工具,用戶輸入描述圖片的文字信息,來創(chuàng)建圖像。
圖片來源:https://stability.ai/
Stability AI是一項(xiàng)開源技術(shù),用戶可以在其代碼的基礎(chǔ)上構(gòu)建與設(shè)計、電影、增強(qiáng)現(xiàn)實(shí)、視頻游戲、廣告甚至電子商務(wù)相關(guān)的應(yīng)用程序。通過這套開源技術(shù),Stability AI的社區(qū)已經(jīng)創(chuàng)造出了幾乎涵蓋所有媒體內(nèi)容形態(tài)的AI模型,包括圖像、語言、音頻、視頻以及3D內(nèi)容。
圖片來源:https://stability.ai/
Stability AI在訓(xùn)練自己的模型時,也花費(fèi)了很高的成本。根據(jù)Business Insider的報道,Stability AI目前擁有一個,在AWS中運(yùn)行的由4000多個Nvidia A100 GPU組成的芯片集群,用于訓(xùn)練Stability的各個AI模型,這導(dǎo)致其在運(yùn)營和云服務(wù)方面的支出超過了5000萬美元。AI公司在訓(xùn)練方面的確耗資巨大,此前微軟對OpenAI的10億美元投資,其中一半是用云計算等服務(wù)折算的。
由此也可以看出Stability AI的野心,它并未聚焦于某個單一場景,而是通過開源來拓展場景,再去尋找具體的商業(yè)模式。當(dāng)然,更大的想象空間,也需要更多的投入,所以Stability AI在種子輪就拿了這么多錢。
Stability建立的社區(qū),包括了全球各地的專家與合作伙伴,他們正在為圖像、語言、音頻、視頻、3D和生物學(xué)等,開發(fā)最先進(jìn)的開放式人工智能模型。
圖片來源:https://stability.ai/
6) AI修圖:Lensa
剛剛介紹了幾款A(yù)I繪圖應(yīng)用,下面我們要介紹的,是一款A(yù)I修圖產(chǎn)品。
圖片來源:https://prisma-ai.com/lensa
Lensa的日常操作,其實(shí)與美圖秀秀、VSCO類似,只不過后者需要手動,而Lensa加入了一些AI能力。Lensa在Twitter等社交媒體上爆紅,主要是它的Magic Avatars功能,可以供你生成魔法頭像。用戶需要上傳10-20張自拍照,然后選擇一個性別,Magic Avatars就會通過AI自動生成上百張不同風(fēng)格的頭像。
這些AI生成的照片風(fēng)格各異,有動漫效果、科幻色彩、水彩感、或是油畫風(fēng)格等等,一下子形成了病毒式傳播。此外,這是一個完全付費(fèi)的產(chǎn)品,生成的這50/100/200張的價格分別為3.99/5.99/7.99美元。
圖片來源:https://prisma-ai.com/lensa
Lensa引爆了C端,這也是對AIGC市場非常重要的價值。
7)AI音視頻編輯:Descript
去年11月,Descript宣布了5000萬美金的融資,這一輪由OpenAI旗下的OpenAI Startup Fund領(lǐng)投。
Descript想結(jié)合AI實(shí)現(xiàn)的目標(biāo),是重新設(shè)計視頻編輯器,讓制作音視頻的過程,像修改Word文檔和做PPT一樣簡單。
圖片來源:https://www.descript.com/
Descript首先第一個打破的,就是傳統(tǒng)編輯器中的時間軸概念,以期在不觸及時間軸的情況下完成各種新的操作,可能是對視頻中的每個畫面利用AI做更多操作,例如刪除視頻里面的背景,添加新畫面等等。
第二個好用的功能是語音克隆,也就是用戶先錄好一段聲音后,后續(xù)只需要寫文本就能實(shí)現(xiàn)整個錄制,AI會用克隆好的聲音自動錄制出來。也可以選擇其模版庫里的其它聲音模版。當(dāng)你對文本進(jìn)行修改,錄音也會自動調(diào)整。
第三是通過AI自動刪除語氣詞或是重復(fù)的短句。剪輯過音頻的朋友都知道,我們?nèi)粘Uf話時其實(shí)會有大量的語氣詞或是重復(fù)詞,說的時候沒感覺,但在聽錄音的時候非常明顯。但這種剪輯很麻煩,需要一點(diǎn)一點(diǎn)去摳。如今通過AI自動處理,很方便也令音視頻更加專業(yè)。另外就是字幕處理,Descript會根據(jù)上下文自動調(diào)整字幕的停頓斷句,也會自動補(bǔ)充各種日常習(xí)慣語法。
圖片來源:https://www.descript.com/
8) AI編程:GitHub Copilot
AI編程也是近幾年新崛起的重要賽道,美國風(fēng)投界認(rèn)為2023年AI編程投資會非常火熱。
GitHub Copilot是微軟旗下代碼托管平臺GitHub推出的AI編程工具,Copilot的主要定位是提供代碼補(bǔ)全與建議功能,可根據(jù)當(dāng)前文件的內(nèi)容和光標(biāo)位置自動生成代碼。
圖片來源:https://github.com/features/copilot
GitHub Copilot支持的編程語言包括Python、JavaScript、TypeScript、Java、Ruby和Go。有了GitHub Copilot,軟件開發(fā)人員可以在編輯器中使用內(nèi)聯(lián)注釋來獲取JavaScript、Python、TypeScript和Ruby等編程語言的代碼建議。
然后只要用戶給出提示,GitHub Copilot就可以根據(jù)上下文自動編寫完整的函數(shù),或?qū)崿F(xiàn)完整的功能,包括docstrings、注釋、函數(shù)名、代碼。
在底層技術(shù)方面,GitHub Copilot就是基于OpenAI的文本生成技術(shù)。曾經(jīng)有GitHub Copilot高管對其描述是:
“這就像有一個小機(jī)器人坐在你的肩膀上,你們坐在桌子的同一側(cè),目視同樣的東西,當(dāng)這個機(jī)器人可以‘出手’的時候,它會自動為你提供幫助?!罱豁?xiàng)研究的統(tǒng)計數(shù)據(jù)非常有趣,該研究要求程序員從頭開始編寫Web服務(wù)器代碼,程序員在使用Copilot的情況下完成這一任務(wù)的速度要比不使用Copilot快50%以上。然后,我們從遙測中得知,在啟用這一功能的情況下,在程序員編寫新代碼的過程中,例如Python 等流行編碼語言中,Copilot為程序員編寫了多達(dá)40%的代碼。這是個了不起的成就?!?/p>
圖片來源:https://github.com/features/copilot
9)AI筆記:Mem
Mem是一款專注于工作的應(yīng)用程序,可以利用AI自動組織筆記。Mem也是OpenAI領(lǐng)投的,投資金額為2350萬美元,投資后估值為1.1億美元。
Mem由華裔工程師Dennis Xu和Kevin Moody共同創(chuàng)辦,他們曾表示,Mem與傳統(tǒng)記事應(yīng)用程序的不同之處在于它的“輕量級”。
簡單來說,Mem像是一種整合個人信息數(shù)據(jù)的工具,將你的個人郵件、日歷活動和筆記信息等自動匯集到一起,并利用AI來自動整合這些信息,并在特定的時間點(diǎn)上給你所需要的。
在工作流程上,Mem主打快速記錄與內(nèi)容搜索,圍繞搜索和按時間順序排列的時間線,可以附加主題標(biāo)簽,標(biāo)記其他用戶,并為筆記添加循環(huán)提醒信息。
當(dāng)然,快速記錄信息只是最開始的第一步,Mem如何將信息數(shù)據(jù)從其他平臺快速同步整合到Mem上更為重要。Mem在背后形成了一個知識圖譜,由一個個Node(節(jié)點(diǎn))組成,每個節(jié)點(diǎn)都是一個Entity,這個Entity可以是一條Mem(筆記),也可以是某個具體的日程活動、一個聯(lián)系人信息或者是一條任務(wù)等等。Mem會通過AI將這些不同節(jié)點(diǎn)上的Entity進(jìn)行分析和連接,比如你在一條筆記中提到了某位朋友推薦的一家餐館,這兩個信息點(diǎn)都會在知識圖譜中進(jìn)行分析和歸類,并自動形成關(guān)聯(lián),當(dāng)外部條件觸發(fā)時,這些信息就會自動呈現(xiàn)在用戶的面前。
Mem也做了AI Writer的部分,可以說是基于個人信息數(shù)據(jù)的AI寫作助理。比如一個可能的場景就是當(dāng)你在寫作中提到某個日程安排或者某條視頻內(nèi)容時,Mem會自動將這些信息自動同步到文檔中,同時這個AI Writer還具備GPT-3的所有能力,可以將各種網(wǎng)上的信息比如最暢銷的10本書等等進(jìn)行自動搜集和補(bǔ)全。
10) AI游戲:AI Dungeon
AI Dungeon是一個由AI驅(qū)動的基于文本的RPG游戲,也可以說是由AI驅(qū)動劇情發(fā)展的游戲。通過AI應(yīng)用,用戶可以在能想象到的任何場景中,去進(jìn)行角色扮演編寫故事,與其他人物互動。
AI 會根據(jù)故事大背景設(shè)定的世界觀,來設(shè)計不同角色的性格和任務(wù),并且實(shí)時根據(jù)用戶的行動,回以新的事件和對話,對每個人都會反饋出不同的答案和行動,所以在劇情拓展方面,不可預(yù)測并且自由度空前。
圖片來源:https://play.aidungeon.io/
AI Dungeon目前使用GPT-3的模型來生成故事。
AI Dungeon文本游戲雖然還很稚嫩,但AI應(yīng)用于游戲代表了游戲業(yè)的未來。
圖片來源:https://play.aidungeon.io/
AI Dungeon代表了ChatGPT對游戲行業(yè)可能的顛覆性。當(dāng)AI應(yīng)用于游戲,游戲里的劇情將變得不可預(yù)測,而是會根據(jù)每個用戶的選擇,形成無限的可能性。并且游戲里的NPC都可以有各自的“生活”,或是影響游戲結(jié)局,從而給玩家?guī)愍?dú)特的體驗(yàn)。
當(dāng)然,當(dāng)下的AI游戲大多數(shù)還是基于文本,所以其互動效果類似ChatGPT,事實(shí)上這塊能力也是基于OpenAI的語言模型構(gòu)建的。不同點(diǎn)在于游戲版會更具邏輯性,也能夠保留對過去交互的記憶,并且是基于大的故事背景而做出的互動。
但在可以想見的未來,當(dāng)游戲制作時,把游戲中的每一個人物都設(shè)計一個AI模型,那將是AIGC深度開發(fā)的巨大潛力與機(jī)會,制作出真正沉浸感的新游戲。
AIGC會令游戲行業(yè)變得更加靈活與復(fù)雜;圖片來源:A16Z
這10款應(yīng)用只是AIGC領(lǐng)域的冰山一角,從GPT-3、Bloom的文本生成,DALL-E和Stable Diffusion的圖像生成,以及RunwayML、Make-A-Video的視頻生成,各類生成式AI產(chǎn)品在近幾年中如雨后春筍般涌現(xiàn)。
正如OpenAI CEO Sam Altman所說,AI將是移動互聯(lián)網(wǎng)后新的基礎(chǔ)平臺,之后會出現(xiàn)新公司的爆炸式增長。
當(dāng)然,對于中國來說,當(dāng)務(wù)之急可能還不在應(yīng)用層,而是模型層。眾多有意思的AI產(chǎn)品,背后的基石都是GPT-3.5等基礎(chǔ)模型,而國內(nèi)現(xiàn)在還缺乏一個足夠好的基礎(chǔ)大模型。這就類似于新AI時代的“IOS、Android”、或是比喻成“云計算操作系統(tǒng)”,如果沒有它也就根本無法開發(fā)應(yīng)用,這是一個必須的基礎(chǔ)設(shè)施。而基于“數(shù)據(jù)和模型的飛輪效應(yīng)”,AI大模型開發(fā)的時間窗口正在迅速縮短。
當(dāng)然,目前的GPT-3.5,并不具備真正的推理能力,雖然ChatGPT能回答各種問題,但事實(shí)上對回答背后的意義,或是數(shù)學(xué)公式的理解、詩詞背后的情感,ChatGPT還是沒有概念的。GPT從1.0發(fā)展到3.5,迭代的是收集整合和語言組織能力,而非思維層面。
就像清華教授錢穎一曾經(jīng)說的,未來人工智能在知識層面會做的很好,但“大學(xué)教育的價值不在于記住很多事實(shí),而是訓(xùn)練大腦會思考?!?/p>
創(chuàng)造性思維=知識×好奇心和想象力,這在AIGC時代將尤為重要。
References:
1、部分對app應(yīng)用的描述來源自:Memo AIGC(https://vcsmemo.com/?page_id=852),這是一個追蹤AIGC領(lǐng)域最新動向的網(wǎng)站
2、 GPT-3 DEMO:https://gpt3demo.com/
3、 Citipedia:AI與城市|Midjourney:建筑版ChatGPT設(shè)計的超現(xiàn)實(shí)世界
4、 wuhu動畫人空間:地表最強(qiáng)AI繪畫工具?!Midjourney到底厲害在什么地方?
5、 AI繪畫 Midjourney關(guān)鍵詞輸入全技巧
6、 安信證券:AIGC與ChatGPT正掀起新一輪的產(chǎn)業(yè)浪潮
7、 UBS Equities:美國互聯(lián)網(wǎng)行業(yè):ChatGPT揭示消費(fèi)者AI的未來
8、 Morgan Stanley:ChatGPT: What is it? Why it Matters? Is it a Google Threat...and Broader Industry Implications
9、 經(jīng)濟(jì)學(xué)人:The race of the AI labs heats up