文|新眸投研組
編輯|桑明強
受ChatGPT影響,今年AIGC賽道依舊火熱。它指的是利用人工智能技術(shù)生成內(nèi)容,AIGC也被認為是繼UGC、PGC后一種新型內(nèi)容生產(chǎn)方式。
流行的原因有很多因素,除了生成逼真圖像、視頻和文本的能力,用更高效的方式生成創(chuàng)意內(nèi)容,AIGC在辦公、娛樂、醫(yī)療、金融等領(lǐng)域都有著不小的潛力,去年剛興起的AIGC浪潮,一度讓不少業(yè)內(nèi)人士認為,它的出現(xiàn),將掀起一場革命性科技浪潮。
過去幾年里,生成式人工智能的普及率一直在穩(wěn)步增長,并且這種趨勢很可能會持續(xù)下去。原因在于,就像前面說的,數(shù)據(jù)和計算能力的可用性不斷提高,人們對更高效、更有效的方式來生成創(chuàng)意內(nèi)容的需求等因素,正在推動生成型人工智能的普及。
作為一個快速發(fā)展的領(lǐng)域,研究人員和工程師正在努力推進這項技術(shù),新的突破不斷出現(xiàn)。由于AIGC目前的主要目標是通過學習數(shù)據(jù)分布的規(guī)律,進一步細分包括圖像、視頻、音頻等生成,以及自然語言生成,比如生成文本或像搜索引擎一樣通過信息整合提供對話、問答。
除此以外,AIGC還能夠作為自動編碼器,或者基于對抗學習,讓機器學會生成與真實數(shù)據(jù)相似的樣本,這項技術(shù)也已經(jīng)被廣泛運用到圖像、音頻和文本等領(lǐng)域。
如今已經(jīng)有多家公司基于這項技術(shù)做出了重大貢獻,包括OpenAI、谷歌、NVIDIA、微軟和Facebook等,國內(nèi)的互聯(lián)網(wǎng)公司中,百度上線了中文版的AI繪畫工具“文心一格”,阿里巴巴、京東等擁有海量數(shù)據(jù)的大廠也在陸續(xù)入局:
當然,還有許多初創(chuàng)公司正在開發(fā)生成型人工智能的創(chuàng)新應用,這里舉一些例子:
市場的火熱,讓包括a16z、梯度風險投資、科斯拉風險投資公司、軟銀、紅杉等知名投資機構(gòu)紛紛入局。去年10月,Stable Diffusion背后的Stability AI宣布獲得1.01億美元來自Coatue和光速的投資,投后估值攀升至10億美元。相關(guān)領(lǐng)域的其他多家公司獲得了大量融資,比如:
總的來看,這些公司成功的因素都有一些共性特征,包括獲取大量高質(zhì)量數(shù)據(jù)、在人工智能和機器學習方面的強大技術(shù)專長,以及為一系列行業(yè)和用例開發(fā)用戶友好且有效的應用程序的能力。此外,還有保持對道德考慮和負責任地使用技術(shù),每一個參與者都需要重視的是長期價值。
Open AI:呼聲最高的重量級選手
ChatGPT火爆全球,讓open AI成為AIGC領(lǐng)域中估值最高的一家公司。追溯到這家公司創(chuàng)始人,20歲的山姆·阿爾特曼從斯坦福輟學創(chuàng)業(yè),28歲晉升為YC孵化器總裁,37歲憑借ChatGPT被外界看作具備劃時代的意義。
自從今年1月底,微軟宣布對Open AI追加第三輪投資,數(shù)額或高達一百億美元,Open AI的身價已經(jīng)飆升到290億美元。據(jù)了解,上線5天的ChatGPT,用戶數(shù)就突破百萬,2個月MAU破1億,也意味著更高的服務器帶寬成本。
微軟為了在AI領(lǐng)域和Google、Meta等對手競爭,Azure被推向前臺,作為Open AI的獨家供應商,提供了多項優(yōu)惠待遇。但即便如此,Open AI還沒賺到過錢。ChatGPT和旗下其他AIGC產(chǎn)品都處于免費公測階段,目前僅有賣AI軟件賺的千萬美元營收。
舉個簡單例子,微軟對單個100 GPU的收費是每小時3美元,生成一個單詞的費用約為0.0003美元,摩根士丹利甚至認為,ChatGPT一次回復可能會花掉2美分,大約是谷歌搜索查詢平均成本的7倍。
這種情況下,Open AI亟須找到商業(yè)化路徑來實現(xiàn)盈利,比如近期官宣了專業(yè)版本ChatGPT Pro,定價將為每月每月42美元(約285人民幣)。同時,微軟還計劃將ChatGPT整合進旗下搜索引擎Bing中,Office產(chǎn)品也將陸續(xù)整合Open AI的其他AIGC產(chǎn)品。
微軟投資OpenAI的邏輯也很好理解,生成式AI的大量資金最終往往都流向了基礎(chǔ)設施層——以AWS、Azure、GCP為主的云廠商,以及以英偉達為代表的GPU廠商。應用層廠商將大約20%~40%的收入用于推理和模型微調(diào)。
據(jù)A16Z估計,這部分收入通常直接支付給云廠商或第三方模型提供商,第三方模型提供商也會將大約一半的收入用于云基礎(chǔ)設施。因此,總的來看生成式AI總收入的10%~20%都流向了云提供商。
根據(jù)《財富》報道,在OpenAI的第一批投資者收回初始資本后,微軟將有權(quán)獲得OpenAI 75%的利潤直到收回投資成本;當OpenAI賺取920億美元的利潤后,微軟的份額將降至49%。簡單來說,OpenAI把公司借給微軟,借多久取決于OpenAI賺錢的速度。老牌巨頭與科技新星的強強聯(lián)手,微軟希望在下一個AI十年向谷歌及其他科技巨頭發(fā)起挑戰(zhàn)。
Anthropic:含著金鑰匙出生的新生代選手
很多人覺得ChatGPT會顛覆搜索引擎,微軟宣布旗下所有產(chǎn)品將全線整合ChatGPT之后,谷歌也開始開發(fā)自家的對話模型。
去年底,AIGC火的時候,谷歌的云部門向AI初創(chuàng)公司Anthropic投資了約3億美元,獲得10%的股份,Anthropic的最新估值逼近50億美元,成了僅次于OpenAI的領(lǐng)域獨角獸。
在此之前,2021年,Anthropic獲1.24億美元A輪融資,2022年獲加密貨幣交易所FTX創(chuàng)始人Bankman-Fried領(lǐng)投的5.8億美元融資,兩輪融資后估值已達40億美元。
據(jù)媒體透露,Anthropic打造的一款ChatGPT產(chǎn)品已經(jīng)處于測試階段。谷歌為了追趕微軟,打算將Anthropic的數(shù)據(jù)密集型計算工作引入數(shù)據(jù)中心。相似的味道出現(xiàn)了,Anthropic近日宣布谷歌云作為“首選云提供商”,共同開發(fā)AI計算系統(tǒng)。這不能不令人聯(lián)想起三年前,微軟向OpenAI注資10億美元,成為OpenAI的獨家云提供商。
Anthropic和ChatGPT開發(fā)公司OpenAI關(guān)系曖昧,前者的創(chuàng)始人大部分都是從OpenAI離職的的幾位高管:2020年底,OpenAI的早期員工Dario Amodei帶著10名員工加入“硅谷叛徒”俱樂部,拿著1.24億美元創(chuàng)辦Anthropic。
目前正在開發(fā)通用人工智能聊天機器人Claude,Anthropic 將拿著這筆新融資繼續(xù)計算密集型研究,來開發(fā)可操控、可解釋且穩(wěn)健的大規(guī)模人工智能系統(tǒng),與此同時,谷歌云部門將提供計算能力和先進的人工智能芯片,Anthropic 計劃使用這些芯片來訓練和部署其未來的人工智能產(chǎn)品。
Hugging face:主打社區(qū)的成長型選手
Hugging Face是一家非?;钴S的人工智能創(chuàng)業(yè)公司,早期憑借 Transformers 模型庫和非常強大且活躍的人工智能社區(qū)被業(yè)內(nèi)外關(guān)注。
創(chuàng)始人Clément Delangue來自法國,從17歲開始連續(xù)創(chuàng)業(yè),又折騰過好幾個創(chuàng)業(yè)公司。Hugging Face最開始的方向是對話機器人,從Betaworks和杜蘭特等拿到天使融資,但項目并沒有多大起色。
2018年,谷歌發(fā)布基于transformer機器學習方法的自然語言處理預訓練模型BERT,標志人工智能你如了大煉模型參數(shù)的預訓練模型。之后他們?yōu)榱擞柧殭C器人的NLP能力,開發(fā)了一個部署機器學習模型的底層庫,并在GitHub 上開源,趕上Transformer這波潮流,一下子就火了。
就像存放Git repo的地方叫Github,在 Hugging Face Hub,可以找到上萬個已經(jīng)訓練好的模型,用戶可以在 Hugging Face上托管和共享ML模型、數(shù)據(jù)集,也可以自己搭建部署新的模型。
關(guān)于自然語言處理的論文很多,而且每個實驗室所開發(fā)出來的模型,如果要移植到自己的應用程式上面也很困難,Hugging Face試圖解決這類的問題。他們把這些不同架構(gòu)的模型,包成規(guī)格統(tǒng)一的 API ,讓工程師可以更容易使用。
除此以外,Hugging Face提供的Library讓用戶更方便地使用Transformer做自然語言處理的應用程式,其中,最常用到的神器比如Transformer、Tokenizers和Datasets,能夠提供開發(fā)策略,進行前后處理資料收集等功能。
完整的生態(tài)系和社群讓人們覺得,幾乎可以只使用Hugging Face,就做完大部分最困難的Transformer。
截至目前,Hugging Face 上共有近13.5萬個預訓練模型,在 GitHub 上擁有超過 1660名貢獻者,54000名用戶,81000顆stars和18000次forks,平均每天有超過5萬人從 Hugging Face下載模型。
2019年底,Lux Capital的Brandon Reeves遇到Delangue,投了8000萬美元。截至2022年5月,Hugging Face獲得1億美元C輪融資,由Lux Capital領(lǐng)投,Sequoia US、Coatue 等跟投。
目前Hugging Face目前有數(shù)千名客戶和機構(gòu),包括微軟、英特爾、高通、谷歌和彭博社等。雖然上一年收入還不到1000萬美元,但上一輪融到的4000萬美元依然存放在公司銀行賬戶,并且據(jù)透露這家公司在去年年中已接近盈虧平衡,估值達到20億美元。
Jasper:典型的面向PLG選手
ChatGPT之前,Jasper才是一度最被看好的“ AI 文字生成”工具。它能用來編寫視頻腳本、廣告營銷文本額電子郵件,以及其他具有重復性特征的文字工作。
這是一家成立在2021年的年輕公司。創(chuàng)始人Rogenmoser 認為Jasper是激進的,最初的想法是想做一個招聘軟件,后來和朋友船板了一家小型營銷公司,為網(wǎng)站內(nèi)容、Facebook 廣告和搜索引擎優(yōu)化提供文案服務。Rogenmoser 和他的朋友都不具備這些技能,所以他們更多是找外包。
那時候,Rogenmoser在Twitter上看到人們談論 GPT-3,這一模型在AI圈內(nèi)十分火熱,Rogenmoser和他的合伙人們抓住了這個風口,制作了一個對話式AI的原型,并把它賣給企業(yè)用戶。
創(chuàng)立一年團隊只有9人,10個月后擴大到160人。當時The Information報道,預計年營收將超過6000萬,同年10月,Coatue 與 Insight Partners、Bessemer Venture Partners 等公司一起參與了8500萬美元的A輪融資,Jasper成了歷史上最快達到獨角獸的公司之一。
去年下半年,Jasper又獲得1.25億美元融資,身價達到15億美元,與此同時它的客戶也達到10萬名,資本市場對 Jasper 的歡迎一目了然。首席執(zhí)行官 Dave Rogenmoser 稱,融資用于打造Jasper的核心產(chǎn)品、改善客戶體驗、并將 Jasper 的技術(shù)引入更多應用程序,比如新推出的圖像生成產(chǎn)品Jasper Art。
ChatGPT是Open AI 基于自己的 GPT-3 大模型所做的聊天機器人應用;而Jasper的技術(shù)底層也是 OpenAI 的 GPT-3。也就是說,Jasper 是在競爭對手的平臺上,建立了自己的業(yè)務,這也是它未來發(fā)展的風險來源之一,意味著,對于Jasper的客戶來說,他們是否會持續(xù)使用,很大程度在于使用效果有沒有比對手更好,以及OpenAI開放的API是否能被不同地區(qū)接受。
Inflection AI:有點東西但不多型選手
Inflection AI是一家在通用建模領(lǐng)域的私人企業(yè),作為一家機器學習初創(chuàng)公司,它開發(fā)了多個神經(jīng)網(wǎng)絡,可以優(yōu)化處理自然語言文本,提供AI人機交互領(lǐng)域的一站式解決方案。
據(jù)了解,這家公司在去年5月獲得了2.25億美元的A輪融資,資金來源尚不清楚,估值超過12億美金。Inflection的融資規(guī)模,反映了構(gòu)建復雜AI系統(tǒng)的高成本。據(jù)估計,OpenAI 已花費數(shù)百萬美元開發(fā) GPT-3,該公司的系統(tǒng)可以在給出提示的情況下生成類似人類的文本。
Mustafa Suleyman是Inflection AI的CEO兼聯(lián)合創(chuàng)始人,同時也是DeepMind AI實驗室的創(chuàng)始成員,并在谷歌收購 DeepMind 6年之后,成為谷歌人工智能產(chǎn)品與政策副總裁,
在去年的CNBC簡介中,Suleyman希望構(gòu)建的產(chǎn)品能夠簡化人們與機器交流的需要,利用人工智能幫助人類與計算機“對話”。他聲稱Inflection在開發(fā)一套新技術(shù),最終將使任何人都能用簡單的語言與計算機交談。目前尚不清楚Inflection會將其產(chǎn)品出售給哪些潛在客戶、產(chǎn)品的價格和面世時間也未公布。
將人類意圖翻譯成計算機語言,即使是當今最好的聊天機器人和語音助手也沒有兌現(xiàn),但Suleyman認為,人工智能的未來進步將在未來五年內(nèi)實現(xiàn)直觀的人機界面。用聯(lián)合創(chuàng)始人Dario Amodei的話來說是“探索機器學習系統(tǒng)的可預測擴展特性”。
stability.ai:開源、開放的技術(shù)型選手
同樣是去年10月,爆火的文本到圖像模型Stable Diffusion背后的創(chuàng)業(yè)公司Stability AI 宣布,在Coatue、Lightspeed Venture Partners和O'Shaughnessy Ventures領(lǐng)導的一輪融資中籌集了1.01 億美元。這輪融資后,Stability AI公司的估值已經(jīng)到達10億美元。
這家公司的身世也很有意思。在AI技術(shù)研究受制于有限的算力和資金的時候,Open AI為AI研究人員提供了相對自由的研究環(huán)境,以及大量的資金與算力做支撐,可以幫助技術(shù)研發(fā)部門專心深入AIGC。
但由于2020年時的內(nèi)部問題,造成無法支撐非盈利項目的后續(xù)運營,導致大批核心研究員出走,基于Open AI的企業(yè)價值理念,曾擔任工程師、分析師的Emad Mostaque創(chuàng)辦了Stability AI,希望延續(xù)非盈利模式的、同時更加開放的經(jīng)營理念。
Stable Diffusion是一個根據(jù)文字生成圖片的AI技術(shù)模型,只需要幾秒鐘的時間,就可以生成分辨率、清晰度高,同時不失真實性和藝術(shù)性的圖片。它有一個由4000多個 Nvidia A100 GPU 組成的集群,用來訓練 AI 系統(tǒng),其中就包括 Stable Diffusion。它的維護成本相當高,Stability AI 的運營和云計算支出超過了 5000 萬美元。
Mostaque表示,本輪融資的資金將用于為客戶部署更大規(guī)模的 Stable Diffusion 的定制版本,并會投資于更多的算力上。這筆資金還將用于雇傭更多的員工,預計在未來的一年內(nèi),公司的員工將從100人增加到300人左右。
除了 Stable Diffusion,Stability AI 還有其他可商業(yè)化的項目正在進行中,包括生成音頻、語言、"3D" 甚至視頻的人工智能模型。其中之一就是目前已經(jīng)公開的 "Dance Diffusion",它可以通過對數(shù)百小時的現(xiàn)有歌曲進行訓練來生成音樂片段。
參與此輪投資的 Coatue 公司在聲明中表示:"在 Coatue,我們相信開源的人工智能技術(shù)有能力釋放人類的創(chuàng)造力,并實現(xiàn)更廣泛的利益。我們很高興能成為 Stability AI 旅程的一部分,我們期待能看到全球各方用 Stability AI 的技術(shù)創(chuàng)造出什么。"
Character. AI:創(chuàng)始人是谷歌20年老員工
Character.AI的創(chuàng)始人Noam Shazeer 是前谷歌首席軟件工程師,也是Transformer論文作者之一。此前他在2000年底加入谷歌,直到2021年最終離職,是谷歌最重要的早期員工之一。
另一位聯(lián)合創(chuàng)始人Daniel De Freitas也是前谷歌研究人員,他們之前曾在該公司的內(nèi)部 LaMDA 系統(tǒng)上工作。這家公司成立于2021年10月,對于這家公司的組織架構(gòu)和業(yè)務模式,外界能獲取的信息量較少。據(jù)報道,Character AI已經(jīng)創(chuàng)建了一個基于 LaMDA 的神經(jīng)語言模型聊天機器人Web應用程序,能夠生成類似人類的文本響應并參與上下文對話。
簡單來說,產(chǎn)品為用戶提供了一種與虛擬聊天機器人chatbot,任何人都可以在其中與虛擬的唐納德特朗普、埃隆馬斯克、臭名昭著的“絕命毒師”沃爾特懷特和許多其他角色聊天。
據(jù)The Information報道,這家公司目前在尋求籌集2.5億美元融資。目前投資者包括Gmail創(chuàng)始人Paul Buchheit和前GitHub首席執(zhí)行官Nat Friedman,估值也達到10億美元左右。報道稱,它已經(jīng)與包括紅杉資本在內(nèi)的頂級風險投資公司進行了會談,討論仍處于早期階段,他們是否會成功還有待觀察。
Adept:另辟蹊徑的黑馬型選手
去年4月,Adept AI成立,業(yè)務專注于創(chuàng)建一種基于與文本生成工具相同核心技術(shù)的機器人,由首席科學家Ashish Vaswani和CTO Niki Parmar,以及現(xiàn)任CEODavid Luan三人共同創(chuàng)立。目前市場推測估值在10億美元左右。
他們都曾是谷歌大腦的核心員工,其中Luan是GPT-2、PaLM 的論文作者之一,參與了 GPT-3 的部分工作;CTO和首席科學家都是Transformer 論文作者之一,還聚集了一大批曾在谷歌工作的技術(shù)人才。
這家公司去年從 Addition和Greylock 等獲得融資 6500萬美元,投資人包括 Scott Belsky(Behance 創(chuàng)始人)、Howie Liu(Airtable 創(chuàng)始人)、Chris Re(斯坦福)、Andrej Karpathy(特斯拉 Autopilot 負責人)和 Sarah Meyohas,Luan打算把這筆資金將用于通過一種既能讀寫又能操作的轉(zhuǎn)換器,進一步優(yōu)化智能技術(shù)。
談及離開谷歌創(chuàng)業(yè)的原因,Luan認為,在谷歌,我們訓練出了越來越大的 Transformer,目標是最終構(gòu)建一個可以支持所有 ML 用例的模型。但過程中,團隊發(fā)現(xiàn)了一個主要限制:像 GPT-3 這樣的模型可以寫出很棒的散文,但它們無法在數(shù)字世界中采取行動。
你不能要求 GPT-3 訂機票,給供應商開支票,或者進行科學實驗,或者使用Airtable、Photoshop、ATS、Tableau等工具完成工作。所以有媒體指出,Adept的目標更像是協(xié)作智能,它選擇了和其他通用人工智能公司不同的道路,前者是建立AI工具,來幫人類完成任務。這種方式更容易實現(xiàn)。
“變壓器及其應用代表了近代史上邁向通用智能的最大一步。但我們認為,真正的通用智能需要能夠行動的變形金剛——而不僅僅是讀寫。”Luan說,“在 Adept,我們正在訓練一個模型來使用人們今天使用的所有軟件工具和 API。”
百度:來自中國本土的重量級選手
主打AI的百度,絕不會錯過這場科技盛宴。雖然ChatGPT在國內(nèi)已經(jīng)把AIGC推向爆發(fā)前夜,不過目前阿里、騰訊、字節(jié)等巨頭,及科大訊飛、天娛數(shù)科等細分領(lǐng)域企業(yè)的布局大多仍是圍繞提高工作效率上。
據(jù)了解,早在2019年,百度已經(jīng)發(fā)布國內(nèi)首個正式開放的預訓練模型ERNIE1.0,并持續(xù)投入于大模型的研發(fā)升級;2021年初,ERNIE 3.0升級為知識增強千億大模型鵬程-百度文心。
文心大模型基于大規(guī)模知識和海量無結(jié)構(gòu)數(shù)據(jù)融合深度學習,吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語義等方面的知識,并通過持續(xù)學習不斷提升理解能力和生成能力,實現(xiàn)視頻、歌詞、藝術(shù)畫等創(chuàng)意作品的自動生成。
去年末,文心大模型迎來全面升級。在模型層一次性發(fā)布11個大模型,涵蓋基礎(chǔ)大模型、任務大模型、行業(yè)大模型的三級體系;工具與平臺層,升級大模型開發(fā)套件、文心API和提供全流程開箱即用大模型能力的EasyDL和BML開發(fā)平臺;新增產(chǎn)品與社區(qū)層,包括AI藝術(shù)與輔助創(chuàng)作平臺“文心一格”、產(chǎn)業(yè)級搜索系統(tǒng)“文心百中”和旸谷社區(qū)面向個人用戶。
ChatGPT之后,近日百度也推出大模型新項目“文心一言”,公布消息當天,港股股價在一天內(nèi)大漲15%,美股股價漲幅也達到了12%。據(jù)百度確認,文心一言計劃于今年3月完成內(nèi)測,面向公眾開放。而按照谷歌和微軟加快推出類 ChatGPT 服務的節(jié)奏,文心一言開放內(nèi)測還有可能提前。多家企業(yè)宣布介入文心一言,這也推動了百度的股價上漲。
Synthesia:主打視頻的硅谷型選手
Synthesia在2021年末就宣布B輪融資結(jié)束,由硅谷風險投資公司Kleiner Perkins領(lǐng)頭,GV和Firstmark Capital、LDV Capital、歐洲最大的科技創(chuàng)業(yè)孵化平臺Seedcamp以及MMC Ventures參投。本輪融資完成后,Synthesia融資總額達5000萬美元。
早在2021年4月,Synthesia就完成籌集1250萬美元的A輪融資,官方至今并未透露公司的具體估值。隨后新增部分功能,用戶可以輕松創(chuàng)建自己的虛擬人物形象。目前,Synthesia有1000個自定義人物形象。里帕貝利以安永會計事務所為例,它利用Synthesia平臺創(chuàng)建虛擬形象,制作視頻,與35家合作伙伴進行內(nèi)部通信和交流。
不過具體到產(chǎn)品功能上,有媒體介紹,早期Synthesia能將文本或幻燈片轉(zhuǎn)為視頻,配有會說話的角色形象。“用戶可基于預設虛擬人物,或上傳視頻創(chuàng)建自己的虛擬形象。此外,用戶還能上傳語音素材,轉(zhuǎn)化成所需內(nèi)容。”
由于Synthesia認為幾乎所有網(wǎng)絡工具都可能被利用進行不當用途,所以這家公司只為企業(yè)客戶提供服務,而不是面向個人。Synthesia表示,客戶主要使用產(chǎn)品工具來制作培訓視頻,不過這樣的用戶群體和創(chuàng)始人Victor Riparbelli想的并不一樣。
“以前,人人都可以制作幻燈片或編寫Word文檔,現(xiàn)在他們還可以自己創(chuàng)建視頻。從人工智能技術(shù)的角度來看,這是我們快速發(fā)展的關(guān)鍵所在。”他認為比起視頻制作部門的大批用戶,組織內(nèi)部的其他人員才是該工具的超級用戶。
Synthesia進一步開發(fā)虛擬人物形象視頻,使其視覺和感官酷似真人,比如一個不知名的演員,或是自家公司的首席執(zhí)行官。