文|AI鯨選社
每一個(gè)不可預(yù)知的夜晚,都可能會(huì)傳出OpenAI被超越的新聞。這不在6月21日晚又被超越了,Anthropic 推出了目前最聰明、最快和最具個(gè)性化的模型——Claude 3.5 Sonnet 。
公司對(duì)外宣傳該模型可以在各種任務(wù)中媲美甚至超越OpenAI的 GPT-4o。宣稱不同任務(wù)場(chǎng)景能超越Chat-GPT4的不止一家,但敢說(shuō)各種場(chǎng)景超越的還很少見(jiàn)。但這也不能說(shuō)大家實(shí)力都很雄厚,其實(shí)與OpenAI 總是畫餅,作為創(chuàng)業(yè)公司實(shí)力不夠強(qiáng)勁也有關(guān)系。
目前看,OpenAI 的大餅還有Sora、SearchGPT、ChatGPT4o的語(yǔ)音能力等,都是發(fā)了Demo卻沒(méi)有正式上線。布局的業(yè)務(wù)太多,每件事情都是單挑Google、Meta等巨頭,難度可想而知。
大家都不否認(rèn)OpenAI的實(shí)力,但這一年中 ,忙于宮斗的OpenAI,顯然讓很多產(chǎn)品的面市時(shí)間大幅延后。
但拋開(kāi)客觀因素,OpenAI一直也有先發(fā)布Demo視頻吊足大家胃口,實(shí)際產(chǎn)品后續(xù)再說(shuō)的吹牛習(xí)慣。只是眾多競(jìng)爭(zhēng)對(duì)手不斷發(fā)布可實(shí)用的產(chǎn)品,OpenAI 越來(lái)越面臨已經(jīng)被超越的現(xiàn)狀。
多個(gè)核心戰(zhàn)場(chǎng)面臨失守
最新發(fā)布的大模型產(chǎn)品Claude 3.5 Sonnet(中杯),目前顯示在編程評(píng)估、視覺(jué)能力、處理速度和成本效率等方面相比前代產(chǎn)品有顯著改進(jìn)。測(cè)評(píng)榜單顯示,除數(shù)學(xué)方面, Claude3.5都比 GPT-4o 高或者逼近。
跟上一版本中最強(qiáng)的Claude 3 Opus相比,不僅速度提升了200%,成本還直接降低了80%,性價(jià)比可謂十分高。
目前看,除了發(fā)布會(huì)上秒殺蘋果Siri的人機(jī)對(duì)話能力、GPT-4o的語(yǔ)音功能還沒(méi)有上線,Claude 3.5的視覺(jué)理解和文本能力、編程能力等多方面已經(jīng)超越GPT-4o。更讓人吃驚的是,Anthropic的旗艦?zāi)P虲laude 3 Opus才剛剛發(fā)布了3個(gè)月。
很快還有Haiku和Opus(大杯和超大杯)發(fā)布,這迭代速度比OpenAI的ChatGPT不知快了多少。在文生視頻領(lǐng)域,大家是否還記得Sora橫空出世給大家?guī)?lái)的震撼。但那已經(jīng)是2月份的事情,此后Sora音信全無(wú),此后競(jìng)爭(zhēng)對(duì)手如雨后春筍般出現(xiàn)。
先是Pika等AI視頻選手出現(xiàn),然后國(guó)內(nèi)出現(xiàn)很多后起之秀,最大的競(jìng)爭(zhēng)對(duì)手是快手的可靈,發(fā)布即可公測(cè)?,F(xiàn)在不少網(wǎng)友已經(jīng)拿到了內(nèi)測(cè)資格,表現(xiàn)還不錯(cuò)。
官方宣稱,可靈采用了3D時(shí)空聯(lián)合注意力機(jī)制,能夠生成符合物理規(guī)律的大幅度運(yùn)動(dòng)視頻,并模擬真實(shí)世界特性。
可靈大模型生成的視頻分辨率高達(dá)1080p,時(shí)長(zhǎng)最高可達(dá)2分鐘(幀率30fps),且支持自由的寬高比,這些特性是目前眾多用SDXL技術(shù)的偽AI視頻玩家,可望不可及的高度。
很快,Runway公司最近推出了其文生視頻的最新版本—Gen-3 Alpha。Gen-3 Alpha在細(xì)節(jié)豐富度、畫面連貫性、保真度、一致性和動(dòng)態(tài)表現(xiàn)方面都有顯著提升,現(xiàn)在大家猜測(cè),Sora的可控性能達(dá)到Gen-3 Alpha的水平就算不錯(cuò)。
在多模態(tài)領(lǐng)域,OpenAI憑借ChatGPT 4o也并沒(méi)有完全占據(jù)領(lǐng)先優(yōu)勢(shì)。發(fā)布會(huì)上看到4o的酷炫表演,如在232毫秒的時(shí)間內(nèi)做出反應(yīng);可隨時(shí)打斷,開(kāi)啟新話題;感受用戶的呼吸節(jié)奏;解釋方程式、圖表的推理過(guò)程;識(shí)別圖片中人物的情緒等,是不是提前錄制的好的發(fā)布視頻都不得而知。
此前的Google發(fā)布會(huì),雖說(shuō)Gemini被搶先發(fā)布的ChatGPT 4o搶了風(fēng)頭,但其實(shí)際上Gemini Nano多模式功能還比較落地。
借助多模態(tài)AI項(xiàng)目Project Astra,Google希望手機(jī)端用戶也能通過(guò)文本、圖像、聲音和口語(yǔ),和AI互動(dòng)。比如拍一張?zhí)O果的圖片,問(wèn)下AI這是什么,能做什么。
山姆奧特曼是吹牛大王?
過(guò)去一年中,OpenAI最實(shí)在的更新,可能是直接全量上線的DAll.E,文生繪圖領(lǐng)域早就有Midjourney、Stable diffusion等重磅玩家,所以DAll.E直接悄悄上線。
發(fā)布近一年的DAll.E模型,在一眾AI繪畫產(chǎn)品中語(yǔ)意理解無(wú)出其右,但是畫面精細(xì)度、美觀度、接近真人攝影等近一年都沒(méi)有改善,最大的更新是可編輯部分畫面。
DAll.E模型也并非沒(méi)有貢獻(xiàn),和Sora這款期貨產(chǎn)品相同,最大的貢獻(xiàn)可能是讓市場(chǎng)認(rèn)知到,Di-T架構(gòu)是文生圖片/視覺(jué)是最先進(jìn)理念。圖形擴(kuò)散模型diffusion和語(yǔ)言大模型LLM構(gòu)成的Di-T架構(gòu)代表著未來(lái)發(fā)展方向。
當(dāng)下AI市場(chǎng)都在向Di-T模式的多模態(tài)進(jìn)發(fā),爭(zhēng)先推出產(chǎn)品。
比如,國(guó)內(nèi)的騰訊混元大模型正在基于ST-DiT升級(jí)架構(gòu),混元文生圖由傳統(tǒng)的U-Net升級(jí)為DiT架構(gòu),參數(shù)量提升十幾倍;混元文生視頻也是國(guó)內(nèi)較早使用DiT架構(gòu)的玩家,視頻生成時(shí)長(zhǎng)達(dá)到16s。Sora是發(fā)布之際就提到自己能生成60S的視頻,并能模擬真實(shí)的物理世界。顯然遠(yuǎn)強(qiáng)于市面上的競(jìng)爭(zhēng)對(duì)手,但Sora自己拿著生成好的案例宣傳,一直不給公測(cè),這讓很多人懷疑山姆奧特曼在吹牛。
縱觀來(lái)看,OpenAI的發(fā)布會(huì),很多并沒(méi)有按照自己的研發(fā)節(jié)奏發(fā)布,而是刻意為了狙擊競(jìng)爭(zhēng)對(duì)手。最明顯的案例就是ChatGPT4o的發(fā)布,這款產(chǎn)品比Sora略好,是個(gè)半期貨產(chǎn)品。如何理解半期貨,就是ChatGPT4o宣稱的比ChatGPT4反應(yīng)快、各項(xiàng)評(píng)測(cè)任務(wù)表現(xiàn)更好等能力都有,但是語(yǔ)音能力說(shuō)過(guò)兩個(gè)星期推送,一直沒(méi)有更新。
當(dāng)時(shí)應(yīng)該是OpenAI洞悉了Google I/O發(fā)布會(huì)最大的亮點(diǎn),應(yīng)該是大模型Gemini的語(yǔ)音交互能力,所以提前一天開(kāi)發(fā)布會(huì),發(fā)布了能力相同但演示效果更好的產(chǎn)品,狙擊Google的發(fā)布會(huì)熱度。為何一家初創(chuàng)公司如此關(guān)注競(jìng)爭(zhēng),而并非努力迭代自己的產(chǎn)品呢?
實(shí)際上,主要原因是由于OpenAI是一家十分依賴融資的公司。2023上半年,OpenAI以103億美元完成B+輪融資,成為AI賽道獲最大融資額的企業(yè),目前OpenAI的融資總額達(dá)到了140億美元,未來(lái)還要完成1000億美元的融資。
這融資體量說(shuō)是吞金獸也差不多,相比融資能力,OpenAI造血能力就差得多。 據(jù)外媒The Information報(bào)道,OpenAI首席執(zhí)行官山姆·奧特曼告訴員工,在過(guò)去六個(gè)月左右的時(shí)間里,OpenAI的年化收入增長(zhǎng)了一倍多,達(dá)到34億美元。
這一數(shù)字在2023年底為16億美元。所以每年賺的不多,但投入巨大是OpenAI的基本面。山姆奧特曼自然也知道實(shí)情,這就造成OpenAI必須占據(jù)市場(chǎng)焦點(diǎn)。不僅需要讓市場(chǎng)的玩家都顯得落后,還希望市場(chǎng)認(rèn)為他未來(lái)不可限量,這樣投資資源就都會(huì)向他聚攏。
Sora就是為了這種取得預(yù)期,早早發(fā)布會(huì)后,市場(chǎng)對(duì)其膜拜程度又再攀高峰。
但在內(nèi)測(cè)使用中,發(fā)現(xiàn)這款產(chǎn)品十分不可控,而且訓(xùn)練成本高昂。在好萊塢編劇的定制使用中,影片中的氣球人需要幾百次抽卡,才能找到能用的畫面,而且使用的算力成本高昂。
現(xiàn)在這個(gè)時(shí)候,群雄四起,顯然OpenAI需要拿出 GPT 5 才能鎮(zhèn)住場(chǎng)子。
這不Claude 3.5 Sonnet 發(fā)布后,就有市場(chǎng)消息傳出GPT 5 大概3個(gè)月后發(fā)布。這是不是OpenAI為了狙擊Anthropic ,又故意放出的煙霧彈呢?
OpenAI的多事之秋
“前段時(shí)間和負(fù)責(zé)人聊天,我都感覺(jué)是奧特曼在吹牛逼, GPT 5 肯定沒(méi)這么驚艷,或者 GPT 5 驚不驚艷已經(jīng)不重要了。
因?yàn)镚PT 4 已經(jīng)滿足了大部分商業(yè)需求,升級(jí)對(duì)于商業(yè)模式本身已經(jīng)沒(méi)那么大的變化了?!贝饲埃C豹移動(dòng)董事長(zhǎng)傅盛曾在演講中如此評(píng)價(jià)奧特曼的風(fēng)格,認(rèn)為他非常善于片Pr,推特沒(méi)事發(fā)幾條,讓OpenAI一直處于有利的輿論位置。
當(dāng)然,說(shuō)奧特曼只會(huì)動(dòng)嘴皮子也不客觀。對(duì)于山姆奧特曼來(lái)說(shuō),這一年最大的挑戰(zhàn),莫過(guò)于圍繞商業(yè)化和AI安全可控的問(wèn)題,產(chǎn)生的團(tuán)隊(duì)宮斗。2023年11月,這場(chǎng)內(nèi)斗達(dá)到了高潮,Altman被解雇并短暫離開(kāi)公司。
然而,經(jīng)過(guò)一段時(shí)間的調(diào)查和調(diào)解,在微軟的支持下,OpenAI宣布對(duì)Altman和總裁格雷戈里·布羅克曼的信任,并決定讓Altman重返董事會(huì),但團(tuán)隊(duì)的裂痕已經(jīng)形成。
現(xiàn)在,形成Altman坐鎮(zhèn)指揮,美女技術(shù)官M(fèi)ira Murati出鏡做發(fā)布會(huì),而首席科學(xué)家Ilya Sutskever離職創(chuàng)業(yè)的情況。Ilya Sutskever在2024年6月19日宣布離職OpenAI后,宣布創(chuàng)辦了一家名為“安全超級(jí)智能”(Safe Superintelligence,簡(jiǎn)稱SSI)的新公司,兩位聯(lián)合創(chuàng)始人分別是前蘋果AI高管、Y-Combinator的合伙人Daniel Gross和前OpenAI技術(shù)團(tuán)隊(duì)成員Daniel Levy。Ilya主打的安全超級(jí)智能,在某種程度上是對(duì)OpenAI 初心的回歸。
OpenAI一直堅(jiān)持時(shí)非營(yíng)利性組織,奧特曼本人也不是絕對(duì)持股。但OpenAI目前商業(yè)化的腳步卻在提速,導(dǎo)致內(nèi)部各種聲音爭(zhēng)議不絕。
這不是OpenAI創(chuàng)始團(tuán)隊(duì)的第一次出走,剛剛發(fā)布Claude 3.5 Sonnet的公司Anthropic,也是由OpenAI(ChatGPT的開(kāi)發(fā)機(jī)構(gòu))前研究副總裁達(dá)里奧·阿莫迪(Dario Amodei)和其他前OpenAI員工在2021年共同創(chuàng)辦,獲得了亞馬遜和谷歌的資金支持。
SSI和Anthropic都是OpenAI的核心團(tuán)隊(duì)成員創(chuàng)辦,打著超級(jí)安全的旗號(hào)出去創(chuàng)業(yè),但最終安全不安全沒(méi)有看出來(lái),產(chǎn)品卻都對(duì)著ChatGPT打,經(jīng)常一更新,就出現(xiàn)某一方面達(dá)到或者超越ChatGPT。
超級(jí)人工智能不能一步到達(dá)
山姆奧特曼面臨的憂患不止如此,埃隆馬斯克也盯著OpenAI發(fā)大招,畢竟OpenAI就是馬斯克取得名字,但當(dāng)OpenAI不再朝著開(kāi)源前進(jìn)時(shí),憤怒的馬斯克自己創(chuàng)辦了開(kāi)源大模型公司Grok,并在近期獲得60億美元的融資。
團(tuán)隊(duì)動(dòng)蕩之際,OpenAI很多產(chǎn)品推進(jìn)速度變慢,也情有可原。目前還有GPT桌面版、與蘋果的合作、支持微軟的Copilot等任務(wù),相比Sora那些劃時(shí)代的產(chǎn)品,這些重要的商業(yè)合作其實(shí)也并不簡(jiǎn)單。
當(dāng)下,奧特曼急要重塑團(tuán)隊(duì)?wèi)?zhàn)斗力,將目前已經(jīng)發(fā)布的期貨產(chǎn)品推向市場(chǎng),以及更早的推出GPT5,重新拉開(kāi)與市場(chǎng)上起他玩家的距離,才能保證OpenAI繼續(xù)被期許,以及最被崇拜的明日之星。