正在閱讀:

OpenAI和谷歌AI多模態(tài)重磅更新,生成式AI之戰(zhàn)升級(jí)第二輪

掃一掃下載界面新聞APP

OpenAI和谷歌AI多模態(tài)重磅更新,生成式AI之戰(zhàn)升級(jí)第二輪

AI大戰(zhàn)第二輪開始了。

圖片來(lái)源:界面新聞匡達(dá)

文|硅谷101

ChatGPT以及硅谷AI大戰(zhàn)終于升級(jí),長(zhǎng)出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后發(fā)布重磅AI多模態(tài)更新,從基于文字交互的ChatGPT全面升級(jí),實(shí)現(xiàn)了“聲音,文字和視覺(jué)”三者全面結(jié)合的人工智能新交互功能,而這,也標(biāo)志著硅谷科技巨頭的生成式AI之戰(zhàn)正式進(jìn)入到第二輪。新一輪競(jìng)爭(zhēng),只會(huì)更加激烈、更加全面。

大家好,歡迎來(lái)到硅谷101,這次我們聊聊這次多模態(tài)AI之戰(zhàn)對(duì)科技巨頭們的商業(yè)版圖意味著什么變化,以及生成式AI智能技術(shù)的下一步會(huì)發(fā)生什么。那我們首先來(lái)快速?gòu)?fù)盤一下OpenAI和谷歌發(fā)布的多模態(tài)重磅更新。

01、OpenAI GPT-4o:低延遲語(yǔ)音交互,《Her》成為現(xiàn)實(shí)

OpenAI這次的發(fā)布時(shí)長(zhǎng)很短,全程就26分鐘,發(fā)了一款產(chǎn)品GPT-4o。

GPT-4o的“o”是拉丁詞根“Omni”,意思是“所有的”、“全部的”或“全能”,意味著文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出的能力,這樣的“全面”多模態(tài)能力。

說(shuō)實(shí)話,2024年AI之戰(zhàn)會(huì)升級(jí)到多模態(tài)產(chǎn)品,這個(gè)預(yù)期在2023年已經(jīng)是行業(yè)共識(shí),我們?cè)谥岸嗥谝曨l都提到過(guò),僅僅是文字的prompt很難表達(dá)人類的意圖,非常低效也非常受限,所以有語(yǔ)音和視覺(jué)的加持的多模態(tài)AI交互是人類通往AGI道路上的必經(jīng)之路。但當(dāng)多模態(tài)AI交互真的到來(lái)的時(shí)候,我覺(jué)得還是會(huì)被震撼到。

OpenAI說(shuō),GPT-4o可以在232毫秒內(nèi)響應(yīng)音頻輸入,平均為320毫秒,這已經(jīng)達(dá)到人與人之間的響應(yīng)時(shí)間。也就是說(shuō),AI語(yǔ)音對(duì)話的交互已經(jīng)能做到非常低延遲、很絲滑的像真人一樣對(duì)話了。

GPT-4o發(fā)布之前,ChatGPT的語(yǔ)音模式功能有著好幾秒的延遲,這讓整個(gè)交互體驗(yàn)非常差,這是因?yàn)橹暗腉PT系列的語(yǔ)音功能是好幾個(gè)模型的拼合,先把聲音轉(zhuǎn)錄成文本,再用GPT大模型接受后,輸出文本,然后再用text to speech模型生成音頻,但這其中會(huì)損失非常多的信息,比如說(shuō)語(yǔ)調(diào),語(yǔ)氣中的情緒情感,多個(gè)說(shuō)話人的識(shí)別,背景的聲音等等,所以語(yǔ)音功能會(huì)很慢很遲緩也很基礎(chǔ)。

而這次,GPT-4o是OpenAI專門訓(xùn)練的跨文本、語(yǔ)音和視覺(jué)的端到端新模型,所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理,這使得GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,是兼具了“聽覺(jué)”、“視覺(jué)”的多模態(tài)模型,同時(shí)還支持中途打斷和對(duì)話插入,且具備上下文記憶能力。

這樣的多模態(tài)模型是OpenAI首次發(fā)布,表示還有很多探索的空間,但目前展現(xiàn)出的功能已經(jīng)讓人驚喜。比如說(shuō),在現(xiàn)場(chǎng)demo中,GPT-4o可以理解人們的呼吸急促聲音并用輕松的方式安慰人類。

它可以識(shí)別人臉表情,以及辨認(rèn)情緒。

它可以隨意變換語(yǔ)氣和風(fēng)格來(lái)講故事。

同時(shí),GPT-4o還可以通過(guò)硬件設(shè)備通過(guò)視覺(jué)來(lái)分析人們正在從事的工作、看的書,可以引導(dǎo)人們解題,可以切換語(yǔ)言實(shí)時(shí)翻譯,也能通過(guò)視覺(jué)識(shí)別給它的信息并且給出非常擬人化的反饋。

說(shuō)實(shí)話,在直播發(fā)布會(huì)中直接現(xiàn)場(chǎng)演示這件事情是很需要勇氣的,因?yàn)橐坏┏鲥e(cuò)會(huì)引發(fā)非常大的公關(guān)災(zāi)難,但OpenAI有這個(gè)勇氣去直接現(xiàn)場(chǎng)演示直播,給人的感覺(jué)非常自信。除了現(xiàn)場(chǎng)的演示之外,OpenAI還在官網(wǎng)上放出了更多更復(fù)雜場(chǎng)景的交互,展現(xiàn)出AI多模態(tài)的更多的潛力。

比如說(shuō),在官網(wǎng)上OpenAI做了17個(gè)案例展示,包括了照片轉(zhuǎn)漫畫、3D物體合成、海報(bào)創(chuàng)作、角色設(shè)計(jì)等樣本。

此外,OpenAI總裁Greg Brockman的演示視頻中,GPT-4o可以識(shí)別出他所穿的衣服、身處的環(huán)境、可以識(shí)別出Brockman的情緒和語(yǔ)氣和房間里正出現(xiàn)的新動(dòng)作,但最讓外界關(guān)注的一個(gè)動(dòng)作是,讓兩臺(tái)運(yùn)行GPT-4o的設(shè)備進(jìn)行語(yǔ)音或視頻交互。

也就是說(shuō),OpenAI的GPT-4o多模態(tài)給了AI交互的聲音和視覺(jué),不僅升級(jí)了人和AI之間的交互,也升級(jí)了AI和AI之間的交互,這樣的交互更自然,更擬人,有著更大空間的應(yīng)用場(chǎng)景。而且整個(gè)AI的聲音和語(yǔ)言非常的靈動(dòng),機(jī)器人感比較弱,會(huì)開玩笑會(huì)安慰人會(huì)害羞,難怪很多人在OpenAI發(fā)布會(huì)之后直呼,那部講述人類和AI語(yǔ)音助手Samantha電影《Her》的時(shí)代真的到來(lái)了。

戴雨森

真格基金管理合伙人

我自己是非常激動(dòng)的啊。因?yàn)槲乙恢庇X(jué)得我們對(duì)于 AI 落地的應(yīng)用預(yù)期,其實(shí)不一定是準(zhǔn)確的,大家可能在AI一開始的時(shí)候,覺(jué)得生產(chǎn)力的場(chǎng)景也很直接,但是現(xiàn)在可能發(fā)現(xiàn),很多(AI)Agent(人工智能體)的落地反而比較難,但是感性的角度反而會(huì)更加容易一點(diǎn)。

對(duì)于絕大部分人來(lái)講,生活其實(shí)是單調(diào)的,或者是一成不變的,是乏味的。那這個(gè)時(shí)候其實(shí)不管像 《Her》 里面說(shuō)所謂的這種,男女情感的表達(dá),還是說(shuō)一種陪伴、一種傾聽,其實(shí)都是很稀缺的一種資源或內(nèi)容。當(dāng) AI 能夠做到以一個(gè)低延遲、低成本,很好的形式去表達(dá)這種情緒價(jià)值的時(shí)候,這可能會(huì)對(duì)我們的社交社會(huì)帶來(lái)很大的影響,也會(huì)帶來(lái)很大的這個(gè)機(jī)會(huì)。

隨著AI能力的提升,圖靈測(cè)試這個(gè)概念會(huì)越來(lái)越模糊化,電影Her中描述的場(chǎng)景實(shí)現(xiàn)幾乎是早晚的事。但AI多模態(tài)帶來(lái)的不僅僅是情感上的陪伴和交互,更多的是整個(gè)工作場(chǎng)景和生態(tài)上的顛覆。

就在OpenAI發(fā)布會(huì)的一天之后,谷歌發(fā)布的一系列多模態(tài)更新,進(jìn)一步的說(shuō)明了AI多模態(tài)能帶來(lái)的顛覆性潛力。

02、谷歌的戰(zhàn)書:Project Astra及"120次AI"的全生態(tài)升級(jí)

對(duì)比起OpenAI的發(fā)布會(huì),谷歌的發(fā)布會(huì)就更像一個(gè)巨頭了:長(zhǎng)達(dá)兩小時(shí),在各個(gè)生態(tài)方向用AI發(fā)力。連CEO Sundar Pichai自己也說(shuō),整場(chǎng)Keynote的演講稿里總共提了120次“AI”,表明谷歌目前所有的工作都圍繞多模態(tài)AI模型Gemini來(lái)展開。

首先,直接與OpenAI前一天發(fā)布的GPT-4o對(duì)標(biāo)的是Project Astra。

2.1 語(yǔ)音助手Project Astra

雖然谷歌不是現(xiàn)場(chǎng)演示,不像OpenAI那么敢,畢竟巨頭還是需要保守一些,但從谷歌的demo視頻來(lái)看,如果谷歌的demo是實(shí)時(shí)生成的,谷歌的Gemini多模態(tài)模型比起OpenAI在功能上也不算弱。

谷歌DeepMind負(fù)責(zé)人Demis Hassabis在臺(tái)上宣布了Project Astra,Project Astra基于Gemini多模態(tài)大模型,是一個(gè)實(shí)時(shí)、多模態(tài)的人工智能助手,可以通過(guò)硬件設(shè)備“看到”世界,知道東西是什么以及你把它們放在哪里,并且可以回答問(wèn)題或幫助你做幾乎任何事情。在谷歌的demo視頻中,谷歌倫敦辦事處的一名工作人員用Astra識(shí)別自己的地理位置,找到丟失的眼鏡,檢查代碼等等。

如果谷歌demo是實(shí)時(shí)拍攝的,反正Demis Hassabis是打包票說(shuō)這個(gè)視頻沒(méi)有任何篡改,那么毫無(wú)疑問(wèn)這會(huì)解鎖眾多的交互場(chǎng)景。Hassabis說(shuō),“展望未來(lái),人工智能的故事將不再是關(guān)于模型本身,而是關(guān)于它們能為你做什么”。

而與OpenAI的GPT4o宣戰(zhàn)的Project Astra只是其中的一個(gè)產(chǎn)品而已,谷歌其實(shí)發(fā)布了非常多的更新,包括谷歌展示了最新版Gemini加持的搜索功能。

2.2 AI搜索

谷歌首先在美國(guó)上線名為AI Overviews的AI技術(shù)生成摘要功能。簡(jiǎn)單來(lái)說(shuō),在你搜索信息的時(shí)候,谷歌的AI就直接幫你查找、整理和展示了。具體來(lái)說(shuō),通過(guò)多步推理,Gemini可以代替用戶研究,實(shí)現(xiàn)更好更高效的搜索總結(jié)和結(jié)果,比如說(shuō)規(guī)劃一日三餐,購(gòu)物餐廳選擇,行程規(guī)劃,都可以在AI搜索中完成,更重要的是,這樣的AI搜索還會(huì)直接幫你做規(guī)劃,比如說(shuō)“幫我創(chuàng)建一個(gè)3天的飲食計(jì)劃”,谷歌AI搜索就直接一個(gè)計(jì)劃書擺在你面前了。

另外讓我覺(jué)得很期待的兩個(gè)功能,一個(gè)是多模態(tài)搜索。你會(huì)不會(huì)遇到過(guò)這種情況,搜索時(shí)發(fā)現(xiàn)難以用語(yǔ)言描述問(wèn)題,或者遇到不熟悉不認(rèn)識(shí)的物體,不知道如何去搜索相關(guān)的名詞。

現(xiàn)在你就可以直接拍張照片或者錄段視頻用語(yǔ)音或打字問(wèn)AI搜索,這個(gè)是啥,怎么修理,之后谷歌就會(huì)幫你整理出相關(guān)的各種信息。

對(duì)于我這種3C殺手、經(jīng)常容易弄壞各種電器的人來(lái)說(shuō),我簡(jiǎn)直太期待這個(gè)多模態(tài)搜索功能了。而多模態(tài)模型Gemini的強(qiáng)大搜索和推理能力還能做更多的事情,也正好是我的痛點(diǎn)。

比如說(shuō),CEO Pichai在現(xiàn)場(chǎng)演示,Gemini可以在谷歌相冊(cè)Google Photos里進(jìn)行更多的相關(guān)搜索,比如通過(guò)名為Ask Photos with Gemini的新功能讓Gemini找到用戶想要的車牌照號(hào)。

實(shí)話告訴大家,我就是那個(gè)記不住我家車牌號(hào)的人,所以,谷歌Gemini可以在用戶的相冊(cè)中搜索,找到相應(yīng)信息和對(duì)應(yīng)的照片,比如說(shuō)獲取照片中拍到的車牌照號(hào)碼,這個(gè)功能對(duì)我來(lái)說(shuō),真的是非常期待。以及任何可以幫我尋找以往照片、文 件中信息的功能,我覺(jué)得都會(huì)解決很多痛點(diǎn)。

還有一個(gè)對(duì)我來(lái)說(shuō)很大幫助的是,谷歌AI將會(huì)結(jié)合到谷歌的所有workspace中,俗稱“谷歌全家桶” ,也就是說(shuō),在 Gemini 的加持下,Google Workspace,包括 Gmail、Google Docs、Google Drive、Google Calendar、Google Meet 等都可以打通,可以在這里進(jìn)行跨文檔搜索。比如說(shuō),你在郵箱里收到了一張發(fā)票,那么可以直接通過(guò)Gemini,把這張發(fā)票,整理到網(wǎng)盤Google Drive和表格Google Sheet中。還可以在郵件中搜索、讀取信息和亮點(diǎn)、歸納總結(jié),這些功能都會(huì)在今年稍后推出。

另外谷歌還發(fā)布了一系列其他的模型更新,包括畫圖的 Imagen 3,音樂(lè)的 Music AI Sandbox,還有生成視頻的 Veo,還有有史以來(lái)最長(zhǎng)、上下文窗口200萬(wàn)token的Gemini 1.5 Pro,還有Gemini app以及谷歌的自研芯片第6代 TPU等等,因?yàn)榧?xì)節(jié)和產(chǎn)品太多了這個(gè)視頻我們就不一一復(fù)述了,如果感興趣的小伙伴可以去看看谷歌的兩小時(shí)發(fā)布會(huì)全程。

看到這里,你可能會(huì)問(wèn),在OpenAI之后發(fā)布這一系列重磅更新的谷歌,兩個(gè)對(duì)手這一輪的發(fā)布,誰(shuí)是贏家呢?

03、OpenAI vs. Google:多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

兩場(chǎng)發(fā)布會(huì)之后,我看到不少人在對(duì)比OpenAI和谷歌的產(chǎn)品發(fā)布。我們從公司策略層來(lái)解讀一下。

首先,OpenAI比谷歌IO早一天發(fā)布了春季更新,而且非常臨時(shí),很難猜測(cè)不是故意搶在谷歌前面的,發(fā)布時(shí)長(zhǎng)也只持續(xù)26分鐘,非常聚焦在GPT-4o這一個(gè)產(chǎn)品上。雖然外界對(duì)GPT-4o的評(píng)價(jià)沒(méi)有說(shuō)像當(dāng)時(shí)發(fā)布ChatGPT時(shí)那么驚喜那么轟動(dòng),但不得不說(shuō),業(yè)內(nèi)的很多人還是覺(jué)得是一個(gè)很重要的里程碑,雖然多模態(tài)的這些功能是去年業(yè)內(nèi)共識(shí),OpenAI會(huì)在2024年做出來(lái)并發(fā)布,并沒(méi)有那么多驚喜或創(chuàng)新,但是“實(shí)現(xiàn)”了大家“期待中早晚會(huì)實(shí)現(xiàn)的AI更新”,也是非常有意義的,并且也是正確的發(fā)展道路。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

OpenAI這個(gè)GPT 4模型出來(lái),也能夠做些translation(翻譯),翻譯什么的并不是一個(gè)新東西,如果沒(méi)有實(shí)時(shí)效應(yīng),其實(shí)是很難落地,但星期一他那個(gè)宣布的東西,讓我感覺(jué)到我有可能真的會(huì)去用,比如下次我跟你一起去采訪誰(shuí)或者跟誰(shuí)講話,語(yǔ)言不通(的時(shí)候),我們真的可能就打開我們的手機(jī)來(lái)給來(lái)用translation。就以前的,那個(gè)延遲這么慢,效果很不好,你都不好意思拿出來(lái)就用對(duì)吧?

那為什么能夠做到延遲性這么低,那被廣泛認(rèn)為的就是因?yàn)樗亲龅搅薔ative(原生的)Multimodal(多模態(tài)模型),我看到那個(gè)demo,我的第一反應(yīng)是說(shuō)OK,以前他說(shuō)的這些東西我都是玩玩是可以的,但是我是不會(huì)拎出來(lái)用的,但是他星期一給我的東西,我就覺(jué)得有可能我會(huì)拿來(lái),就在實(shí)際的生活工作的場(chǎng)景里面可能用得到。

如果光從語(yǔ)音助手這個(gè)產(chǎn)品上來(lái)看,GPT-4o對(duì)打谷歌Project Astra,目前業(yè)內(nèi)很多聲音仍然認(rèn)為OpenAI是領(lǐng)先的。單從多模態(tài)模型上來(lái)說(shuō),GPT-4o是OpenAI第一款完全原生的多模態(tài)模型。

我們視頻之前也說(shuō)到,它所有的多模態(tài)輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理,這使得GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,是所謂的“multimodal in(多模態(tài)輸入), multimodal out(多模態(tài)輸出)”。

但目前不少業(yè)內(nèi)人士認(rèn)為,谷歌的Gemini目前并沒(méi)有做到這個(gè)程度,比如說(shuō)英偉達(dá)高級(jí)科學(xué)家Jim Fan在LinkedIn上發(fā)表觀點(diǎn)認(rèn)為,谷歌是多模態(tài)作為輸入,但并不是多模態(tài)作為輸出(multimodal in, but not multimodal out)。

這意味著谷歌本次更新的視頻、音樂(lè)等模型依然是獨(dú)立于Gemini大模型的存在,只是輸出的時(shí)候把所有模型給整合起來(lái)?yè)碛械亩嗄B(tài)輸出能力。所以Jim Fan認(rèn)為,谷歌整合所有的輸入輸出模態(tài),將是不可避免的未來(lái)發(fā)展。

但他還有一句評(píng)論挺有意思的,Jim Fan說(shuō),谷歌在這次發(fā)布會(huì)中做對(duì)的一件事是:“他們終于認(rèn)真努力將AI集成到搜索框中。谷歌最堅(jiān)固的護(hù)城河是分銷,Gemini不一定要成為最好的模型,才能成為世界上被使用最多的模型?!?/p>

也就是說(shuō),谷歌在整個(gè)生態(tài)中只要順暢的融入AI功能,讓用戶覺(jué)得能解決問(wèn)題,提高生活和工作效率,因?yàn)楣雀柙谒阉?、郵箱、谷歌云上的種種積累和優(yōu)勢(shì),谷歌的分銷優(yōu)勢(shì)依然能保證谷歌在AI時(shí)代中立于不敗之地。

所以,按照這個(gè)邏輯來(lái)看,谷歌在這次發(fā)布會(huì)上在全生態(tài)上全面升級(jí)AI功能,其實(shí)是做到了。所以,就算OpenAI前一天搶跑發(fā)布亮點(diǎn)的GPT4o,谷歌整體來(lái)看,這一局也不算輸,第二天的股價(jià)穩(wěn)中上漲也應(yīng)證了市場(chǎng)的看法。

戴雨森

真格基金管理合伙人

OpenAI發(fā)布會(huì)之后,Google 發(fā)布會(huì)之前,我跟一位Google的同學(xué)聊,然后他提到一個(gè)觀點(diǎn)還挺有意思。他說(shuō)一年以前OpenAI發(fā)GPT4的時(shí)候,他們有很多東西,他們是不知道OpenAI怎么做到的,覺(jué)得哇他們好厲害,現(xiàn)在OpenAI發(fā)布會(huì)發(fā)了之后,他們看到是說(shuō),這個(gè)東西我們也知道怎么做,但我們可能還沒(méi)有像他那樣做得那么好,或者那么ready(準(zhǔn)備好)去demo,所以我覺(jué)得目前來(lái)看的話,他們肯定在這上面是有一些這個(gè)經(jīng)驗(yàn),所以我感覺(jué)就是雙方的絕對(duì)差距還是在縮小的。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

相對(duì)來(lái)講,Google注重的是一個(gè)solution(解決方案),就是解決方案,那個(gè)OpenAI目前注重的,更多的還是一個(gè)technology(技術(shù)),它在technology(技術(shù))上面非常的驚艷,但你說(shuō)他怎么去跟我們?nèi)说娜粘#还苁巧?、工作去結(jié)合起來(lái),他沒(méi)有那么多的人力,他也沒(méi)這么多思考,而且這不是他的強(qiáng)項(xiàng)。

Google IO的那個(gè)發(fā)布,看上去可能從某些角度來(lái)講,好像還沒(méi)有那個(gè)前一天,OpenAI的東西那么驚艷,但實(shí)際上我覺(jué)得很驚艷,我覺(jué)得驚艷不只是說(shuō)是一個(gè)model(模型)的驚艷,model只是一個(gè)維度,還有其他維度,怎么跟我的生活、工作能夠結(jié)合起來(lái),比如說(shuō)跟我的手機(jī)結(jié)合起來(lái),它一些的announcement(發(fā)布)是這個(gè)技術(shù),所以說(shuō)AI這件技術(shù),我覺(jué)得今天落地是一個(gè)很大的一個(gè)挑戰(zhàn),或者說(shuō)一件事情。

所以可以預(yù)期到,接下來(lái),多模態(tài)的繼續(xù)整合和優(yōu)化,以及將AI功能整合到谷歌的各個(gè)產(chǎn)品中,以及AI agent(人工智能體)的引入,將會(huì)是谷歌發(fā)力的重點(diǎn)。除此之外,這兩場(chǎng)發(fā)布會(huì)聽下來(lái)還讓我非常感興趣的一點(diǎn)是,硬件。

OpenAI整個(gè)demo用的是蘋果手機(jī)和蘋果電腦,谷歌用的是安卓手機(jī)和硬件,同時(shí)還在視頻demo中提到了一個(gè)谷歌內(nèi)部類似谷歌眼鏡一樣的prototype原型設(shè)配,所以接下來(lái),硬件和AI大模型的整合,也到了加入戰(zhàn)場(chǎng)的時(shí)刻。而這個(gè)賽道的老大,蘋果,在干什么呢?

04、移動(dòng)端AI大戰(zhàn)開啟,蘋果即將入局?

雖然蘋果公司在這輪硅谷科技巨頭AI大戰(zhàn)中遲遲沒(méi)有發(fā)聲,但最近有不少的輿論風(fēng)向稍微給我們勾勒出了蘋果潛在的想法和布局。

目前市場(chǎng)都在等待6月10日舉行的蘋果2024年全球開發(fā)者大會(huì)WWDC,預(yù)計(jì)會(huì)在屆時(shí)會(huì)宣布一系列在AI和硬件上的產(chǎn)品發(fā)布。

包括可能會(huì)和OpenAI合作,將ChatGPT整合到 iOS 18 操作系統(tǒng),此外,外界期待蘋果會(huì)宣布利用大模型全面升級(jí)Siri,給用戶提供AI賦能的交互體驗(yàn),還有蘋果如何將大模型塞進(jìn)手機(jī)移動(dòng)端的“蘋果全家桶”,也是馬上召開的蘋果發(fā)布會(huì)的最大看點(diǎn)。

今年早前,蘋果發(fā)布了一系列的論文,包括第一個(gè)手機(jī)端UI多模態(tài)大模型Ferret-UI。

還有今年一月發(fā)布的一篇將大模型塞進(jìn) iPhone 的關(guān)鍵性論文,“使用有限的內(nèi)存實(shí)現(xiàn)更快的LLM推理”。

還有這篇,蘋果Siri團(tuán)隊(duì)在論文《利用大型語(yǔ)言模型進(jìn)行設(shè)備指向性語(yǔ)音檢測(cè)的多模態(tài)方法》中討論了去掉喚醒詞的方法。

同時(shí), 在今年3月發(fā)布的另外一篇論文中,蘋果首次披露一個(gè)具有高達(dá) 300 億參數(shù)的多模態(tài)模型MM1,這個(gè)多模態(tài)能力如果集成到iPhone 上,就能能夠通過(guò)視覺(jué)、語(yǔ)音和文本等多種方式理解并響應(yīng)用戶的需求。

所以綜上所述,雖然近兩年來(lái),蘋果時(shí)常為人詬病在 AI 領(lǐng)域動(dòng)作遲緩,但是感覺(jué),蘋果是在等一個(gè)正確的時(shí)機(jī)來(lái)加入戰(zhàn)局,它并沒(méi)有落后,而是一直在等待。如今,多模態(tài)技術(shù)成熟,特別是文字輸入、語(yǔ)音和視覺(jué)的交互和手機(jī)等硬件是天然的適配,OpenAI和谷歌的AI多模態(tài)之戰(zhàn)打響之際,也是蘋果入局的時(shí)間了。

戴雨森

真格基金管理合伙人

如果你看互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代,其實(shí)它們?cè)谲浖臐B透上,都要疊加一個(gè)硬件的滲透,大家要買PC、手機(jī),所以導(dǎo)致,之前軟件的滲透速度,其實(shí)是相對(duì)比較慢的,那為什么ChatGPT一出來(lái)就滲透到了這么多的用戶,實(shí)際上是因?yàn)樗茉谝粋€(gè),比較成熟的硬件上。所以我覺(jué)得在目前來(lái)講,AI落地肯定首選還是在手機(jī)上,我肯定是期待像AI的這些模型,怎么樣在蘋果的生態(tài)系統(tǒng)中去落地,其實(shí)說(shuō)全新形態(tài)的硬件,我自己覺(jué)得可能性比較低,但是在這個(gè)上面有了,包括最近剛發(fā)M4 對(duì)吧,大家說(shuō)iPad這個(gè)上面有這么強(qiáng)的這個(gè)芯片,你如果還是做原來(lái)的任務(wù),是不是就浪費(fèi)了,你是不是用來(lái)干一些AI的任務(wù)呢

而對(duì)于智能手機(jī)、智能手表、乃至于以后的VR和AR眼鏡設(shè)備,更小的端模型將是業(yè)界著重發(fā)力的重點(diǎn)。在今年4月,蘋果宣布在全球最大AI開源社區(qū) Hugging Face 發(fā)布了全新的開源大型語(yǔ)言O(shè)penELM系列模型,包括4個(gè)不同參數(shù)規(guī)模的模型:270 Million(百萬(wàn))、450 Million(百萬(wàn))、1.1 Billion(十億)和3 Billion(十億),沒(méi)錯(cuò),最大的也只有30億個(gè)參數(shù),對(duì)移動(dòng)端小模型的布局有著明顯的意圖。而Howie Xu在采訪中認(rèn)為,端模型是人類應(yīng)用AI發(fā)展的必然趨勢(shì)。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

個(gè)人非??春枚四P?,因?yàn)檫^(guò)去一年我們大量的精力、討論都是在越大越好,但是萬(wàn)億級(jí)的parameter(參數(shù)),不適合放在手機(jī)上面,那另外一個(gè)問(wèn)題就是說(shuō),那個(gè)不是萬(wàn)億級(jí)的,千億級(jí)的,或者百億級(jí)的參數(shù),是不是能夠把模型做到足夠好。

現(xiàn)在我們看到的很多的小的模型可能是700億參數(shù)的,一年之內(nèi)我們能夠看到就是,十億這么一個(gè)參數(shù)的一個(gè)模型,能夠做到當(dāng)初ChatGPT出來(lái)時(shí)候,讓大家驚艷的那個(gè)感覺(jué),相當(dāng)于(GPT)3.5的那個(gè)model(模型)的能力,我覺(jué)得是一個(gè)billion(十億)的parameter(參數(shù))是應(yīng)該能夠做到。

如果能夠這個(gè)端上面能夠運(yùn)行一個(gè)十億參數(shù)級(jí)別的模型,能夠做到(GPT)3.5的(的能力),那就打開了很多的想象空間,然后接下去會(huì)有更小的模型,因?yàn)槟P涂倸w是越小,對(duì)耗電、對(duì)各方面的都有很大好處,我覺(jué)得甚至是sub 1 billion(小于10億參數(shù))的會(huì)更好,從privacy(隱私)的角度,從耗電的角度,從各方面角度,我覺(jué)得小模型是必須的。

文章的最后,我們來(lái)總結(jié)一下OpenAI和谷歌的這兩場(chǎng)發(fā)布會(huì),AI多模態(tài)之戰(zhàn)打響之后,在更多更廣的應(yīng)用上,我們看到了AI殺手級(jí)應(yīng)用的曙光,有了更落地更切實(shí)的可用性,這將重塑人類和AI以及電子設(shè)備的交互方式。此外,雖然OpenAI和谷歌表面上刀光劍影,但兩家公司的策略目標(biāo)是有些區(qū)別的:前者一路勇向前目標(biāo)scaling law(規(guī)模法則)和AGI,后者更注重自家生態(tài)和應(yīng)用落地來(lái)捍衛(wèi)商業(yè)營(yíng)收與市場(chǎng)分銷護(hù)城河——可能模型是不是最好的,并沒(méi)有那么重要。所以目前的多模態(tài)初戰(zhàn),OpenAI雖然贏了,但谷歌也沒(méi)輸。

而在硬件端,各類硬件與AI的結(jié)合將帶來(lái)巨大的新機(jī)會(huì),而大模型“瘦身”進(jìn)手機(jī)只是開始,打造應(yīng)用體驗(yàn)才是關(guān)鍵所在。此外,讓人驚喜的是谷歌demo最后展示的AR眼鏡與AI的結(jié)合,這給“AR智能眼鏡”這個(gè)起起伏伏了好幾個(gè)周期的產(chǎn)品,帶來(lái)了新的曙光和希望,除了谷歌多年的AR經(jīng)驗(yàn),Meta在AR硬件上的布局,與蘋果在Vision Pro以及自家AR團(tuán)隊(duì)的未來(lái)策略,都可能成為下一場(chǎng)科技硬件巨頭們比拼的新戰(zhàn)場(chǎng)。對(duì)了,不要忘記微軟這家與OpenAI深度綁定的巨頭,它并沒(méi)有將全部雞蛋都放在OpenAI的籃子中。微軟目前在AI布局上的優(yōu)勢(shì),加上在軟硬件上都有多年經(jīng)驗(yàn)和布局,最近還收編了之前主打情感陪伴大模型公司Inflection的大部分AI頂級(jí)人才、發(fā)布了自己的大模型MAI-1。所以我們很興奮得能感覺(jué)到,生成式AI的第二輪多模態(tài)戰(zhàn)役打響了,越來(lái)越多的科技巨頭入局,并且戰(zhàn)術(shù)和方向也越發(fā)清晰,也帶來(lái)的是AI應(yīng)用的潛在落地與爆發(fā)。這場(chǎng)戰(zhàn)斗,硅谷101在最前線,我們拭目以待。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • 盤中必讀|OpenAI放大招!Sora概念集體爆發(fā),福石控股、萬(wàn)興科技等超10股漲停
  • 研報(bào)新知| OpenAI考慮AI產(chǎn)品引入廣告,這家出海營(yíng)銷巨頭有望迎來(lái)機(jī)遇

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

OpenAI和谷歌AI多模態(tài)重磅更新,生成式AI之戰(zhàn)升級(jí)第二輪

AI大戰(zhàn)第二輪開始了。

圖片來(lái)源:界面新聞匡達(dá)

文|硅谷101

ChatGPT以及硅谷AI大戰(zhàn)終于升級(jí),長(zhǎng)出了“眼睛”和“嘴”。5月中旬,OpenAI和谷歌前后發(fā)布重磅AI多模態(tài)更新,從基于文字交互的ChatGPT全面升級(jí),實(shí)現(xiàn)了“聲音,文字和視覺(jué)”三者全面結(jié)合的人工智能新交互功能,而這,也標(biāo)志著硅谷科技巨頭的生成式AI之戰(zhàn)正式進(jìn)入到第二輪。新一輪競(jìng)爭(zhēng),只會(huì)更加激烈、更加全面。

大家好,歡迎來(lái)到硅谷101,這次我們聊聊這次多模態(tài)AI之戰(zhàn)對(duì)科技巨頭們的商業(yè)版圖意味著什么變化,以及生成式AI智能技術(shù)的下一步會(huì)發(fā)生什么。那我們首先來(lái)快速?gòu)?fù)盤一下OpenAI和谷歌發(fā)布的多模態(tài)重磅更新。

01、OpenAI GPT-4o:低延遲語(yǔ)音交互,《Her》成為現(xiàn)實(shí)

OpenAI這次的發(fā)布時(shí)長(zhǎng)很短,全程就26分鐘,發(fā)了一款產(chǎn)品GPT-4o。

GPT-4o的“o”是拉丁詞根“Omni”,意思是“所有的”、“全部的”或“全能”,意味著文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出的能力,這樣的“全面”多模態(tài)能力。

說(shuō)實(shí)話,2024年AI之戰(zhàn)會(huì)升級(jí)到多模態(tài)產(chǎn)品,這個(gè)預(yù)期在2023年已經(jīng)是行業(yè)共識(shí),我們?cè)谥岸嗥谝曨l都提到過(guò),僅僅是文字的prompt很難表達(dá)人類的意圖,非常低效也非常受限,所以有語(yǔ)音和視覺(jué)的加持的多模態(tài)AI交互是人類通往AGI道路上的必經(jīng)之路。但當(dāng)多模態(tài)AI交互真的到來(lái)的時(shí)候,我覺(jué)得還是會(huì)被震撼到。

OpenAI說(shuō),GPT-4o可以在232毫秒內(nèi)響應(yīng)音頻輸入,平均為320毫秒,這已經(jīng)達(dá)到人與人之間的響應(yīng)時(shí)間。也就是說(shuō),AI語(yǔ)音對(duì)話的交互已經(jīng)能做到非常低延遲、很絲滑的像真人一樣對(duì)話了。

GPT-4o發(fā)布之前,ChatGPT的語(yǔ)音模式功能有著好幾秒的延遲,這讓整個(gè)交互體驗(yàn)非常差,這是因?yàn)橹暗腉PT系列的語(yǔ)音功能是好幾個(gè)模型的拼合,先把聲音轉(zhuǎn)錄成文本,再用GPT大模型接受后,輸出文本,然后再用text to speech模型生成音頻,但這其中會(huì)損失非常多的信息,比如說(shuō)語(yǔ)調(diào),語(yǔ)氣中的情緒情感,多個(gè)說(shuō)話人的識(shí)別,背景的聲音等等,所以語(yǔ)音功能會(huì)很慢很遲緩也很基礎(chǔ)。

而這次,GPT-4o是OpenAI專門訓(xùn)練的跨文本、語(yǔ)音和視覺(jué)的端到端新模型,所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理,這使得GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,是兼具了“聽覺(jué)”、“視覺(jué)”的多模態(tài)模型,同時(shí)還支持中途打斷和對(duì)話插入,且具備上下文記憶能力。

這樣的多模態(tài)模型是OpenAI首次發(fā)布,表示還有很多探索的空間,但目前展現(xiàn)出的功能已經(jīng)讓人驚喜。比如說(shuō),在現(xiàn)場(chǎng)demo中,GPT-4o可以理解人們的呼吸急促聲音并用輕松的方式安慰人類。

它可以識(shí)別人臉表情,以及辨認(rèn)情緒。

它可以隨意變換語(yǔ)氣和風(fēng)格來(lái)講故事。

同時(shí),GPT-4o還可以通過(guò)硬件設(shè)備通過(guò)視覺(jué)來(lái)分析人們正在從事的工作、看的書,可以引導(dǎo)人們解題,可以切換語(yǔ)言實(shí)時(shí)翻譯,也能通過(guò)視覺(jué)識(shí)別給它的信息并且給出非常擬人化的反饋。

說(shuō)實(shí)話,在直播發(fā)布會(huì)中直接現(xiàn)場(chǎng)演示這件事情是很需要勇氣的,因?yàn)橐坏┏鲥e(cuò)會(huì)引發(fā)非常大的公關(guān)災(zāi)難,但OpenAI有這個(gè)勇氣去直接現(xiàn)場(chǎng)演示直播,給人的感覺(jué)非常自信。除了現(xiàn)場(chǎng)的演示之外,OpenAI還在官網(wǎng)上放出了更多更復(fù)雜場(chǎng)景的交互,展現(xiàn)出AI多模態(tài)的更多的潛力。

比如說(shuō),在官網(wǎng)上OpenAI做了17個(gè)案例展示,包括了照片轉(zhuǎn)漫畫、3D物體合成、海報(bào)創(chuàng)作、角色設(shè)計(jì)等樣本。

此外,OpenAI總裁Greg Brockman的演示視頻中,GPT-4o可以識(shí)別出他所穿的衣服、身處的環(huán)境、可以識(shí)別出Brockman的情緒和語(yǔ)氣和房間里正出現(xiàn)的新動(dòng)作,但最讓外界關(guān)注的一個(gè)動(dòng)作是,讓兩臺(tái)運(yùn)行GPT-4o的設(shè)備進(jìn)行語(yǔ)音或視頻交互。

也就是說(shuō),OpenAI的GPT-4o多模態(tài)給了AI交互的聲音和視覺(jué),不僅升級(jí)了人和AI之間的交互,也升級(jí)了AI和AI之間的交互,這樣的交互更自然,更擬人,有著更大空間的應(yīng)用場(chǎng)景。而且整個(gè)AI的聲音和語(yǔ)言非常的靈動(dòng),機(jī)器人感比較弱,會(huì)開玩笑會(huì)安慰人會(huì)害羞,難怪很多人在OpenAI發(fā)布會(huì)之后直呼,那部講述人類和AI語(yǔ)音助手Samantha電影《Her》的時(shí)代真的到來(lái)了。

戴雨森

真格基金管理合伙人

我自己是非常激動(dòng)的啊。因?yàn)槲乙恢庇X(jué)得我們對(duì)于 AI 落地的應(yīng)用預(yù)期,其實(shí)不一定是準(zhǔn)確的,大家可能在AI一開始的時(shí)候,覺(jué)得生產(chǎn)力的場(chǎng)景也很直接,但是現(xiàn)在可能發(fā)現(xiàn),很多(AI)Agent(人工智能體)的落地反而比較難,但是感性的角度反而會(huì)更加容易一點(diǎn)。

對(duì)于絕大部分人來(lái)講,生活其實(shí)是單調(diào)的,或者是一成不變的,是乏味的。那這個(gè)時(shí)候其實(shí)不管像 《Her》 里面說(shuō)所謂的這種,男女情感的表達(dá),還是說(shuō)一種陪伴、一種傾聽,其實(shí)都是很稀缺的一種資源或內(nèi)容。當(dāng) AI 能夠做到以一個(gè)低延遲、低成本,很好的形式去表達(dá)這種情緒價(jià)值的時(shí)候,這可能會(huì)對(duì)我們的社交社會(huì)帶來(lái)很大的影響,也會(huì)帶來(lái)很大的這個(gè)機(jī)會(huì)。

隨著AI能力的提升,圖靈測(cè)試這個(gè)概念會(huì)越來(lái)越模糊化,電影Her中描述的場(chǎng)景實(shí)現(xiàn)幾乎是早晚的事。但AI多模態(tài)帶來(lái)的不僅僅是情感上的陪伴和交互,更多的是整個(gè)工作場(chǎng)景和生態(tài)上的顛覆。

就在OpenAI發(fā)布會(huì)的一天之后,谷歌發(fā)布的一系列多模態(tài)更新,進(jìn)一步的說(shuō)明了AI多模態(tài)能帶來(lái)的顛覆性潛力。

02、谷歌的戰(zhàn)書:Project Astra及"120次AI"的全生態(tài)升級(jí)

對(duì)比起OpenAI的發(fā)布會(huì),谷歌的發(fā)布會(huì)就更像一個(gè)巨頭了:長(zhǎng)達(dá)兩小時(shí),在各個(gè)生態(tài)方向用AI發(fā)力。連CEO Sundar Pichai自己也說(shuō),整場(chǎng)Keynote的演講稿里總共提了120次“AI”,表明谷歌目前所有的工作都圍繞多模態(tài)AI模型Gemini來(lái)展開。

首先,直接與OpenAI前一天發(fā)布的GPT-4o對(duì)標(biāo)的是Project Astra。

2.1 語(yǔ)音助手Project Astra

雖然谷歌不是現(xiàn)場(chǎng)演示,不像OpenAI那么敢,畢竟巨頭還是需要保守一些,但從谷歌的demo視頻來(lái)看,如果谷歌的demo是實(shí)時(shí)生成的,谷歌的Gemini多模態(tài)模型比起OpenAI在功能上也不算弱。

谷歌DeepMind負(fù)責(zé)人Demis Hassabis在臺(tái)上宣布了Project Astra,Project Astra基于Gemini多模態(tài)大模型,是一個(gè)實(shí)時(shí)、多模態(tài)的人工智能助手,可以通過(guò)硬件設(shè)備“看到”世界,知道東西是什么以及你把它們放在哪里,并且可以回答問(wèn)題或幫助你做幾乎任何事情。在谷歌的demo視頻中,谷歌倫敦辦事處的一名工作人員用Astra識(shí)別自己的地理位置,找到丟失的眼鏡,檢查代碼等等。

如果谷歌demo是實(shí)時(shí)拍攝的,反正Demis Hassabis是打包票說(shuō)這個(gè)視頻沒(méi)有任何篡改,那么毫無(wú)疑問(wèn)這會(huì)解鎖眾多的交互場(chǎng)景。Hassabis說(shuō),“展望未來(lái),人工智能的故事將不再是關(guān)于模型本身,而是關(guān)于它們能為你做什么”。

而與OpenAI的GPT4o宣戰(zhàn)的Project Astra只是其中的一個(gè)產(chǎn)品而已,谷歌其實(shí)發(fā)布了非常多的更新,包括谷歌展示了最新版Gemini加持的搜索功能。

2.2 AI搜索

谷歌首先在美國(guó)上線名為AI Overviews的AI技術(shù)生成摘要功能。簡(jiǎn)單來(lái)說(shuō),在你搜索信息的時(shí)候,谷歌的AI就直接幫你查找、整理和展示了。具體來(lái)說(shuō),通過(guò)多步推理,Gemini可以代替用戶研究,實(shí)現(xiàn)更好更高效的搜索總結(jié)和結(jié)果,比如說(shuō)規(guī)劃一日三餐,購(gòu)物餐廳選擇,行程規(guī)劃,都可以在AI搜索中完成,更重要的是,這樣的AI搜索還會(huì)直接幫你做規(guī)劃,比如說(shuō)“幫我創(chuàng)建一個(gè)3天的飲食計(jì)劃”,谷歌AI搜索就直接一個(gè)計(jì)劃書擺在你面前了。

另外讓我覺(jué)得很期待的兩個(gè)功能,一個(gè)是多模態(tài)搜索。你會(huì)不會(huì)遇到過(guò)這種情況,搜索時(shí)發(fā)現(xiàn)難以用語(yǔ)言描述問(wèn)題,或者遇到不熟悉不認(rèn)識(shí)的物體,不知道如何去搜索相關(guān)的名詞。

現(xiàn)在你就可以直接拍張照片或者錄段視頻用語(yǔ)音或打字問(wèn)AI搜索,這個(gè)是啥,怎么修理,之后谷歌就會(huì)幫你整理出相關(guān)的各種信息。

對(duì)于我這種3C殺手、經(jīng)常容易弄壞各種電器的人來(lái)說(shuō),我簡(jiǎn)直太期待這個(gè)多模態(tài)搜索功能了。而多模態(tài)模型Gemini的強(qiáng)大搜索和推理能力還能做更多的事情,也正好是我的痛點(diǎn)。

比如說(shuō),CEO Pichai在現(xiàn)場(chǎng)演示,Gemini可以在谷歌相冊(cè)Google Photos里進(jìn)行更多的相關(guān)搜索,比如通過(guò)名為Ask Photos with Gemini的新功能讓Gemini找到用戶想要的車牌照號(hào)。

實(shí)話告訴大家,我就是那個(gè)記不住我家車牌號(hào)的人,所以,谷歌Gemini可以在用戶的相冊(cè)中搜索,找到相應(yīng)信息和對(duì)應(yīng)的照片,比如說(shuō)獲取照片中拍到的車牌照號(hào)碼,這個(gè)功能對(duì)我來(lái)說(shuō),真的是非常期待。以及任何可以幫我尋找以往照片、文 件中信息的功能,我覺(jué)得都會(huì)解決很多痛點(diǎn)。

還有一個(gè)對(duì)我來(lái)說(shuō)很大幫助的是,谷歌AI將會(huì)結(jié)合到谷歌的所有workspace中,俗稱“谷歌全家桶” ,也就是說(shuō),在 Gemini 的加持下,Google Workspace,包括 Gmail、Google Docs、Google Drive、Google Calendar、Google Meet 等都可以打通,可以在這里進(jìn)行跨文檔搜索。比如說(shuō),你在郵箱里收到了一張發(fā)票,那么可以直接通過(guò)Gemini,把這張發(fā)票,整理到網(wǎng)盤Google Drive和表格Google Sheet中。還可以在郵件中搜索、讀取信息和亮點(diǎn)、歸納總結(jié),這些功能都會(huì)在今年稍后推出。

另外谷歌還發(fā)布了一系列其他的模型更新,包括畫圖的 Imagen 3,音樂(lè)的 Music AI Sandbox,還有生成視頻的 Veo,還有有史以來(lái)最長(zhǎng)、上下文窗口200萬(wàn)token的Gemini 1.5 Pro,還有Gemini app以及谷歌的自研芯片第6代 TPU等等,因?yàn)榧?xì)節(jié)和產(chǎn)品太多了這個(gè)視頻我們就不一一復(fù)述了,如果感興趣的小伙伴可以去看看谷歌的兩小時(shí)發(fā)布會(huì)全程。

看到這里,你可能會(huì)問(wèn),在OpenAI之后發(fā)布這一系列重磅更新的谷歌,兩個(gè)對(duì)手這一輪的發(fā)布,誰(shuí)是贏家呢?

03、OpenAI vs. Google:多模態(tài)之戰(zhàn)與AI的應(yīng)用落地

兩場(chǎng)發(fā)布會(huì)之后,我看到不少人在對(duì)比OpenAI和谷歌的產(chǎn)品發(fā)布。我們從公司策略層來(lái)解讀一下。

首先,OpenAI比谷歌IO早一天發(fā)布了春季更新,而且非常臨時(shí),很難猜測(cè)不是故意搶在谷歌前面的,發(fā)布時(shí)長(zhǎng)也只持續(xù)26分鐘,非常聚焦在GPT-4o這一個(gè)產(chǎn)品上。雖然外界對(duì)GPT-4o的評(píng)價(jià)沒(méi)有說(shuō)像當(dāng)時(shí)發(fā)布ChatGPT時(shí)那么驚喜那么轟動(dòng),但不得不說(shuō),業(yè)內(nèi)的很多人還是覺(jué)得是一個(gè)很重要的里程碑,雖然多模態(tài)的這些功能是去年業(yè)內(nèi)共識(shí),OpenAI會(huì)在2024年做出來(lái)并發(fā)布,并沒(méi)有那么多驚喜或創(chuàng)新,但是“實(shí)現(xiàn)”了大家“期待中早晚會(huì)實(shí)現(xiàn)的AI更新”,也是非常有意義的,并且也是正確的發(fā)展道路。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

OpenAI這個(gè)GPT 4模型出來(lái),也能夠做些translation(翻譯),翻譯什么的并不是一個(gè)新東西,如果沒(méi)有實(shí)時(shí)效應(yīng),其實(shí)是很難落地,但星期一他那個(gè)宣布的東西,讓我感覺(jué)到我有可能真的會(huì)去用,比如下次我跟你一起去采訪誰(shuí)或者跟誰(shuí)講話,語(yǔ)言不通(的時(shí)候),我們真的可能就打開我們的手機(jī)來(lái)給來(lái)用translation。就以前的,那個(gè)延遲這么慢,效果很不好,你都不好意思拿出來(lái)就用對(duì)吧?

那為什么能夠做到延遲性這么低,那被廣泛認(rèn)為的就是因?yàn)樗亲龅搅薔ative(原生的)Multimodal(多模態(tài)模型),我看到那個(gè)demo,我的第一反應(yīng)是說(shuō)OK,以前他說(shuō)的這些東西我都是玩玩是可以的,但是我是不會(huì)拎出來(lái)用的,但是他星期一給我的東西,我就覺(jué)得有可能我會(huì)拿來(lái),就在實(shí)際的生活工作的場(chǎng)景里面可能用得到。

如果光從語(yǔ)音助手這個(gè)產(chǎn)品上來(lái)看,GPT-4o對(duì)打谷歌Project Astra,目前業(yè)內(nèi)很多聲音仍然認(rèn)為OpenAI是領(lǐng)先的。單從多模態(tài)模型上來(lái)說(shuō),GPT-4o是OpenAI第一款完全原生的多模態(tài)模型。

我們視頻之前也說(shuō)到,它所有的多模態(tài)輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理,這使得GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,是所謂的“multimodal in(多模態(tài)輸入), multimodal out(多模態(tài)輸出)”。

但目前不少業(yè)內(nèi)人士認(rèn)為,谷歌的Gemini目前并沒(méi)有做到這個(gè)程度,比如說(shuō)英偉達(dá)高級(jí)科學(xué)家Jim Fan在LinkedIn上發(fā)表觀點(diǎn)認(rèn)為,谷歌是多模態(tài)作為輸入,但并不是多模態(tài)作為輸出(multimodal in, but not multimodal out)。

這意味著谷歌本次更新的視頻、音樂(lè)等模型依然是獨(dú)立于Gemini大模型的存在,只是輸出的時(shí)候把所有模型給整合起來(lái)?yè)碛械亩嗄B(tài)輸出能力。所以Jim Fan認(rèn)為,谷歌整合所有的輸入輸出模態(tài),將是不可避免的未來(lái)發(fā)展。

但他還有一句評(píng)論挺有意思的,Jim Fan說(shuō),谷歌在這次發(fā)布會(huì)中做對(duì)的一件事是:“他們終于認(rèn)真努力將AI集成到搜索框中。谷歌最堅(jiān)固的護(hù)城河是分銷,Gemini不一定要成為最好的模型,才能成為世界上被使用最多的模型?!?/p>

也就是說(shuō),谷歌在整個(gè)生態(tài)中只要順暢的融入AI功能,讓用戶覺(jué)得能解決問(wèn)題,提高生活和工作效率,因?yàn)楣雀柙谒阉?、郵箱、谷歌云上的種種積累和優(yōu)勢(shì),谷歌的分銷優(yōu)勢(shì)依然能保證谷歌在AI時(shí)代中立于不敗之地。

所以,按照這個(gè)邏輯來(lái)看,谷歌在這次發(fā)布會(huì)上在全生態(tài)上全面升級(jí)AI功能,其實(shí)是做到了。所以,就算OpenAI前一天搶跑發(fā)布亮點(diǎn)的GPT4o,谷歌整體來(lái)看,這一局也不算輸,第二天的股價(jià)穩(wěn)中上漲也應(yīng)證了市場(chǎng)的看法。

戴雨森

真格基金管理合伙人

OpenAI發(fā)布會(huì)之后,Google 發(fā)布會(huì)之前,我跟一位Google的同學(xué)聊,然后他提到一個(gè)觀點(diǎn)還挺有意思。他說(shuō)一年以前OpenAI發(fā)GPT4的時(shí)候,他們有很多東西,他們是不知道OpenAI怎么做到的,覺(jué)得哇他們好厲害,現(xiàn)在OpenAI發(fā)布會(huì)發(fā)了之后,他們看到是說(shuō),這個(gè)東西我們也知道怎么做,但我們可能還沒(méi)有像他那樣做得那么好,或者那么ready(準(zhǔn)備好)去demo,所以我覺(jué)得目前來(lái)看的話,他們肯定在這上面是有一些這個(gè)經(jīng)驗(yàn),所以我感覺(jué)就是雙方的絕對(duì)差距還是在縮小的。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

相對(duì)來(lái)講,Google注重的是一個(gè)solution(解決方案),就是解決方案,那個(gè)OpenAI目前注重的,更多的還是一個(gè)technology(技術(shù)),它在technology(技術(shù))上面非常的驚艷,但你說(shuō)他怎么去跟我們?nèi)说娜粘#还苁巧?、工作去結(jié)合起來(lái),他沒(méi)有那么多的人力,他也沒(méi)這么多思考,而且這不是他的強(qiáng)項(xiàng)。

Google IO的那個(gè)發(fā)布,看上去可能從某些角度來(lái)講,好像還沒(méi)有那個(gè)前一天,OpenAI的東西那么驚艷,但實(shí)際上我覺(jué)得很驚艷,我覺(jué)得驚艷不只是說(shuō)是一個(gè)model(模型)的驚艷,model只是一個(gè)維度,還有其他維度,怎么跟我的生活、工作能夠結(jié)合起來(lái),比如說(shuō)跟我的手機(jī)結(jié)合起來(lái),它一些的announcement(發(fā)布)是這個(gè)技術(shù),所以說(shuō)AI這件技術(shù),我覺(jué)得今天落地是一個(gè)很大的一個(gè)挑戰(zhàn),或者說(shuō)一件事情。

所以可以預(yù)期到,接下來(lái),多模態(tài)的繼續(xù)整合和優(yōu)化,以及將AI功能整合到谷歌的各個(gè)產(chǎn)品中,以及AI agent(人工智能體)的引入,將會(huì)是谷歌發(fā)力的重點(diǎn)。除此之外,這兩場(chǎng)發(fā)布會(huì)聽下來(lái)還讓我非常感興趣的一點(diǎn)是,硬件。

OpenAI整個(gè)demo用的是蘋果手機(jī)和蘋果電腦,谷歌用的是安卓手機(jī)和硬件,同時(shí)還在視頻demo中提到了一個(gè)谷歌內(nèi)部類似谷歌眼鏡一樣的prototype原型設(shè)配,所以接下來(lái),硬件和AI大模型的整合,也到了加入戰(zhàn)場(chǎng)的時(shí)刻。而這個(gè)賽道的老大,蘋果,在干什么呢?

04、移動(dòng)端AI大戰(zhàn)開啟,蘋果即將入局?

雖然蘋果公司在這輪硅谷科技巨頭AI大戰(zhàn)中遲遲沒(méi)有發(fā)聲,但最近有不少的輿論風(fēng)向稍微給我們勾勒出了蘋果潛在的想法和布局。

目前市場(chǎng)都在等待6月10日舉行的蘋果2024年全球開發(fā)者大會(huì)WWDC,預(yù)計(jì)會(huì)在屆時(shí)會(huì)宣布一系列在AI和硬件上的產(chǎn)品發(fā)布。

包括可能會(huì)和OpenAI合作,將ChatGPT整合到 iOS 18 操作系統(tǒng),此外,外界期待蘋果會(huì)宣布利用大模型全面升級(jí)Siri,給用戶提供AI賦能的交互體驗(yàn),還有蘋果如何將大模型塞進(jìn)手機(jī)移動(dòng)端的“蘋果全家桶”,也是馬上召開的蘋果發(fā)布會(huì)的最大看點(diǎn)。

今年早前,蘋果發(fā)布了一系列的論文,包括第一個(gè)手機(jī)端UI多模態(tài)大模型Ferret-UI。

還有今年一月發(fā)布的一篇將大模型塞進(jìn) iPhone 的關(guān)鍵性論文,“使用有限的內(nèi)存實(shí)現(xiàn)更快的LLM推理”。

還有這篇,蘋果Siri團(tuán)隊(duì)在論文《利用大型語(yǔ)言模型進(jìn)行設(shè)備指向性語(yǔ)音檢測(cè)的多模態(tài)方法》中討論了去掉喚醒詞的方法。

同時(shí), 在今年3月發(fā)布的另外一篇論文中,蘋果首次披露一個(gè)具有高達(dá) 300 億參數(shù)的多模態(tài)模型MM1,這個(gè)多模態(tài)能力如果集成到iPhone 上,就能能夠通過(guò)視覺(jué)、語(yǔ)音和文本等多種方式理解并響應(yīng)用戶的需求。

所以綜上所述,雖然近兩年來(lái),蘋果時(shí)常為人詬病在 AI 領(lǐng)域動(dòng)作遲緩,但是感覺(jué),蘋果是在等一個(gè)正確的時(shí)機(jī)來(lái)加入戰(zhàn)局,它并沒(méi)有落后,而是一直在等待。如今,多模態(tài)技術(shù)成熟,特別是文字輸入、語(yǔ)音和視覺(jué)的交互和手機(jī)等硬件是天然的適配,OpenAI和谷歌的AI多模態(tài)之戰(zhàn)打響之際,也是蘋果入局的時(shí)間了。

戴雨森

真格基金管理合伙人

如果你看互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代,其實(shí)它們?cè)谲浖臐B透上,都要疊加一個(gè)硬件的滲透,大家要買PC、手機(jī),所以導(dǎo)致,之前軟件的滲透速度,其實(shí)是相對(duì)比較慢的,那為什么ChatGPT一出來(lái)就滲透到了這么多的用戶,實(shí)際上是因?yàn)樗茉谝粋€(gè),比較成熟的硬件上。所以我覺(jué)得在目前來(lái)講,AI落地肯定首選還是在手機(jī)上,我肯定是期待像AI的這些模型,怎么樣在蘋果的生態(tài)系統(tǒng)中去落地,其實(shí)說(shuō)全新形態(tài)的硬件,我自己覺(jué)得可能性比較低,但是在這個(gè)上面有了,包括最近剛發(fā)M4 對(duì)吧,大家說(shuō)iPad這個(gè)上面有這么強(qiáng)的這個(gè)芯片,你如果還是做原來(lái)的任務(wù),是不是就浪費(fèi)了,你是不是用來(lái)干一些AI的任務(wù)呢

而對(duì)于智能手機(jī)、智能手表、乃至于以后的VR和AR眼鏡設(shè)備,更小的端模型將是業(yè)界著重發(fā)力的重點(diǎn)。在今年4月,蘋果宣布在全球最大AI開源社區(qū) Hugging Face 發(fā)布了全新的開源大型語(yǔ)言O(shè)penELM系列模型,包括4個(gè)不同參數(shù)規(guī)模的模型:270 Million(百萬(wàn))、450 Million(百萬(wàn))、1.1 Billion(十億)和3 Billion(十億),沒(méi)錯(cuò),最大的也只有30億個(gè)參數(shù),對(duì)移動(dòng)端小模型的布局有著明顯的意圖。而Howie Xu在采訪中認(rèn)為,端模型是人類應(yīng)用AI發(fā)展的必然趨勢(shì)。

Howie Xu

AI及云服務(wù)行業(yè)高管、斯坦福大學(xué)客座教授

個(gè)人非??春枚四P?,因?yàn)檫^(guò)去一年我們大量的精力、討論都是在越大越好,但是萬(wàn)億級(jí)的parameter(參數(shù)),不適合放在手機(jī)上面,那另外一個(gè)問(wèn)題就是說(shuō),那個(gè)不是萬(wàn)億級(jí)的,千億級(jí)的,或者百億級(jí)的參數(shù),是不是能夠把模型做到足夠好。

現(xiàn)在我們看到的很多的小的模型可能是700億參數(shù)的,一年之內(nèi)我們能夠看到就是,十億這么一個(gè)參數(shù)的一個(gè)模型,能夠做到當(dāng)初ChatGPT出來(lái)時(shí)候,讓大家驚艷的那個(gè)感覺(jué),相當(dāng)于(GPT)3.5的那個(gè)model(模型)的能力,我覺(jué)得是一個(gè)billion(十億)的parameter(參數(shù))是應(yīng)該能夠做到。

如果能夠這個(gè)端上面能夠運(yùn)行一個(gè)十億參數(shù)級(jí)別的模型,能夠做到(GPT)3.5的(的能力),那就打開了很多的想象空間,然后接下去會(huì)有更小的模型,因?yàn)槟P涂倸w是越小,對(duì)耗電、對(duì)各方面的都有很大好處,我覺(jué)得甚至是sub 1 billion(小于10億參數(shù))的會(huì)更好,從privacy(隱私)的角度,從耗電的角度,從各方面角度,我覺(jué)得小模型是必須的。

文章的最后,我們來(lái)總結(jié)一下OpenAI和谷歌的這兩場(chǎng)發(fā)布會(huì),AI多模態(tài)之戰(zhàn)打響之后,在更多更廣的應(yīng)用上,我們看到了AI殺手級(jí)應(yīng)用的曙光,有了更落地更切實(shí)的可用性,這將重塑人類和AI以及電子設(shè)備的交互方式。此外,雖然OpenAI和谷歌表面上刀光劍影,但兩家公司的策略目標(biāo)是有些區(qū)別的:前者一路勇向前目標(biāo)scaling law(規(guī)模法則)和AGI,后者更注重自家生態(tài)和應(yīng)用落地來(lái)捍衛(wèi)商業(yè)營(yíng)收與市場(chǎng)分銷護(hù)城河——可能模型是不是最好的,并沒(méi)有那么重要。所以目前的多模態(tài)初戰(zhàn),OpenAI雖然贏了,但谷歌也沒(méi)輸。

而在硬件端,各類硬件與AI的結(jié)合將帶來(lái)巨大的新機(jī)會(huì),而大模型“瘦身”進(jìn)手機(jī)只是開始,打造應(yīng)用體驗(yàn)才是關(guān)鍵所在。此外,讓人驚喜的是谷歌demo最后展示的AR眼鏡與AI的結(jié)合,這給“AR智能眼鏡”這個(gè)起起伏伏了好幾個(gè)周期的產(chǎn)品,帶來(lái)了新的曙光和希望,除了谷歌多年的AR經(jīng)驗(yàn),Meta在AR硬件上的布局,與蘋果在Vision Pro以及自家AR團(tuán)隊(duì)的未來(lái)策略,都可能成為下一場(chǎng)科技硬件巨頭們比拼的新戰(zhàn)場(chǎng)。對(duì)了,不要忘記微軟這家與OpenAI深度綁定的巨頭,它并沒(méi)有將全部雞蛋都放在OpenAI的籃子中。微軟目前在AI布局上的優(yōu)勢(shì),加上在軟硬件上都有多年經(jīng)驗(yàn)和布局,最近還收編了之前主打情感陪伴大模型公司Inflection的大部分AI頂級(jí)人才、發(fā)布了自己的大模型MAI-1。所以我們很興奮得能感覺(jué)到,生成式AI的第二輪多模態(tài)戰(zhàn)役打響了,越來(lái)越多的科技巨頭入局,并且戰(zhàn)術(shù)和方向也越發(fā)清晰,也帶來(lái)的是AI應(yīng)用的潛在落地與爆發(fā)。這場(chǎng)戰(zhàn)斗,硅谷101在最前線,我們拭目以待。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。