編譯|AI新智界
北京時間昨日凌晨,谷歌突然投放了一顆炸彈,發(fā)布了下一代人工智能模型 Gemini 的第一階段,這讓整個科技界有些“措手不及”,畢竟上周 The Information 報道稱谷歌計劃推遲 Gemini 到明年發(fā)布。
Gemini 反映了 Google 內(nèi)部多年來在 CEO 桑達(dá)爾·皮查伊(Sundar Pichai)的監(jiān)督和推動下所做的努力,集合了谷歌幾乎所有的 AI 資源。
谷歌現(xiàn)任 CEO 皮查伊曾負(fù)責(zé) Chrome 和 Android,他對產(chǎn)品的癡迷是出了名的。 在 2016 年擔(dān)任 CEO 之后的第一封創(chuàng)始人信中,他預(yù)測“我們將從移動優(yōu)先轉(zhuǎn)向 AI 優(yōu)先的世界。” 從那以后的幾年里,皮查伊將 AI 深深地融入到了谷歌的所有產(chǎn)品中,從安卓設(shè)備一直到云端。
盡管如此,AI 領(lǐng)域的發(fā)展在去年很大程度上是由另一家公司 OpenAI 的 AI 產(chǎn)品定義的。 OpenAI 在去年推出了 DALL-E 和 GPT-3.5,以及今年又推出了 DALL-E 2 和 GPT-4,幾乎主導(dǎo)了整個 AI 領(lǐng)域的發(fā)展趨勢,并引發(fā)了初創(chuàng)公司和科技巨頭之間的軍備競賽。
谷歌此前推出了基于 LaMDA 大模型的聊天機器人 Bard,以應(yīng)對 ChatGPT 的競爭。然而,Bard 似乎更多是臨時救場,從未能夠真正與 ChatGPT(更不用說 GPT4)以及微軟基于ChatGPT構(gòu)建的新Bing 相抗衡。谷歌在生成式 AI 競爭中似乎一直落后于微軟,這促使了谷歌決定將 Google Brain 和 DeepMind 兩大核心 AI 部門整合為一,即 Google DeepMind。
Gemini 現(xiàn)在成為了這場 AI 競賽中最新的努力者。它由 Demis Hassabis 領(lǐng)導(dǎo)的 Google DeepMind 構(gòu)建,將公司的人工智能團隊聚集在一個保護(hù)傘下。目前用戶已經(jīng)可以在谷歌 Bard 聊天機器人上體驗 Gemini,它將在 2024 年整合到公司的產(chǎn)品線中。
在 Gemini 今天正式推出前夕,《麻省理工科技評論》在加利福尼亞州山景城的谷歌辦公室采訪了谷歌 CEO 桑達(dá)爾·皮查伊,討論了 Gemini 對谷歌及其產(chǎn)品、AI 和社會的意義。
以下文字記錄是皮查伊自己的話。 為了清晰和可讀,對話已被編輯。
《麻省理工科技評論》:Gemini 有哪些令人興奮之處? 你能告訴我你對 AI 的總體看法是什么嗎?它的力量、它的實用性以及它如何進(jìn)入你們公司所有產(chǎn)品?
Sundar Pichai:Gemini 令人興奮的一個具體部分是它是一個從頭開始的原生多模態(tài)模型。 就像人類一樣,它不僅僅是學(xué)習(xí)文本。 它集合了文本、音頻、代碼編寫等能力。 因此,該模型天生就具有更強的能力,我認(rèn)為這將幫助我們梳理出新的功能,并為該領(lǐng)域的進(jìn)步做出貢獻(xiàn)。
另一個令人興奮的地方是,Gemini Ultra(Gemini的三大版本中最強的版本) 在 32 個主要基準(zhǔn)測試中的 30 個中處于最先進(jìn)的水平,尤其是在多模態(tài)基準(zhǔn)測試中。 MMMU 基準(zhǔn)測試的結(jié)果顯示了這個進(jìn)展。 我個人覺得令人興奮的是,在作為領(lǐng)先基準(zhǔn)之一的 MMMU(大規(guī)模多任務(wù)語言理解)中,它跨越了 90% 的門檻,這是一個重要的里程碑。 兩年前最先進(jìn)的水平是 30-40%。 因此,想想這個領(lǐng)域的進(jìn)展有多大。 而人類專家在這 57 個學(xué)科的得分是大約 89%。 因此 Gemini是第一個跨越這一門檻的模型。
我同樣很興奮的是,Gemini 終于出現(xiàn)在我們的產(chǎn)品中。 它將可供開發(fā)人員使用。 它是一個平臺。 AI 是一個意義深遠(yuǎn)的平臺轉(zhuǎn)變,其規(guī)模比網(wǎng)絡(luò)或移動設(shè)備還要大。 因此,從那一刻起,這也代表著我們邁出了一大步。
讓我們聊聊這些基準(zhǔn)測試。 Gemini 似乎在幾乎所有或大多數(shù)方面都領(lǐng)先于 GPT-4,但領(lǐng)先的不是很多。 而 GPT-4 剛推出時的領(lǐng)先優(yōu)勢似乎是一個非常大的飛躍。 這是否意味著一些大模型技術(shù)的能力開始趨于穩(wěn)定,或者您認(rèn)為我們將繼續(xù)擁有這些巨大的增長曲線?
Sundar Pichai:首先,展望未來,我們確實看到了很大的發(fā)展空間。 一些基準(zhǔn)成績已經(jīng)很高。 你必須意識到,當(dāng)你試圖達(dá)到 85% 的目標(biāo)時,你現(xiàn)在就處于曲線的邊緣。 所以看起來可能不多,但它正在取得進(jìn)展。 我們也將需要更新的基準(zhǔn)。 這也是我們研究 MMMU 多模態(tài)基準(zhǔn)的部分原因。 [對于]其中一些新基準(zhǔn)來說,最先進(jìn)的水平仍然要低得多。 未來還有很多進(jìn)展。 縮放法則仍然有效。 隨著我們將模型變得更大,將會取得更多進(jìn)展。 當(dāng)我從整體上看時,我真的覺得我們還處于起步階段。
我對你所認(rèn)為的 Gemini 的關(guān)鍵突破以及它們將如何應(yīng)用感興趣,可以談?wù)剢幔?/em>
Sundar Pichai:人們很難想象將會發(fā)生的飛躍。 我們會提供 API,人們會以相當(dāng)深入的方式想象它。
我認(rèn)為多模態(tài)將會很大。 當(dāng)我們教會這些模型更多地進(jìn)行推理時,就會有越來越大的突破。 更深入的突破即將到來。
思考這個問題的一種方法是 Gemini Pro。 它在基準(zhǔn)測試中表現(xiàn)非常好。 但當(dāng)我們把它放在 Bard 聊天機器人中時,我作為一個用戶就能感受到它。 我們一直在對其進(jìn)行測試,所有類別的好感度都有顯著上升。 這就是為什么我們稱其為迄今為止最大的升級之一。 當(dāng)我們進(jìn)行并排盲評估時,它確實顯示出優(yōu)異的性能。 所以你可以讓這些更好的模型在基準(zhǔn)上得到改進(jìn)。 它取得了進(jìn)步。 我們將繼續(xù)訓(xùn)練并從那里開始。
但我迫不及待地想將它放入我們的產(chǎn)品中。 這些模型非常有能力。 實際上設(shè)計產(chǎn)品體驗以充分利用模型所擁有的所有功能——接下來的幾個月將會令人興奮。
我能想象發(fā)布 Gemini 所面臨的巨大壓力。 我很好奇你在 GPT-4 的發(fā)布中了解到了什么。 你學(xué)到了什么? 你們做了哪些改變?
Sundar Pichai:有一點,至少對我來說:感覺這離零和游戲還很遠(yuǎn),對吧? 想想向 AI 的轉(zhuǎn)變有多么深刻,以及我們還處于多么早的階段。 前方充滿機遇。
但對于你的具體問題,這是一個我們都在進(jìn)步的豐富領(lǐng)域。 它有科學(xué)的成分,也有學(xué)術(shù)的成分; 大量研究被發(fā)表,了解像 GPT-4 這樣的模型在現(xiàn)實世界中是如何工作的。 我們從中吸取了教訓(xùn)。 安全是一個重要領(lǐng)域。 因此,在 Gemini 中,我們根據(jù)模型在現(xiàn)實世界中的運行情況學(xué)習(xí)并改進(jìn)了一些安全技術(shù)。 這顯示了微調(diào)等各種事情的重要性。 我們通過 Med-PaLM 2 展示的內(nèi)容之一是采用像 PaLM 這樣的模型,將其真正微調(diào)到特定領(lǐng)域,表明它可以超越最先進(jìn)的模型。 這就是我們了解微調(diào)力量的一種方式。
當(dāng)我們在開發(fā) Gemini 時,其中的很多內(nèi)容都會被應(yīng)用。 我們花更多時間開發(fā) Gemini Ultra版本(將于明年推出)的部分原因是為了確保我們對其進(jìn)行嚴(yán)格的安全測試。 但我們也在對其進(jìn)行微調(diào),以真正梳理出其能力。
當(dāng)你看到其中一些版本發(fā)布并且人們開始在現(xiàn)實世界中修改它們時,他們會產(chǎn)生幻覺,或者他們可能會泄露他們的模型所訓(xùn)練的一些私人數(shù)據(jù)。 我想知道,考慮到它所訓(xùn)練的數(shù)據(jù),其中有多少是該技術(shù)固有的。 如果這是不可避免的,您會嘗試采取哪些措施來限制這種情況?
Sundar Pichai:你說得對。 這些都是活躍的研究領(lǐng)域。 事實上,我們剛剛發(fā)表了一篇論文,展示了這些模型如何通過一系列提示來揭示訓(xùn)練數(shù)據(jù)。 幻覺不是一個已解決的問題。 我認(rèn)為我們都在這方面取得了進(jìn)展,而且還有更多的工作要做。 我們需要解決一些基本的限制。 一個例子是,如果您采用 Gemini Ultra,我們正在積極與使用它的外部第三方(這些領(lǐng)域的專家)對這些模型進(jìn)行紅隊合作。
在多模態(tài)等領(lǐng)域,我們想要大膽,我們想要負(fù)責(zé)任。 我們將更加謹(jǐn)慎地推出多模態(tài),因為錯誤用例的可能性更高。
但你是對的,因為它仍然是一項正在進(jìn)行中的技術(shù),這就是為什么它們不會對所有事情都有意義。 這就是為什么在搜索中,我們更加小心如何使用它、何時、何地、在哪里使用它,以及何時觸發(fā)它。 他們擁有這些驚人的能力,但也有明顯的缺點。 這是我們所有人面臨的艱巨工作。
你認(rèn)為最終這個問題會得到解決嗎——幻覺,或者暴露其他訓(xùn)練數(shù)據(jù)?
Sundar Pichai:以目前的自回歸大模型技術(shù),幻覺問題還沒有得到解決。 但未來的 AI 系統(tǒng)可能與我們今天的系統(tǒng)不同。 這是技術(shù)的一種版本。 這就像人們認(rèn)為不可能將電腦裝進(jìn)口袋一樣。 20年前,有些人確實很固執(zhí)己見。 同樣,看著這些系統(tǒng)并說你無法設(shè)計更好的系統(tǒng)。 我不同意這種觀點。 已經(jīng)有許多研究探索正在進(jìn)行,以思考如何解決這些問題。
您已經(jīng)談到這是一個多么深刻的轉(zhuǎn)變。 在最后的一些轉(zhuǎn)變中,比如向移動設(shè)備的轉(zhuǎn)變,它并不一定會提高生產(chǎn)力,而生產(chǎn)力長期以來一直持平。 我認(rèn)為有人認(rèn)為這甚至可能加劇收入不平等。 谷歌正在開展哪些工作來確保這一轉(zhuǎn)變更廣泛地造福于社會?
Sundar Pichai:這是一個非常重要的問題。 我在幾個層面上思考這個問題。 在谷歌,我們一直關(guān)注的一件事是:我們?nèi)绾潍@得盡可能廣泛的技術(shù)訪問? 因此,我認(rèn)為即使在移動設(shè)備的情況下,我們使用 Android 所做的工作,數(shù)億人也無法獲得計算訪問權(quán)限。 我們努力推出一款價格實惠的智能手機,價格可能低于 50 美元。
所以讓AI對每個人都有幫助是我思考的框架。 您嘗試向盡可能多的人提供機會。 我認(rèn)為這是其中的一部分。
我們正在深入思考將其應(yīng)用到可以造福人們的用例中。 例如,我們早期進(jìn)行洪水預(yù)報的原因是因為我們意識到 AI 可以檢測模式并做得很好。 我們用它來翻譯 1,000 種語言。 我們現(xiàn)在確實正在嘗試以其他語言提供內(nèi)容,否則您將無法訪問這些內(nèi)容。
這并不能解決你所說的所有問題。 但要深思熟慮何時何地,你要關(guān)注什么樣的問題——我們一直關(guān)注這一點。 以 AlphaFold 等區(qū)域為例。 我們?yōu)槭澜绺鞯氐牟《咎峁┝碎_放的數(shù)據(jù)庫。 但是……誰先使用它? 哪里有賣? AI 不會神奇地讓不平等等一些更困難的問題變得更好; 它可能會加劇這種情況。
但重要的是確保每個人都可以使用這些技術(shù)。 你要盡早開發(fā)它,讓人們有機會參與對話,以便社會能夠思考它并適應(yīng)它。
我們肯定比其他技術(shù)公司更早地參與這項技術(shù)。 你知道,最近的英國 AI 安全論壇或美國國會和政府的工作。 我們正在嘗試建立更多的公私合作伙伴關(guān)系,盡早吸引非營利組織和學(xué)術(shù)機構(gòu)。
對就業(yè)等領(lǐng)域的影響需要深入研究,但我確實認(rèn)為會有驚喜。 會有令人驚訝的正外部性,也會有負(fù)外部性。 解決負(fù)外部性的任務(wù)比任何一家公司都大。 這是社會所有利益相關(guān)者的角色。 所以我沒有簡單的答案。
我可以舉出很多例子來說明移動設(shè)備帶來的好處。 我們已經(jīng)在糖尿病視網(wǎng)膜病變等領(lǐng)域展示了這一點。 世界許多地方?jīng)]有足夠的醫(yī)生來檢測它。
就像我覺得讓世界各地的人們訪問谷歌搜索會產(chǎn)生積極的影響一樣,我認(rèn)為這就是考慮擴大 AI 訪問的方式。
有些事情顯然會提高人們的生產(chǎn)力。 編程就是一個很好的例子。 然而,這項技術(shù)的民主化正是威脅就業(yè)的因素。 即使你沒有找到社會的所有答案——而且一家公司也沒有責(zé)任解決社會問題——一家公司也可以推出一種可以極大改變世界并產(chǎn)生深遠(yuǎn)影響的產(chǎn)品。
Sundar Pichai:我們從未提供面部識別 API。 但人們構(gòu)建了 API,技術(shù)也在不斷向前發(fā)展。 所以它也不在任何一家公司的手中。 技術(shù)將向前發(fā)展。
我認(rèn)為答案比這更復(fù)雜。 社會也可能落后。 如果您不采用這些技術(shù),可能會影響您的經(jīng)濟競爭力。 你可能會失去更多工作。
我認(rèn)為正確的答案是負(fù)責(zé)任地部署技術(shù)并取得進(jìn)展,并考慮可能造成不成比例傷害的領(lǐng)域,并努力減輕傷害。 將會出現(xiàn)更新類型的工作。 如果你看看過去 50、60 年,麻省理工學(xué)院經(jīng)濟學(xué)家的研究表明,大部分創(chuàng)造的新就業(yè)機會都出現(xiàn)在自那時以來出現(xiàn)的新領(lǐng)域。
將會創(chuàng)造出新的就業(yè)機會。 有些工作會變得更好,一些重復(fù)性的工作會被解放出來,讓你可以更有創(chuàng)意地表達(dá)自己。 你可以是一名醫(yī)生,你可以是一名放射科醫(yī)生,你可以是一名程序員。 你花在日常任務(wù)上的時間與高階思維的時間——所有這些都可能改變,讓工作變得更有意義。 還有一些工作可能會被取代。 那么,作為一個社會,如何對人們進(jìn)行再培訓(xùn)、增加技能和創(chuàng)造機會呢?
去年,人們對 AI 的看法確實出現(xiàn)了哲學(xué)分歧。 有人認(rèn)為安全第一,有人認(rèn)為業(yè)務(wù)用例第一,有加速主義者,也有毀滅論者。 你所處的位置必須將所有這些哲學(xué)聯(lián)系起來并將其整合在一起。 我想知道您個人對于嘗試將谷歌的這些利益與這個新世界聯(lián)系起來有何看法,谷歌將成為該領(lǐng)域的領(lǐng)導(dǎo)者。
Sundar Pichai:我是一個技術(shù)樂觀主義者。 基于我的個人生活,我一直感受到對人和人性的信念。 總的來說,我認(rèn)為人類將利用技術(shù)來謀取利益。 所以我一直是個樂觀主義者。 你是對的:像 AI 這樣強大的技術(shù),它具有二元性。
這意味著有時我們會大膽前進(jìn),因為我認(rèn)為我們可以推動最先進(jìn)的技術(shù)。 例如,如果 AI 可以幫助我們解決癌癥或氣候變化等問題,你會想盡一切努力快速前進(jìn)。 但你肯定需要社會制定適應(yīng)框架,無論是深度偽造還是工作崗位轉(zhuǎn)移等。這將是一個前沿——與氣候變化沒有什么不同。 這將是我們未來十年要努力解決的最重要的事情之一。
另一件懸而未決的大事是 AI 的法律環(huán)境。 存在關(guān)于合理使用的問題,關(guān)于能否保護(hù)輸出的問題。 這對于知識產(chǎn)權(quán)來說似乎是一件大事。 您如何告訴使用您產(chǎn)品的人,讓他們有安全感,讓他們知道他們所做的事情不會讓他們被起訴?
Sundar Pichai:這些并不是所有話題都能輕易得到答案。 當(dāng)我們構(gòu)建搜索和 YouTube 等產(chǎn)品時,我們一直在努力實現(xiàn)正確的價值交換。 對于 AI 來說也沒有什么不同。 我們絕對致力于確保我們能夠根據(jù)法律允許的數(shù)據(jù)進(jìn)行訓(xùn)練,并讓人們有機會選擇退出訓(xùn)練。 然后還有一層關(guān)于這一點——關(guān)于什么是合理使用。 為原創(chuàng)內(nèi)容的創(chuàng)作者創(chuàng)造價值非常重要。 這些都是重要的領(lǐng)域。 互聯(lián)網(wǎng)就是一個例子。 或者當(dāng)電子商務(wù)開始時:如何劃分電子商務(wù)和常規(guī)商務(wù)之間的界限?
隨著時間的推移,將會制定新的法律框架,我想這就是隨著這個領(lǐng)域的發(fā)展我會如何看待它。 但與此同時,我們將努力站在法律的正確一邊,并確保我們與當(dāng)今的許多內(nèi)容提供商建立深厚的關(guān)系。 在某些領(lǐng)域存在爭議,但我們正在努力解決這些問題,我致力于解決這個問題。 我們必須創(chuàng)建雙贏的生態(tài)系統(tǒng),讓所有這些都能隨著時間的推移而發(fā)揮作用。
人們現(xiàn)在對網(wǎng)絡(luò)非常擔(dān)心的是搜索的未來。 當(dāng)您擁有一種可以根據(jù)網(wǎng)絡(luò)上的信息為您解答問題的技術(shù)時,人們可能不再需要訪問這些網(wǎng)站。 這似乎也可能對谷歌產(chǎn)生影響。 我還想知道您是否從自己的業(yè)務(wù)角度來考慮這個問題。
Sundar Pichai:我們在搜索領(lǐng)域的獨特價值主張之一是,我們幫助用戶發(fā)現(xiàn)和學(xué)習(xí)新事物、找到答案,但始終著眼于與他們分享網(wǎng)絡(luò)上存在的豐富性和多樣性。 即使我們正在經(jīng)歷搜索生成體驗之旅,這也是事實。 這是我們開發(fā)產(chǎn)品的重要原則。 我不認(rèn)為人們總是在搜索中說:“幫我回答一下吧?!?可能有一兩個問題是你想要的,但即使你回來了,你也會學(xué)到更多,甚至在這段旅程中,會更深入。 我們始終希望確保我們做對了。 我認(rèn)為這不會改變。 重要的是我們要在那里取得平衡。
同樣,如果你深入地交付價值,那么你所交付的東西就具有商業(yè)價值。 從桌面到移動設(shè)備,我們都遇到過類似的問題。 這對我們來說并不新鮮。 根據(jù)我們所看到的一切以及用戶對高質(zhì)量廣告的反應(yīng),我感到很舒服。 YouTube 是我們開發(fā)訂閱模式的一個很好的例子。 這也起到了很好的作用。
您認(rèn)為明年,隨著這些產(chǎn)品開始真正進(jìn)入市場并開始互動,人們的體驗將會發(fā)生怎樣的變化? 他們的經(jīng)歷會發(fā)生怎樣的改變?
Sundar Pichai:我認(rèn)為一年后,任何在 Google Docs 中開始做某事的人都會期待一些不同的東西。 如果你把這些產(chǎn)品給用戶使用,然后讓他們放回到我們擁有的 Google 文檔版本中,比如說,到 2022 年,他們會發(fā)現(xiàn)它已經(jīng)過時了。 就像,對于我的孩子來說,如果他們沒有拼寫檢查,他們從根本上會認(rèn)為它壞了。 你和我可能還記得在拼寫檢查之前使用這些產(chǎn)品的感覺。 但我們比任何其他公司都在搜索中融入了如此多的AI,人們認(rèn)為這是理所當(dāng)然的。 這是我隨著時間的推移學(xué)到的一件事。 他們認(rèn)為這是理所當(dāng)然的。
就人們可以做的新事情而言,隨著我們開發(fā)多模式功能,人們將能夠以以前無法完成的方式完成更復(fù)雜的任務(wù)。 并且會有更強大的實際用例。
參考資料:
https://www.technologyreview.com/2023/12/06/1084539/google-ceo-sundar-pichai-on-gemini-and-the-coming-age-of-ai/