正在閱讀:

深度測(cè)評(píng)ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

掃一掃下載界面新聞APP

深度測(cè)評(píng)ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

三大對(duì)話(huà)機(jī)器人比較:Bard、ChatGPT和新版Bing。

編譯|智東西  吳菲凝

編輯|李水青

智東西3月30日消息,近日,外媒The verge測(cè)評(píng)了谷歌Bard、OpenAI的ChatGPT兩款對(duì)話(huà)機(jī)器人產(chǎn)品和基于ChatGPT的微軟新版Bing搜索引擎,通過(guò)提出一系列問(wèn)題來(lái)比較其優(yōu)劣勢(shì),問(wèn)題覆蓋了節(jié)假日提醒、游戲建議、詩(shī)歌創(chuàng)作以及抵押貸款計(jì)算等一系列具體場(chǎng)景。

隨著升級(jí)GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對(duì)標(biāo)產(chǎn)品Bard也開(kāi)啟測(cè)試,大廠AI軍備競(jìng)賽一觸即發(fā)。這三款產(chǎn)品以其高智能化、高擬人化的形態(tài)引人注目,同時(shí),三者在功能和使用場(chǎng)景上存在不少重疊部分,常被用戶(hù)拿來(lái)加以比對(duì),那哪一款更好用呢?

通過(guò)在8個(gè)具體應(yīng)用場(chǎng)景中的問(wèn)答對(duì)話(huà)測(cè)評(píng),The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準(zhǔn)確,比如在解一道數(shù)學(xué)題時(shí),它會(huì)解釋每一個(gè)步驟的含義。

Bing雖然是基于GPT語(yǔ)言模型的搜索引擎,但其對(duì)自然語(yǔ)言的理解和運(yùn)用能力不及ChatGPT,它在回答其中大部分問(wèn)題時(shí)表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢(shì)所在,它可能更適合用于搜集和整理信息。

而B(niǎo)ard在回答多個(gè)問(wèn)題時(shí),提供的信息都存在數(shù)據(jù)錯(cuò)誤、來(lái)源虛假等隱患,用戶(hù)使用時(shí)需要謹(jǐn)慎對(duì)待。但它也能帶給用戶(hù)一些驚喜,比如能指出一款熱門(mén)游戲中大Boss的致命弱點(diǎn),并提出靠譜攻略。

下文對(duì)測(cè)評(píng)問(wèn)題進(jìn)行了梳理和介紹,以便幫助用戶(hù)判斷在不同場(chǎng)景下應(yīng)該使用哪款語(yǔ)言模型產(chǎn)品。

01.一個(gè)紐約市管道工的平均工資是多少?

首先來(lái)看一個(gè)信息向問(wèn)題,The Verge記者問(wèn):“一個(gè)紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。

Bard引用了美國(guó)勞工統(tǒng)計(jì)局(BLS)報(bào)告中的數(shù)據(jù),稱(chēng)2020年5月美國(guó)管道工的年均工資中位數(shù)為52590美元,而這實(shí)際上是2017年5月時(shí)的數(shù)據(jù)。它還稱(chēng)美國(guó)管道工協(xié)會(huì)2021年公布的一項(xiàng)調(diào)查中顯示,紐約市的平均工資為76810美元,但這一組織實(shí)際上并不存在。

▲B(niǎo)ard的回答

測(cè)試者猜測(cè),Bard從求職平臺(tái)Career Explorer中找到了這兩個(gè)數(shù)字,然后為其編了個(gè)毫無(wú)關(guān)聯(lián)的來(lái)源。

而B(niǎo)ing給出的回答中顯示,據(jù)Zippis的調(diào)查,紐約市水管工的平均年薪為63889美元,平均時(shí)薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來(lái)源鏈接,用戶(hù)可以直接點(diǎn)擊查看數(shù)據(jù)來(lái)源。

▲B(niǎo)ing的回答

在測(cè)試者看來(lái),ChatGPT的答案最廣泛又通用,也最“人性化”。

它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬(wàn)至8萬(wàn)美元,而且這個(gè)數(shù)字可能會(huì)受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類(lèi)型影響而有所不同。ChatGPT還補(bǔ)充回答道,用戶(hù)可以在美國(guó)勞工統(tǒng)計(jì)局、Glassdoor、Indeed或Payscale等專(zhuān)業(yè)網(wǎng)站上找到更新的信息。它承認(rèn)“作為一個(gè)AI語(yǔ)言模型,我沒(méi)有能力訪問(wèn)實(shí)時(shí)數(shù)據(jù)”。

▲ChatGPT的回答

02.用抑揚(yáng)格四步音寫(xiě)一首關(guān)于蟲(chóng)子的詩(shī)

The Verge的測(cè)試者向三款聊天機(jī)器人發(fā)布了一項(xiàng)任務(wù):用抑揚(yáng)格四步音來(lái)寫(xiě)一首關(guān)于蟲(chóng)子的詩(shī)。這對(duì)AI來(lái)說(shuō)極具挑戰(zhàn),充分考驗(yàn)了它們的創(chuàng)造力。

抑揚(yáng)格四步音(anapestic tetrameter)是詩(shī)歌中常用的格律之一,比如莎士比亞的十四行詩(shī)就是用抑揚(yáng)格四步音寫(xiě)的。抑揚(yáng)格四步音要求每行詩(shī)都包含四個(gè)單元,每三個(gè)音節(jié)的格律分別為無(wú)重音、非重音和重音。

Bard寫(xiě)的詩(shī)的大意是:泥土中有條蟲(chóng),在土地的紋路中蠕動(dòng)爬行。它筑起自己的圍墻,一個(gè)遮擋著陽(yáng)光的屏障。

▲B(niǎo)ard創(chuàng)作的抑揚(yáng)格四步詩(shī)

Bing撰寫(xiě)的詩(shī)文更加簡(jiǎn)單,如下圖所示,翻譯成中文的大意是:蟲(chóng)子的生活很簡(jiǎn)單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。

▲B(niǎo)ing創(chuàng)作的抑揚(yáng)格四步詩(shī)

ChatGPT撰寫(xiě)的詩(shī)文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動(dòng)的蟲(chóng)子。在肥沃的黑土中,它歡快地滑過(guò)。在一個(gè)看不見(jiàn)的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑?!?/p>

▲ChatGPT創(chuàng)作的抑揚(yáng)格四步詩(shī)

從三款聊天機(jī)器人給出的答案來(lái)看,ChatGPT的格律最接近,寫(xiě)出的句子也最有詩(shī)的感覺(jué);Bing的回答中規(guī)中矩;而B(niǎo)ard的語(yǔ)言較為干澀、沉悶。

03.數(shù)學(xué)題:2230增加20%之后是多少?

值得一提的是,這些基于大型語(yǔ)言模型基礎(chǔ)上創(chuàng)造出來(lái)的聊天機(jī)器人,擁有著人類(lèi)迄今為止最復(fù)雜的計(jì)算機(jī)程序,在文學(xué)創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學(xué)計(jì)算上表現(xiàn)得慘不忍睹。

測(cè)試者提了這樣一個(gè)問(wèn)題:上周我收到了2230封關(guān)于AI的郵件,這周比上周多了20%,那我這周收到了多少封?

Bard給出了2686的錯(cuò)誤答案。

▲B(niǎo)ard給出的錯(cuò)誤回答

Bing的回答給出計(jì)算步驟并得到了正確結(jié)果,它稱(chēng):“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676?!?/p>

▲B(niǎo)ing的答題步驟

ChatGPT的回答同樣給出了解題步驟,“通過(guò)將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>

▲ChatGPT給出了正確回答

為了進(jìn)行更復(fù)雜的計(jì)算,測(cè)試者要求每個(gè)聊天機(jī)器人回答這道題:如果要在25年內(nèi)以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?

三款聊天機(jī)器人都沒(méi)能給出在線(xiàn)抵押貸款計(jì)算器所提供的正確答案,Bard和Bing甚至在每次詢(xún)問(wèn)中給出的答案都不同。ChatGPT在多次提問(wèn)中給出的結(jié)果都是一致的,但卻是“一致的錯(cuò)誤”,而且它執(zhí)著于解釋計(jì)算過(guò)程,不能讓用戶(hù)直接清晰地得到結(jié)果。

測(cè)試者并不對(duì)三款聊天機(jī)器人在數(shù)學(xué)方面的薄弱感到驚訝。它們是在大量的文本中訓(xùn)練出來(lái)的,并沒(méi)有編碼規(guī)則來(lái)教它們進(jìn)行數(shù)學(xué)計(jì)算。所以當(dāng)它們面對(duì)大量數(shù)字時(shí),會(huì)犯些不可思議的錯(cuò)誤,但它們又能借助工具來(lái)進(jìn)行修補(bǔ)。比如,Bing會(huì)將用戶(hù)引導(dǎo)到一個(gè)貸款計(jì)算器網(wǎng)站,ChatGPT不久前推出的插件中也包含了計(jì)算知識(shí)搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機(jī)器人的要更準(zhǔn)確、靠譜些。

04.如何在《埃爾登指環(huán)》中打敗Mamenia?

在FromSofeware工作室設(shè)計(jì)的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶(hù)往往需要花80至100個(gè)小時(shí)去尋找游戲提示然后打敗Boss。Melenia是用戶(hù)公認(rèn)的整款游戲中最難對(duì)付的Boss之一,有位用戶(hù)甚至花了206次嘗試才最終將其擊敗。如果用戶(hù)想要進(jìn)一步獲得一些武器列表信息或是Malenia的動(dòng)作細(xì)節(jié)的話(huà),就需要聊天機(jī)器人來(lái)助一臂之力。

相較于另外兩款聊天機(jī)器人,Bard在這個(gè)場(chǎng)景中表現(xiàn)得更出色。Bard為用戶(hù)提供了擊敗Malenia的關(guān)鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來(lái)進(jìn)行攻擊。

▲B(niǎo)ard指出了攻擊Malenia的幾個(gè)關(guān)鍵信息點(diǎn)

雖然這個(gè)關(guān)鍵信息點(diǎn)讓Bard略占上風(fēng),但它給出的關(guān)于Malenia的總結(jié)卻是漏洞百出。比如,Bard稱(chēng)Malenia擅長(zhǎng)遠(yuǎn)程攻擊,且行動(dòng)難以預(yù)測(cè),但實(shí)際上Malenia是個(gè)近戰(zhàn)戰(zhàn)士,也并沒(méi)有Bard所認(rèn)為的那么不可預(yù)測(cè),只是難以躲避而已。

Bing稱(chēng),“Malenia在艾爾登指環(huán)中是一個(gè)傳說(shuō)中很難打敗的Boss,她最大的弱點(diǎn)是傷害,所以對(duì)抗她最好辦法就是釋放她的血量。失血是特別有效的,因?yàn)樗档土薓alenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中。”

它給出的回答中同樣提到Malenia最大的弱點(diǎn)是出血傷害,并且提醒玩家對(duì)抗她的最好方法是使用失血或凍傷技能。Bing的回答簡(jiǎn)潔明了,直接提到了關(guān)鍵傷害點(diǎn)和應(yīng)該使用哪種武器。

▲B(niǎo)ing的回答更加簡(jiǎn)潔直觀

ChatGPT則詳細(xì)地列出了打敗Malenia的一系列技巧和策略,如升級(jí)裝備、研究攻擊模式、提升耐力、遠(yuǎn)程攻擊、精神召喚等。

▲ChatGPT給出的詳細(xì)策略

ChatGPT的回答更加詳細(xì),它還鼓勵(lì)玩家嘗試多用不同的戰(zhàn)術(shù)來(lái)進(jìn)行攻擊,構(gòu)建出一套自己的打法。

05.如何在電腦中安裝內(nèi)存?

測(cè)試者想考驗(yàn)語(yǔ)言模型對(duì)于RAM(內(nèi)存)的安裝步驟的思路。

大多數(shù)筆記本電腦都需要通過(guò)雙通道模式來(lái)運(yùn)行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個(gè)搖桿并排放置的話(huà),就相當(dāng)于RAM沒(méi)辦法以最佳的狀態(tài)來(lái)運(yùn)行,用戶(hù)花的錢(qián)全部打了水漂。

ChatGPT、Bing和Bard三款聊天機(jī)器人都為安裝提供了可靠的建議,但還不夠全面。

Bard列出了每一步的操作過(guò)程:“關(guān)閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側(cè)的標(biāo)簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對(duì)齊,然后按下去,直到聽(tīng)到咔嗒一聲;插上電腦電源,然后開(kāi)機(jī)啟動(dòng)?!?/p>

Bard還補(bǔ)充道:“在觸摸PC內(nèi)部的任何組件之前,要確保組件沒(méi)有被損壞。處理新的RAM模塊時(shí)也要小心,模塊上的連接器非常脆弱,很容易損壞。”

▲B(niǎo)ard的回答

Bing的回答是:“關(guān)閉計(jì)算機(jī)并拔下所有連接到它的電纜;拆下電腦機(jī)箱的側(cè)面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對(duì)每一根內(nèi)存條重復(fù)這個(gè)過(guò)程,直到完成;插入模塊?!?/p>

▲B(niǎo)ing 給出的詳細(xì)安裝步驟

ChatGPT的回答只選擇了RAM安裝過(guò)程中的關(guān)鍵部分,它提醒用戶(hù)在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒(méi)有提醒用戶(hù)在安裝后的BIOS設(shè)置中啟用RAM,這樣導(dǎo)致用戶(hù)無(wú)法用最快的時(shí)間來(lái)運(yùn)行RAM以獲得最佳性能。

▲ChatGPT提供的RAM安裝步驟

06.提供一份巧克力蛋糕食譜

除了提示程序安裝步驟之外,生成一份食譜也是個(gè)非??简?yàn)聊天機(jī)器人創(chuàng)造力的請(qǐng)求。

測(cè)試者提出了一個(gè)請(qǐng)求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來(lái)源。

它們提供的食譜中可能會(huì)有完全不同的面粉、水、黃油、雞蛋與糖的比例,導(dǎo)致最終做出的蛋糕更蓬松、更干或是更濕潤(rùn)。

Bard提供的蛋糕配方誤估了時(shí)間和克數(shù),配方中蛋糕的烘烤時(shí)間完全不夠,用戶(hù)按照它提供的配方只能得到一堆軟塌的面粉黃油混合物?!鳥(niǎo)ard提供的蛋糕配方

除此以外,Bard對(duì)于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒(méi)有在奶油配方中加牛奶或是重奶油。

Bing在回答中分享了一個(gè)特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。

▲B(niǎo)ing提供的蛋糕配方

ChatGPT回答中給出的配方非??孔V,它從一個(gè)網(wǎng)站中選擇了巧克力蛋糕的配方,又從另一個(gè)網(wǎng)站中收集來(lái)一份奶油的打發(fā)配方,并自行補(bǔ)充了一些做蛋糕過(guò)程中要注意的細(xì)節(jié),比如將烤箱預(yù)熱到175攝氏度,在蛋糕底盤(pán)上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細(xì)節(jié)在菜譜來(lái)源網(wǎng)站中都未曾提及過(guò),而ChatGPT貼心地補(bǔ)充了進(jìn)去。

▲ChatGPT提供的蛋糕配方

07.制定一項(xiàng)馬拉松訓(xùn)練計(jì)劃

當(dāng)測(cè)試者提出“為我設(shè)計(jì)一項(xiàng)簡(jiǎn)潔的馬拉松訓(xùn)練計(jì)劃”的請(qǐng)求時(shí),三款工具展示出了截然不同的風(fēng)格。

Bard在標(biāo)題中稱(chēng)“這是一份適合初學(xué)者的、為期三個(gè)月的馬拉松訓(xùn)練計(jì)劃”,但最終卻只列出了三周的具體訓(xùn)練計(jì)劃,包括每天要進(jìn)行的項(xiàng)目以及何時(shí)休息。值得一提的是,它沒(méi)有一開(kāi)始就制定高耗能的訓(xùn)練量,計(jì)劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。

▲B(niǎo)ard制定的馬拉松訓(xùn)練計(jì)劃

Bing幾乎沒(méi)有費(fèi)心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點(diǎn)讓人失望,畢竟這次測(cè)試就是為了看看它們的回答,而不是直接得到一份跑步愛(ài)好者們的專(zhuān)業(yè)建議。

▲B(niǎo)ing提供了外部網(wǎng)站鏈接

ChatGPT詳細(xì)列出一個(gè)完整的訓(xùn)練時(shí)間表,并建議跑步者的速度與平時(shí)訓(xùn)練時(shí)的速度相似,這份回答完全可以當(dāng)作一份跑步訓(xùn)練模板來(lái)使用。

但它最大的問(wèn)題在于不知道回答應(yīng)該在哪里就打住,它制定的計(jì)劃太過(guò)于詳細(xì),沒(méi)有滿(mǎn)足測(cè)試者簡(jiǎn)潔清晰的要求。

▲ChatGPT制定的馬拉松訓(xùn)練計(jì)劃表

08.提供一些關(guān)于羅馬旅游的建議

當(dāng)測(cè)試者讓它們提供一些關(guān)于羅馬的旅游建議時(shí),這三款聊天機(jī)器人的回答都充滿(mǎn)了驚喜。

Bard列出了一些適合參觀的地方,比如庫(kù)瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點(diǎn)。而且更貼心的是,它推薦的這些景點(diǎn)都避開(kāi)了最繁華的商業(yè)區(qū)和人流密集的景點(diǎn),反而推薦了許多當(dāng)?shù)厝顺Hサ牡胤?,比如特拉斯提弗列區(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。

▲B(niǎo)ard的回答

Bing提供的景點(diǎn)推薦中有和Bard重復(fù)的部分,但也補(bǔ)充了另外一些景點(diǎn),如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門(mén)特大教堂(Basilica di San Clemente)等。

▲B(niǎo)ing的回答

ChatGPT也建議游客去一些不為人知的小眾景點(diǎn)游玩,這樣更能獲得一些新奇的體驗(yàn)。它還補(bǔ)充說(shuō),即使是不知名的景點(diǎn)也會(huì)有高峰時(shí)段,建議游客們盡量在非高峰時(shí)段或是工作日去游覽。

▲ChatGPT的回答

09.結(jié)語(yǔ):狂飆之后的AI語(yǔ)言模型更需加速追趕差距

這些在不同應(yīng)用場(chǎng)景下的測(cè)試把每個(gè)聊天機(jī)器人的優(yōu)劣勢(shì)都充分展示了出來(lái)。如果用戶(hù)想用聊天對(duì)話(huà)的方式來(lái)獲取一些創(chuàng)意寫(xiě)作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網(wǎng)絡(luò)資源,并且快速獲取一個(gè)快速跳轉(zhuǎn)鏈接的話(huà),Bing則更合適一些;而B(niǎo)ard目前的表現(xiàn)在各方面都略遜一籌。

在人與人之間的技能差異被AI語(yǔ)言模型逐步放大的過(guò)程中,我們也能清晰感知到語(yǔ)言模型之間的能力差距。

但我們需要明白,無(wú)論是人類(lèi)自身,還是ChatGPT、Bing、Bard等語(yǔ)言模型,進(jìn)步一定是個(gè)持續(xù)的過(guò)程。這些聊天機(jī)器人們目前所展示出的形態(tài)還只是技術(shù)進(jìn)步中的一環(huán),但目前他們所能做到的事已經(jīng)震驚了全世界,所帶來(lái)的沖擊力甚至遠(yuǎn)大于之前的移動(dòng)互聯(lián)網(wǎng)造成的影響。

無(wú)論是功能已經(jīng)越來(lái)越全面的ChatGPT也好,暫時(shí)落后一步的Bard也好,當(dāng)我們以發(fā)展的目光來(lái)看待它們所帶來(lái)的技術(shù)變革時(shí),就會(huì)對(duì)它目前欠缺的能力更加寬容,我們需要以一種更為長(zhǎng)遠(yuǎn)的深刻洞察來(lái)對(duì)待它們。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

谷歌

5.8k
  • 谷歌據(jù)悉將開(kāi)發(fā)可控制計(jì)算機(jī)的人工智能
  • 高通與谷歌達(dá)成多年戰(zhàn)略合作,將提供生成式AI數(shù)字座艙解決方案

微軟

4.8k
  • 因股票獎(jiǎng)勵(lì),微軟CEO納德拉2024財(cái)年薪酬增長(zhǎng)63%至7900萬(wàn)美元
  • 歐盟隱私監(jiān)管機(jī)構(gòu)對(duì)領(lǐng)英罰款3.1億歐元

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

深度測(cè)評(píng)ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

三大對(duì)話(huà)機(jī)器人比較:Bard、ChatGPT和新版Bing。

編譯|智東西  吳菲凝

編輯|李水青

智東西3月30日消息,近日,外媒The verge測(cè)評(píng)了谷歌Bard、OpenAI的ChatGPT兩款對(duì)話(huà)機(jī)器人產(chǎn)品和基于ChatGPT的微軟新版Bing搜索引擎,通過(guò)提出一系列問(wèn)題來(lái)比較其優(yōu)劣勢(shì),問(wèn)題覆蓋了節(jié)假日提醒、游戲建議、詩(shī)歌創(chuàng)作以及抵押貸款計(jì)算等一系列具體場(chǎng)景。

隨著升級(jí)GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對(duì)標(biāo)產(chǎn)品Bard也開(kāi)啟測(cè)試,大廠AI軍備競(jìng)賽一觸即發(fā)。這三款產(chǎn)品以其高智能化、高擬人化的形態(tài)引人注目,同時(shí),三者在功能和使用場(chǎng)景上存在不少重疊部分,常被用戶(hù)拿來(lái)加以比對(duì),那哪一款更好用呢?

通過(guò)在8個(gè)具體應(yīng)用場(chǎng)景中的問(wèn)答對(duì)話(huà)測(cè)評(píng),The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準(zhǔn)確,比如在解一道數(shù)學(xué)題時(shí),它會(huì)解釋每一個(gè)步驟的含義。

Bing雖然是基于GPT語(yǔ)言模型的搜索引擎,但其對(duì)自然語(yǔ)言的理解和運(yùn)用能力不及ChatGPT,它在回答其中大部分問(wèn)題時(shí)表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢(shì)所在,它可能更適合用于搜集和整理信息。

而B(niǎo)ard在回答多個(gè)問(wèn)題時(shí),提供的信息都存在數(shù)據(jù)錯(cuò)誤、來(lái)源虛假等隱患,用戶(hù)使用時(shí)需要謹(jǐn)慎對(duì)待。但它也能帶給用戶(hù)一些驚喜,比如能指出一款熱門(mén)游戲中大Boss的致命弱點(diǎn),并提出靠譜攻略。

下文對(duì)測(cè)評(píng)問(wèn)題進(jìn)行了梳理和介紹,以便幫助用戶(hù)判斷在不同場(chǎng)景下應(yīng)該使用哪款語(yǔ)言模型產(chǎn)品。

01.一個(gè)紐約市管道工的平均工資是多少?

首先來(lái)看一個(gè)信息向問(wèn)題,The Verge記者問(wèn):“一個(gè)紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。

Bard引用了美國(guó)勞工統(tǒng)計(jì)局(BLS)報(bào)告中的數(shù)據(jù),稱(chēng)2020年5月美國(guó)管道工的年均工資中位數(shù)為52590美元,而這實(shí)際上是2017年5月時(shí)的數(shù)據(jù)。它還稱(chēng)美國(guó)管道工協(xié)會(huì)2021年公布的一項(xiàng)調(diào)查中顯示,紐約市的平均工資為76810美元,但這一組織實(shí)際上并不存在。

▲B(niǎo)ard的回答

測(cè)試者猜測(cè),Bard從求職平臺(tái)Career Explorer中找到了這兩個(gè)數(shù)字,然后為其編了個(gè)毫無(wú)關(guān)聯(lián)的來(lái)源。

而B(niǎo)ing給出的回答中顯示,據(jù)Zippis的調(diào)查,紐約市水管工的平均年薪為63889美元,平均時(shí)薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來(lái)源鏈接,用戶(hù)可以直接點(diǎn)擊查看數(shù)據(jù)來(lái)源。

▲B(niǎo)ing的回答

在測(cè)試者看來(lái),ChatGPT的答案最廣泛又通用,也最“人性化”。

它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬(wàn)至8萬(wàn)美元,而且這個(gè)數(shù)字可能會(huì)受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類(lèi)型影響而有所不同。ChatGPT還補(bǔ)充回答道,用戶(hù)可以在美國(guó)勞工統(tǒng)計(jì)局、Glassdoor、Indeed或Payscale等專(zhuān)業(yè)網(wǎng)站上找到更新的信息。它承認(rèn)“作為一個(gè)AI語(yǔ)言模型,我沒(méi)有能力訪問(wèn)實(shí)時(shí)數(shù)據(jù)”。

▲ChatGPT的回答

02.用抑揚(yáng)格四步音寫(xiě)一首關(guān)于蟲(chóng)子的詩(shī)

The Verge的測(cè)試者向三款聊天機(jī)器人發(fā)布了一項(xiàng)任務(wù):用抑揚(yáng)格四步音來(lái)寫(xiě)一首關(guān)于蟲(chóng)子的詩(shī)。這對(duì)AI來(lái)說(shuō)極具挑戰(zhàn),充分考驗(yàn)了它們的創(chuàng)造力。

抑揚(yáng)格四步音(anapestic tetrameter)是詩(shī)歌中常用的格律之一,比如莎士比亞的十四行詩(shī)就是用抑揚(yáng)格四步音寫(xiě)的。抑揚(yáng)格四步音要求每行詩(shī)都包含四個(gè)單元,每三個(gè)音節(jié)的格律分別為無(wú)重音、非重音和重音。

Bard寫(xiě)的詩(shī)的大意是:泥土中有條蟲(chóng),在土地的紋路中蠕動(dòng)爬行。它筑起自己的圍墻,一個(gè)遮擋著陽(yáng)光的屏障。

▲B(niǎo)ard創(chuàng)作的抑揚(yáng)格四步詩(shī)

Bing撰寫(xiě)的詩(shī)文更加簡(jiǎn)單,如下圖所示,翻譯成中文的大意是:蟲(chóng)子的生活很簡(jiǎn)單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。

▲B(niǎo)ing創(chuàng)作的抑揚(yáng)格四步詩(shī)

ChatGPT撰寫(xiě)的詩(shī)文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動(dòng)的蟲(chóng)子。在肥沃的黑土中,它歡快地滑過(guò)。在一個(gè)看不見(jiàn)的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑?!?/p>

▲ChatGPT創(chuàng)作的抑揚(yáng)格四步詩(shī)

從三款聊天機(jī)器人給出的答案來(lái)看,ChatGPT的格律最接近,寫(xiě)出的句子也最有詩(shī)的感覺(jué);Bing的回答中規(guī)中矩;而B(niǎo)ard的語(yǔ)言較為干澀、沉悶。

03.數(shù)學(xué)題:2230增加20%之后是多少?

值得一提的是,這些基于大型語(yǔ)言模型基礎(chǔ)上創(chuàng)造出來(lái)的聊天機(jī)器人,擁有著人類(lèi)迄今為止最復(fù)雜的計(jì)算機(jī)程序,在文學(xué)創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學(xué)計(jì)算上表現(xiàn)得慘不忍睹。

測(cè)試者提了這樣一個(gè)問(wèn)題:上周我收到了2230封關(guān)于AI的郵件,這周比上周多了20%,那我這周收到了多少封?

Bard給出了2686的錯(cuò)誤答案。

▲B(niǎo)ard給出的錯(cuò)誤回答

Bing的回答給出計(jì)算步驟并得到了正確結(jié)果,它稱(chēng):“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676?!?/p>

▲B(niǎo)ing的答題步驟

ChatGPT的回答同樣給出了解題步驟,“通過(guò)將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>

▲ChatGPT給出了正確回答

為了進(jìn)行更復(fù)雜的計(jì)算,測(cè)試者要求每個(gè)聊天機(jī)器人回答這道題:如果要在25年內(nèi)以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?

三款聊天機(jī)器人都沒(méi)能給出在線(xiàn)抵押貸款計(jì)算器所提供的正確答案,Bard和Bing甚至在每次詢(xún)問(wèn)中給出的答案都不同。ChatGPT在多次提問(wèn)中給出的結(jié)果都是一致的,但卻是“一致的錯(cuò)誤”,而且它執(zhí)著于解釋計(jì)算過(guò)程,不能讓用戶(hù)直接清晰地得到結(jié)果。

測(cè)試者并不對(duì)三款聊天機(jī)器人在數(shù)學(xué)方面的薄弱感到驚訝。它們是在大量的文本中訓(xùn)練出來(lái)的,并沒(méi)有編碼規(guī)則來(lái)教它們進(jìn)行數(shù)學(xué)計(jì)算。所以當(dāng)它們面對(duì)大量數(shù)字時(shí),會(huì)犯些不可思議的錯(cuò)誤,但它們又能借助工具來(lái)進(jìn)行修補(bǔ)。比如,Bing會(huì)將用戶(hù)引導(dǎo)到一個(gè)貸款計(jì)算器網(wǎng)站,ChatGPT不久前推出的插件中也包含了計(jì)算知識(shí)搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機(jī)器人的要更準(zhǔn)確、靠譜些。

04.如何在《埃爾登指環(huán)》中打敗Mamenia?

在FromSofeware工作室設(shè)計(jì)的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶(hù)往往需要花80至100個(gè)小時(shí)去尋找游戲提示然后打敗Boss。Melenia是用戶(hù)公認(rèn)的整款游戲中最難對(duì)付的Boss之一,有位用戶(hù)甚至花了206次嘗試才最終將其擊敗。如果用戶(hù)想要進(jìn)一步獲得一些武器列表信息或是Malenia的動(dòng)作細(xì)節(jié)的話(huà),就需要聊天機(jī)器人來(lái)助一臂之力。

相較于另外兩款聊天機(jī)器人,Bard在這個(gè)場(chǎng)景中表現(xiàn)得更出色。Bard為用戶(hù)提供了擊敗Malenia的關(guān)鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來(lái)進(jìn)行攻擊。

▲B(niǎo)ard指出了攻擊Malenia的幾個(gè)關(guān)鍵信息點(diǎn)

雖然這個(gè)關(guān)鍵信息點(diǎn)讓Bard略占上風(fēng),但它給出的關(guān)于Malenia的總結(jié)卻是漏洞百出。比如,Bard稱(chēng)Malenia擅長(zhǎng)遠(yuǎn)程攻擊,且行動(dòng)難以預(yù)測(cè),但實(shí)際上Malenia是個(gè)近戰(zhàn)戰(zhàn)士,也并沒(méi)有Bard所認(rèn)為的那么不可預(yù)測(cè),只是難以躲避而已。

Bing稱(chēng),“Malenia在艾爾登指環(huán)中是一個(gè)傳說(shuō)中很難打敗的Boss,她最大的弱點(diǎn)是傷害,所以對(duì)抗她最好辦法就是釋放她的血量。失血是特別有效的,因?yàn)樗档土薓alenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中?!?/p>

它給出的回答中同樣提到Malenia最大的弱點(diǎn)是出血傷害,并且提醒玩家對(duì)抗她的最好方法是使用失血或凍傷技能。Bing的回答簡(jiǎn)潔明了,直接提到了關(guān)鍵傷害點(diǎn)和應(yīng)該使用哪種武器。

▲B(niǎo)ing的回答更加簡(jiǎn)潔直觀

ChatGPT則詳細(xì)地列出了打敗Malenia的一系列技巧和策略,如升級(jí)裝備、研究攻擊模式、提升耐力、遠(yuǎn)程攻擊、精神召喚等。

▲ChatGPT給出的詳細(xì)策略

ChatGPT的回答更加詳細(xì),它還鼓勵(lì)玩家嘗試多用不同的戰(zhàn)術(shù)來(lái)進(jìn)行攻擊,構(gòu)建出一套自己的打法。

05.如何在電腦中安裝內(nèi)存?

測(cè)試者想考驗(yàn)語(yǔ)言模型對(duì)于RAM(內(nèi)存)的安裝步驟的思路。

大多數(shù)筆記本電腦都需要通過(guò)雙通道模式來(lái)運(yùn)行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個(gè)搖桿并排放置的話(huà),就相當(dāng)于RAM沒(méi)辦法以最佳的狀態(tài)來(lái)運(yùn)行,用戶(hù)花的錢(qián)全部打了水漂。

ChatGPT、Bing和Bard三款聊天機(jī)器人都為安裝提供了可靠的建議,但還不夠全面。

Bard列出了每一步的操作過(guò)程:“關(guān)閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側(cè)的標(biāo)簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對(duì)齊,然后按下去,直到聽(tīng)到咔嗒一聲;插上電腦電源,然后開(kāi)機(jī)啟動(dòng)?!?/p>

Bard還補(bǔ)充道:“在觸摸PC內(nèi)部的任何組件之前,要確保組件沒(méi)有被損壞。處理新的RAM模塊時(shí)也要小心,模塊上的連接器非常脆弱,很容易損壞?!?/p>

▲B(niǎo)ard的回答

Bing的回答是:“關(guān)閉計(jì)算機(jī)并拔下所有連接到它的電纜;拆下電腦機(jī)箱的側(cè)面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對(duì)每一根內(nèi)存條重復(fù)這個(gè)過(guò)程,直到完成;插入模塊。”

▲B(niǎo)ing 給出的詳細(xì)安裝步驟

ChatGPT的回答只選擇了RAM安裝過(guò)程中的關(guān)鍵部分,它提醒用戶(hù)在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒(méi)有提醒用戶(hù)在安裝后的BIOS設(shè)置中啟用RAM,這樣導(dǎo)致用戶(hù)無(wú)法用最快的時(shí)間來(lái)運(yùn)行RAM以獲得最佳性能。

▲ChatGPT提供的RAM安裝步驟

06.提供一份巧克力蛋糕食譜

除了提示程序安裝步驟之外,生成一份食譜也是個(gè)非??简?yàn)聊天機(jī)器人創(chuàng)造力的請(qǐng)求。

測(cè)試者提出了一個(gè)請(qǐng)求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來(lái)源。

它們提供的食譜中可能會(huì)有完全不同的面粉、水、黃油、雞蛋與糖的比例,導(dǎo)致最終做出的蛋糕更蓬松、更干或是更濕潤(rùn)。

Bard提供的蛋糕配方誤估了時(shí)間和克數(shù),配方中蛋糕的烘烤時(shí)間完全不夠,用戶(hù)按照它提供的配方只能得到一堆軟塌的面粉黃油混合物?!鳥(niǎo)ard提供的蛋糕配方

除此以外,Bard對(duì)于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒(méi)有在奶油配方中加牛奶或是重奶油。

Bing在回答中分享了一個(gè)特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。

▲B(niǎo)ing提供的蛋糕配方

ChatGPT回答中給出的配方非??孔V,它從一個(gè)網(wǎng)站中選擇了巧克力蛋糕的配方,又從另一個(gè)網(wǎng)站中收集來(lái)一份奶油的打發(fā)配方,并自行補(bǔ)充了一些做蛋糕過(guò)程中要注意的細(xì)節(jié),比如將烤箱預(yù)熱到175攝氏度,在蛋糕底盤(pán)上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細(xì)節(jié)在菜譜來(lái)源網(wǎng)站中都未曾提及過(guò),而ChatGPT貼心地補(bǔ)充了進(jìn)去。

▲ChatGPT提供的蛋糕配方

07.制定一項(xiàng)馬拉松訓(xùn)練計(jì)劃

當(dāng)測(cè)試者提出“為我設(shè)計(jì)一項(xiàng)簡(jiǎn)潔的馬拉松訓(xùn)練計(jì)劃”的請(qǐng)求時(shí),三款工具展示出了截然不同的風(fēng)格。

Bard在標(biāo)題中稱(chēng)“這是一份適合初學(xué)者的、為期三個(gè)月的馬拉松訓(xùn)練計(jì)劃”,但最終卻只列出了三周的具體訓(xùn)練計(jì)劃,包括每天要進(jìn)行的項(xiàng)目以及何時(shí)休息。值得一提的是,它沒(méi)有一開(kāi)始就制定高耗能的訓(xùn)練量,計(jì)劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。

▲B(niǎo)ard制定的馬拉松訓(xùn)練計(jì)劃

Bing幾乎沒(méi)有費(fèi)心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點(diǎn)讓人失望,畢竟這次測(cè)試就是為了看看它們的回答,而不是直接得到一份跑步愛(ài)好者們的專(zhuān)業(yè)建議。

▲B(niǎo)ing提供了外部網(wǎng)站鏈接

ChatGPT詳細(xì)列出一個(gè)完整的訓(xùn)練時(shí)間表,并建議跑步者的速度與平時(shí)訓(xùn)練時(shí)的速度相似,這份回答完全可以當(dāng)作一份跑步訓(xùn)練模板來(lái)使用。

但它最大的問(wèn)題在于不知道回答應(yīng)該在哪里就打住,它制定的計(jì)劃太過(guò)于詳細(xì),沒(méi)有滿(mǎn)足測(cè)試者簡(jiǎn)潔清晰的要求。

▲ChatGPT制定的馬拉松訓(xùn)練計(jì)劃表

08.提供一些關(guān)于羅馬旅游的建議

當(dāng)測(cè)試者讓它們提供一些關(guān)于羅馬的旅游建議時(shí),這三款聊天機(jī)器人的回答都充滿(mǎn)了驚喜。

Bard列出了一些適合參觀的地方,比如庫(kù)瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點(diǎn)。而且更貼心的是,它推薦的這些景點(diǎn)都避開(kāi)了最繁華的商業(yè)區(qū)和人流密集的景點(diǎn),反而推薦了許多當(dāng)?shù)厝顺Hサ牡胤?,比如特拉斯提弗列區(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。

▲B(niǎo)ard的回答

Bing提供的景點(diǎn)推薦中有和Bard重復(fù)的部分,但也補(bǔ)充了另外一些景點(diǎn),如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門(mén)特大教堂(Basilica di San Clemente)等。

▲B(niǎo)ing的回答

ChatGPT也建議游客去一些不為人知的小眾景點(diǎn)游玩,這樣更能獲得一些新奇的體驗(yàn)。它還補(bǔ)充說(shuō),即使是不知名的景點(diǎn)也會(huì)有高峰時(shí)段,建議游客們盡量在非高峰時(shí)段或是工作日去游覽。

▲ChatGPT的回答

09.結(jié)語(yǔ):狂飆之后的AI語(yǔ)言模型更需加速追趕差距

這些在不同應(yīng)用場(chǎng)景下的測(cè)試把每個(gè)聊天機(jī)器人的優(yōu)劣勢(shì)都充分展示了出來(lái)。如果用戶(hù)想用聊天對(duì)話(huà)的方式來(lái)獲取一些創(chuàng)意寫(xiě)作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網(wǎng)絡(luò)資源,并且快速獲取一個(gè)快速跳轉(zhuǎn)鏈接的話(huà),Bing則更合適一些;而B(niǎo)ard目前的表現(xiàn)在各方面都略遜一籌。

在人與人之間的技能差異被AI語(yǔ)言模型逐步放大的過(guò)程中,我們也能清晰感知到語(yǔ)言模型之間的能力差距。

但我們需要明白,無(wú)論是人類(lèi)自身,還是ChatGPT、Bing、Bard等語(yǔ)言模型,進(jìn)步一定是個(gè)持續(xù)的過(guò)程。這些聊天機(jī)器人們目前所展示出的形態(tài)還只是技術(shù)進(jìn)步中的一環(huán),但目前他們所能做到的事已經(jīng)震驚了全世界,所帶來(lái)的沖擊力甚至遠(yuǎn)大于之前的移動(dòng)互聯(lián)網(wǎng)造成的影響。

無(wú)論是功能已經(jīng)越來(lái)越全面的ChatGPT也好,暫時(shí)落后一步的Bard也好,當(dāng)我們以發(fā)展的目光來(lái)看待它們所帶來(lái)的技術(shù)變革時(shí),就會(huì)對(duì)它目前欠缺的能力更加寬容,我們需要以一種更為長(zhǎng)遠(yuǎn)的深刻洞察來(lái)對(duì)待它們。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。