正在閱讀:

深度測評ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

掃一掃下載界面新聞APP

深度測評ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

三大對話機器人比較:Bard、ChatGPT和新版Bing。

編譯|智東西  吳菲凝

編輯|李水青

智東西3月30日消息,近日,外媒The verge測評了谷歌Bard、OpenAI的ChatGPT兩款對話機器人產(chǎn)品和基于ChatGPT的微軟新版Bing搜索引擎,通過提出一系列問題來比較其優(yōu)劣勢,問題覆蓋了節(jié)假日提醒、游戲建議、詩歌創(chuàng)作以及抵押貸款計算等一系列具體場景。

隨著升級GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對標(biāo)產(chǎn)品Bard也開啟測試,大廠AI軍備競賽一觸即發(fā)。這三款產(chǎn)品以其高智能化、高擬人化的形態(tài)引人注目,同時,三者在功能和使用場景上存在不少重疊部分,常被用戶拿來加以比對,那哪一款更好用呢?

通過在8個具體應(yīng)用場景中的問答對話測評,The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準(zhǔn)確,比如在解一道數(shù)學(xué)題時,它會解釋每一個步驟的含義。

Bing雖然是基于GPT語言模型的搜索引擎,但其對自然語言的理解和運用能力不及ChatGPT,它在回答其中大部分問題時表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢所在,它可能更適合用于搜集和整理信息。

而Bard在回答多個問題時,提供的信息都存在數(shù)據(jù)錯誤、來源虛假等隱患,用戶使用時需要謹(jǐn)慎對待。但它也能帶給用戶一些驚喜,比如能指出一款熱門游戲中大Boss的致命弱點,并提出靠譜攻略。

下文對測評問題進(jìn)行了梳理和介紹,以便幫助用戶判斷在不同場景下應(yīng)該使用哪款語言模型產(chǎn)品。

01.一個紐約市管道工的平均工資是多少?

首先來看一個信息向問題,The Verge記者問:“一個紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。

Bard引用了美國勞工統(tǒng)計局(BLS)報告中的數(shù)據(jù),稱2020年5月美國管道工的年均工資中位數(shù)為52590美元,而這實際上是2017年5月時的數(shù)據(jù)。它還稱美國管道工協(xié)會2021年公布的一項調(diào)查中顯示,紐約市的平均工資為76810美元,但這一組織實際上并不存在。

▲Bard的回答

測試者猜測,Bard從求職平臺Career Explorer中找到了這兩個數(shù)字,然后為其編了個毫無關(guān)聯(lián)的來源。

而Bing給出的回答中顯示,據(jù)Zippis的調(diào)查,紐約市水管工的平均年薪為63889美元,平均時薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來源鏈接,用戶可以直接點擊查看數(shù)據(jù)來源。

▲Bing的回答

在測試者看來,ChatGPT的答案最廣泛又通用,也最“人性化”。

它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬至8萬美元,而且這個數(shù)字可能會受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類型影響而有所不同。ChatGPT還補充回答道,用戶可以在美國勞工統(tǒng)計局、Glassdoor、Indeed或Payscale等專業(yè)網(wǎng)站上找到更新的信息。它承認(rèn)“作為一個AI語言模型,我沒有能力訪問實時數(shù)據(jù)”。

▲ChatGPT的回答

02.用抑揚格四步音寫一首關(guān)于蟲子的詩

The Verge的測試者向三款聊天機器人發(fā)布了一項任務(wù):用抑揚格四步音來寫一首關(guān)于蟲子的詩。這對AI來說極具挑戰(zhàn),充分考驗了它們的創(chuàng)造力。

抑揚格四步音(anapestic tetrameter)是詩歌中常用的格律之一,比如莎士比亞的十四行詩就是用抑揚格四步音寫的。抑揚格四步音要求每行詩都包含四個單元,每三個音節(jié)的格律分別為無重音、非重音和重音。

Bard寫的詩的大意是:泥土中有條蟲,在土地的紋路中蠕動爬行。它筑起自己的圍墻,一個遮擋著陽光的屏障。

▲Bard創(chuàng)作的抑揚格四步詩

Bing撰寫的詩文更加簡單,如下圖所示,翻譯成中文的大意是:蟲子的生活很簡單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。

▲Bing創(chuàng)作的抑揚格四步詩

ChatGPT撰寫的詩文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動的蟲子。在肥沃的黑土中,它歡快地滑過。在一個看不見的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑?!?/p>

▲ChatGPT創(chuàng)作的抑揚格四步詩

從三款聊天機器人給出的答案來看,ChatGPT的格律最接近,寫出的句子也最有詩的感覺;Bing的回答中規(guī)中矩;而Bard的語言較為干澀、沉悶。

03.數(shù)學(xué)題:2230增加20%之后是多少?

值得一提的是,這些基于大型語言模型基礎(chǔ)上創(chuàng)造出來的聊天機器人,擁有著人類迄今為止最復(fù)雜的計算機程序,在文學(xué)創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學(xué)計算上表現(xiàn)得慘不忍睹。

測試者提了這樣一個問題:上周我收到了2230封關(guān)于AI的郵件,這周比上周多了20%,那我這周收到了多少封?

Bard給出了2686的錯誤答案。

▲Bard給出的錯誤回答

Bing的回答給出計算步驟并得到了正確結(jié)果,它稱:“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676。”

▲Bing的答題步驟

ChatGPT的回答同樣給出了解題步驟,“通過將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>

▲ChatGPT給出了正確回答

為了進(jìn)行更復(fù)雜的計算,測試者要求每個聊天機器人回答這道題:如果要在25年內(nèi)以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?

三款聊天機器人都沒能給出在線抵押貸款計算器所提供的正確答案,Bard和Bing甚至在每次詢問中給出的答案都不同。ChatGPT在多次提問中給出的結(jié)果都是一致的,但卻是“一致的錯誤”,而且它執(zhí)著于解釋計算過程,不能讓用戶直接清晰地得到結(jié)果。

測試者并不對三款聊天機器人在數(shù)學(xué)方面的薄弱感到驚訝。它們是在大量的文本中訓(xùn)練出來的,并沒有編碼規(guī)則來教它們進(jìn)行數(shù)學(xué)計算。所以當(dāng)它們面對大量數(shù)字時,會犯些不可思議的錯誤,但它們又能借助工具來進(jìn)行修補。比如,Bing會將用戶引導(dǎo)到一個貸款計算器網(wǎng)站,ChatGPT不久前推出的插件中也包含了計算知識搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機器人的要更準(zhǔn)確、靠譜些。

04.如何在《埃爾登指環(huán)》中打敗Mamenia?

在FromSofeware工作室設(shè)計的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶往往需要花80至100個小時去尋找游戲提示然后打敗Boss。Melenia是用戶公認(rèn)的整款游戲中最難對付的Boss之一,有位用戶甚至花了206次嘗試才最終將其擊敗。如果用戶想要進(jìn)一步獲得一些武器列表信息或是Malenia的動作細(xì)節(jié)的話,就需要聊天機器人來助一臂之力。

相較于另外兩款聊天機器人,Bard在這個場景中表現(xiàn)得更出色。Bard為用戶提供了擊敗Malenia的關(guān)鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來進(jìn)行攻擊。

▲Bard指出了攻擊Malenia的幾個關(guān)鍵信息點

雖然這個關(guān)鍵信息點讓Bard略占上風(fēng),但它給出的關(guān)于Malenia的總結(jié)卻是漏洞百出。比如,Bard稱Malenia擅長遠(yuǎn)程攻擊,且行動難以預(yù)測,但實際上Malenia是個近戰(zhàn)戰(zhàn)士,也并沒有Bard所認(rèn)為的那么不可預(yù)測,只是難以躲避而已。

Bing稱,“Malenia在艾爾登指環(huán)中是一個傳說中很難打敗的Boss,她最大的弱點是傷害,所以對抗她最好辦法就是釋放她的血量。失血是特別有效的,因為它降低了Malenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中?!?/p>

它給出的回答中同樣提到Malenia最大的弱點是出血傷害,并且提醒玩家對抗她的最好方法是使用失血或凍傷技能。Bing的回答簡潔明了,直接提到了關(guān)鍵傷害點和應(yīng)該使用哪種武器。

▲Bing的回答更加簡潔直觀

ChatGPT則詳細(xì)地列出了打敗Malenia的一系列技巧和策略,如升級裝備、研究攻擊模式、提升耐力、遠(yuǎn)程攻擊、精神召喚等。

▲ChatGPT給出的詳細(xì)策略

ChatGPT的回答更加詳細(xì),它還鼓勵玩家嘗試多用不同的戰(zhàn)術(shù)來進(jìn)行攻擊,構(gòu)建出一套自己的打法。

05.如何在電腦中安裝內(nèi)存?

測試者想考驗語言模型對于RAM(內(nèi)存)的安裝步驟的思路。

大多數(shù)筆記本電腦都需要通過雙通道模式來運行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個搖桿并排放置的話,就相當(dāng)于RAM沒辦法以最佳的狀態(tài)來運行,用戶花的錢全部打了水漂。

ChatGPT、Bing和Bard三款聊天機器人都為安裝提供了可靠的建議,但還不夠全面。

Bard列出了每一步的操作過程:“關(guān)閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側(cè)的標(biāo)簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對齊,然后按下去,直到聽到咔嗒一聲;插上電腦電源,然后開機啟動?!?/p>

Bard還補充道:“在觸摸PC內(nèi)部的任何組件之前,要確保組件沒有被損壞。處理新的RAM模塊時也要小心,模塊上的連接器非常脆弱,很容易損壞?!?/p>

▲Bard的回答

Bing的回答是:“關(guān)閉計算機并拔下所有連接到它的電纜;拆下電腦機箱的側(cè)面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對每一根內(nèi)存條重復(fù)這個過程,直到完成;插入模塊?!?/p>

▲Bing 給出的詳細(xì)安裝步驟

ChatGPT的回答只選擇了RAM安裝過程中的關(guān)鍵部分,它提醒用戶在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒有提醒用戶在安裝后的BIOS設(shè)置中啟用RAM,這樣導(dǎo)致用戶無法用最快的時間來運行RAM以獲得最佳性能。

▲ChatGPT提供的RAM安裝步驟

06.提供一份巧克力蛋糕食譜

除了提示程序安裝步驟之外,生成一份食譜也是個非??简灹奶鞕C器人創(chuàng)造力的請求。

測試者提出了一個請求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來源。

它們提供的食譜中可能會有完全不同的面粉、水、黃油、雞蛋與糖的比例,導(dǎo)致最終做出的蛋糕更蓬松、更干或是更濕潤。

Bard提供的蛋糕配方誤估了時間和克數(shù),配方中蛋糕的烘烤時間完全不夠,用戶按照它提供的配方只能得到一堆軟塌的面粉黃油混合物。▲Bard提供的蛋糕配方

除此以外,Bard對于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒有在奶油配方中加牛奶或是重奶油。

Bing在回答中分享了一個特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。

▲Bing提供的蛋糕配方

ChatGPT回答中給出的配方非??孔V,它從一個網(wǎng)站中選擇了巧克力蛋糕的配方,又從另一個網(wǎng)站中收集來一份奶油的打發(fā)配方,并自行補充了一些做蛋糕過程中要注意的細(xì)節(jié),比如將烤箱預(yù)熱到175攝氏度,在蛋糕底盤上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細(xì)節(jié)在菜譜來源網(wǎng)站中都未曾提及過,而ChatGPT貼心地補充了進(jìn)去。

▲ChatGPT提供的蛋糕配方

07.制定一項馬拉松訓(xùn)練計劃

當(dāng)測試者提出“為我設(shè)計一項簡潔的馬拉松訓(xùn)練計劃”的請求時,三款工具展示出了截然不同的風(fēng)格。

Bard在標(biāo)題中稱“這是一份適合初學(xué)者的、為期三個月的馬拉松訓(xùn)練計劃”,但最終卻只列出了三周的具體訓(xùn)練計劃,包括每天要進(jìn)行的項目以及何時休息。值得一提的是,它沒有一開始就制定高耗能的訓(xùn)練量,計劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。

▲Bard制定的馬拉松訓(xùn)練計劃

Bing幾乎沒有費心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點讓人失望,畢竟這次測試就是為了看看它們的回答,而不是直接得到一份跑步愛好者們的專業(yè)建議。

▲Bing提供了外部網(wǎng)站鏈接

ChatGPT詳細(xì)列出一個完整的訓(xùn)練時間表,并建議跑步者的速度與平時訓(xùn)練時的速度相似,這份回答完全可以當(dāng)作一份跑步訓(xùn)練模板來使用。

但它最大的問題在于不知道回答應(yīng)該在哪里就打住,它制定的計劃太過于詳細(xì),沒有滿足測試者簡潔清晰的要求。

▲ChatGPT制定的馬拉松訓(xùn)練計劃表

08.提供一些關(guān)于羅馬旅游的建議

當(dāng)測試者讓它們提供一些關(guān)于羅馬的旅游建議時,這三款聊天機器人的回答都充滿了驚喜。

Bard列出了一些適合參觀的地方,比如庫瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點。而且更貼心的是,它推薦的這些景點都避開了最繁華的商業(yè)區(qū)和人流密集的景點,反而推薦了許多當(dāng)?shù)厝顺Hサ牡胤?,比如特拉斯提弗列區(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。

▲Bard的回答

Bing提供的景點推薦中有和Bard重復(fù)的部分,但也補充了另外一些景點,如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門特大教堂(Basilica di San Clemente)等。

▲Bing的回答

ChatGPT也建議游客去一些不為人知的小眾景點游玩,這樣更能獲得一些新奇的體驗。它還補充說,即使是不知名的景點也會有高峰時段,建議游客們盡量在非高峰時段或是工作日去游覽。

▲ChatGPT的回答

09.結(jié)語:狂飆之后的AI語言模型更需加速追趕差距

這些在不同應(yīng)用場景下的測試把每個聊天機器人的優(yōu)劣勢都充分展示了出來。如果用戶想用聊天對話的方式來獲取一些創(chuàng)意寫作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網(wǎng)絡(luò)資源,并且快速獲取一個快速跳轉(zhuǎn)鏈接的話,Bing則更合適一些;而Bard目前的表現(xiàn)在各方面都略遜一籌。

在人與人之間的技能差異被AI語言模型逐步放大的過程中,我們也能清晰感知到語言模型之間的能力差距。

但我們需要明白,無論是人類自身,還是ChatGPT、Bing、Bard等語言模型,進(jìn)步一定是個持續(xù)的過程。這些聊天機器人們目前所展示出的形態(tài)還只是技術(shù)進(jìn)步中的一環(huán),但目前他們所能做到的事已經(jīng)震驚了全世界,所帶來的沖擊力甚至遠(yuǎn)大于之前的移動互聯(lián)網(wǎng)造成的影響。

無論是功能已經(jīng)越來越全面的ChatGPT也好,暫時落后一步的Bard也好,當(dāng)我們以發(fā)展的目光來看待它們所帶來的技術(shù)變革時,就會對它目前欠缺的能力更加寬容,我們需要以一種更為長遠(yuǎn)的深刻洞察來對待它們。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

谷歌

6.7k
  • 日本監(jiān)管機構(gòu)擬以涉嫌壟斷為由勒令谷歌整改,公司回應(yīng)
  • 日本據(jù)悉將認(rèn)定谷歌網(wǎng)絡(luò)搜索服務(wù)違反反壟斷法

微軟

5.4k
  • 微軟據(jù)悉致力于在365 Copilot產(chǎn)品中添加非OpenAI模型
  • 微軟據(jù)悉為新的AI健康部門挖來多名DeepMind員工

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

深度測評ChatGPT、Bard和新版Bing,谷歌遲發(fā)Bard的原因找到了

三大對話機器人比較:Bard、ChatGPT和新版Bing。

編譯|智東西  吳菲凝

編輯|李水青

智東西3月30日消息,近日,外媒The verge測評了谷歌Bard、OpenAI的ChatGPT兩款對話機器人產(chǎn)品和基于ChatGPT的微軟新版Bing搜索引擎,通過提出一系列問題來比較其優(yōu)劣勢,問題覆蓋了節(jié)假日提醒、游戲建議、詩歌創(chuàng)作以及抵押貸款計算等一系列具體場景。

隨著升級GPT-4的ChatGPT、微軟搜索引擎新版Bing火遍全球,近日谷歌對標(biāo)產(chǎn)品Bard也開啟測試,大廠AI軍備競賽一觸即發(fā)。這三款產(chǎn)品以其高智能化、高擬人化的形態(tài)引人注目,同時,三者在功能和使用場景上存在不少重疊部分,常被用戶拿來加以比對,那哪一款更好用呢?

通過在8個具體應(yīng)用場景中的問答對話測評,The Verge給出了答案:ChatGPT的人性化程度最高,給出的答案也最完整準(zhǔn)確,比如在解一道數(shù)學(xué)題時,它會解釋每一個步驟的含義。

Bing雖然是基于GPT語言模型的搜索引擎,但其對自然語言的理解和運用能力不及ChatGPT,它在回答其中大部分問題時表現(xiàn)出一定的信息搜索能力,這是它的優(yōu)勢所在,它可能更適合用于搜集和整理信息。

而Bard在回答多個問題時,提供的信息都存在數(shù)據(jù)錯誤、來源虛假等隱患,用戶使用時需要謹(jǐn)慎對待。但它也能帶給用戶一些驚喜,比如能指出一款熱門游戲中大Boss的致命弱點,并提出靠譜攻略。

下文對測評問題進(jìn)行了梳理和介紹,以便幫助用戶判斷在不同場景下應(yīng)該使用哪款語言模型產(chǎn)品。

01.一個紐約市管道工的平均工資是多少?

首先來看一個信息向問題,The Verge記者問:“一個紐約市管道工的平均工資是多少?”Bard、ChatGPT和新版Bing給出了不同回答。

Bard引用了美國勞工統(tǒng)計局(BLS)報告中的數(shù)據(jù),稱2020年5月美國管道工的年均工資中位數(shù)為52590美元,而這實際上是2017年5月時的數(shù)據(jù)。它還稱美國管道工協(xié)會2021年公布的一項調(diào)查中顯示,紐約市的平均工資為76810美元,但這一組織實際上并不存在。

▲Bard的回答

測試者猜測,Bard從求職平臺Career Explorer中找到了這兩個數(shù)字,然后為其編了個毫無關(guān)聯(lián)的來源。

而Bing給出的回答中顯示,據(jù)Zippis的調(diào)查,紐約市水管工的平均年薪為63889美元,平均時薪為30.72美元。它的回答既有具體的數(shù)字,也給出了數(shù)字的引用來源鏈接,用戶可以直接點擊查看數(shù)據(jù)來源。

▲Bing的回答

在測試者看來,ChatGPT的答案最廣泛又通用,也最“人性化”。

它指出,截止至2021年9月,紐約市水管工的年平均工資為6萬至8萬美元,而且這個數(shù)字可能會受具體城鎮(zhèn)和地區(qū)以及雇傭合同的類型影響而有所不同。ChatGPT還補充回答道,用戶可以在美國勞工統(tǒng)計局、Glassdoor、Indeed或Payscale等專業(yè)網(wǎng)站上找到更新的信息。它承認(rèn)“作為一個AI語言模型,我沒有能力訪問實時數(shù)據(jù)”。

▲ChatGPT的回答

02.用抑揚格四步音寫一首關(guān)于蟲子的詩

The Verge的測試者向三款聊天機器人發(fā)布了一項任務(wù):用抑揚格四步音來寫一首關(guān)于蟲子的詩。這對AI來說極具挑戰(zhàn),充分考驗了它們的創(chuàng)造力。

抑揚格四步音(anapestic tetrameter)是詩歌中常用的格律之一,比如莎士比亞的十四行詩就是用抑揚格四步音寫的。抑揚格四步音要求每行詩都包含四個單元,每三個音節(jié)的格律分別為無重音、非重音和重音。

Bard寫的詩的大意是:泥土中有條蟲,在土地的紋路中蠕動爬行。它筑起自己的圍墻,一個遮擋著陽光的屏障。

▲Bard創(chuàng)作的抑揚格四步詩

Bing撰寫的詩文更加簡單,如下圖所示,翻譯成中文的大意是:蟲子的生活很簡單,在泥土和雨水中鉆洞。它吃、睡,然后就死了。

▲Bing創(chuàng)作的抑揚格四步詩

ChatGPT撰寫的詩文如下圖所示,翻譯成中文大致意思是:潮濕的泥土中,住著一條蠕動的蟲子。在肥沃的黑土中,它歡快地滑過。在一個看不見的小世界里,它盡情享受和玩耍。在塵土中挖掘隧道,形成一條新的路徑?!?/p>

▲ChatGPT創(chuàng)作的抑揚格四步詩

從三款聊天機器人給出的答案來看,ChatGPT的格律最接近,寫出的句子也最有詩的感覺;Bing的回答中規(guī)中矩;而Bard的語言較為干澀、沉悶。

03.數(shù)學(xué)題:2230增加20%之后是多少?

值得一提的是,這些基于大型語言模型基礎(chǔ)上創(chuàng)造出來的聊天機器人,擁有著人類迄今為止最復(fù)雜的計算機程序,在文學(xué)創(chuàng)作中有不俗表現(xiàn),卻在數(shù)學(xué)計算上表現(xiàn)得慘不忍睹。

測試者提了這樣一個問題:上周我收到了2230封關(guān)于AI的郵件,這周比上周多了20%,那我這周收到了多少封?

Bard給出了2686的錯誤答案。

▲Bard給出的錯誤回答

Bing的回答給出計算步驟并得到了正確結(jié)果,它稱:“先把上周得到的電子郵件數(shù)量乘以20%,得到了446,再用2230加上446,得到了2676?!?/p>

▲Bing的答題步驟

ChatGPT的回答同樣給出了解題步驟,“通過將2230乘以0.2,然后再把得到的數(shù)字加到原始數(shù)字上,就可以得到最終答案了?!?/p>

▲ChatGPT給出了正確回答

為了進(jìn)行更復(fù)雜的計算,測試者要求每個聊天機器人回答這道題:如果要在25年內(nèi)以3.9%的利息還清125000美元的抵押貸款,那每月的還款額和總還款額是多少?

三款聊天機器人都沒能給出在線抵押貸款計算器所提供的正確答案,Bard和Bing甚至在每次詢問中給出的答案都不同。ChatGPT在多次提問中給出的結(jié)果都是一致的,但卻是“一致的錯誤”,而且它執(zhí)著于解釋計算過程,不能讓用戶直接清晰地得到結(jié)果。

測試者并不對三款聊天機器人在數(shù)學(xué)方面的薄弱感到驚訝。它們是在大量的文本中訓(xùn)練出來的,并沒有編碼規(guī)則來教它們進(jìn)行數(shù)學(xué)計算。所以當(dāng)它們面對大量數(shù)字時,會犯些不可思議的錯誤,但它們又能借助工具來進(jìn)行修補。比如,Bing會將用戶引導(dǎo)到一個貸款計算器網(wǎng)站,ChatGPT不久前推出的插件中也包含了計算知識搜索引擎Wolfram Alpha,這些外部輔助工具給出的回答肯定比聊天機器人的要更準(zhǔn)確、靠譜些。

04.如何在《埃爾登指環(huán)》中打敗Mamenia?

在FromSofeware工作室設(shè)計的一款游戲《埃爾登指環(huán)》(Elden Ring)中,用戶往往需要花80至100個小時去尋找游戲提示然后打敗Boss。Melenia是用戶公認(rèn)的整款游戲中最難對付的Boss之一,有位用戶甚至花了206次嘗試才最終將其擊敗。如果用戶想要進(jìn)一步獲得一些武器列表信息或是Malenia的動作細(xì)節(jié)的話,就需要聊天機器人來助一臂之力。

相較于另外兩款聊天機器人,Bard在這個場景中表現(xiàn)得更出色。Bard為用戶提供了擊敗Malenia的關(guān)鍵信息——她容易受到流血傷害,因此玩家可以使用重型武器來進(jìn)行攻擊。

▲Bard指出了攻擊Malenia的幾個關(guān)鍵信息點

雖然這個關(guān)鍵信息點讓Bard略占上風(fēng),但它給出的關(guān)于Malenia的總結(jié)卻是漏洞百出。比如,Bard稱Malenia擅長遠(yuǎn)程攻擊,且行動難以預(yù)測,但實際上Malenia是個近戰(zhàn)戰(zhàn)士,也并沒有Bard所認(rèn)為的那么不可預(yù)測,只是難以躲避而已。

Bing稱,“Malenia在艾爾登指環(huán)中是一個傳說中很難打敗的Boss,她最大的弱點是傷害,所以對抗她最好辦法就是釋放她的血量。失血是特別有效的,因為它降低了Malenia的血量大大降低,攻擊性減弱,使她可以被輕易擊中?!?/p>

它給出的回答中同樣提到Malenia最大的弱點是出血傷害,并且提醒玩家對抗她的最好方法是使用失血或凍傷技能。Bing的回答簡潔明了,直接提到了關(guān)鍵傷害點和應(yīng)該使用哪種武器。

▲Bing的回答更加簡潔直觀

ChatGPT則詳細(xì)地列出了打敗Malenia的一系列技巧和策略,如升級裝備、研究攻擊模式、提升耐力、遠(yuǎn)程攻擊、精神召喚等。

▲ChatGPT給出的詳細(xì)策略

ChatGPT的回答更加詳細(xì),它還鼓勵玩家嘗試多用不同的戰(zhàn)術(shù)來進(jìn)行攻擊,構(gòu)建出一套自己的打法。

05.如何在電腦中安裝內(nèi)存?

測試者想考驗語言模型對于RAM(內(nèi)存)的安裝步驟的思路。

大多數(shù)筆記本電腦都需要通過雙通道模式來運行RAM,這就意味著搖桿必須安裝在正確的插槽中才能在系統(tǒng)上獲得最佳性能,如果只是將兩個搖桿并排放置的話,就相當(dāng)于RAM沒辦法以最佳的狀態(tài)來運行,用戶花的錢全部打了水漂。

ChatGPT、Bing和Bard三款聊天機器人都為安裝提供了可靠的建議,但還不夠全面。

Bard列出了每一步的操作過程:“關(guān)閉電腦并拔下電源;找到主板上的RAM插槽;刪除舊的RAM模塊,模塊兩側(cè)的標(biāo)簽,并將其滑出插槽;安裝新的RAM模塊,確保模塊上的凹口與槽脊對齊,然后按下去,直到聽到咔嗒一聲;插上電腦電源,然后開機啟動。”

Bard還補充道:“在觸摸PC內(nèi)部的任何組件之前,要確保組件沒有被損壞。處理新的RAM模塊時也要小心,模塊上的連接器非常脆弱,很容易損壞?!?/p>

▲Bard的回答

Bing的回答是:“關(guān)閉計算機并拔下所有連接到它的電纜;拆下電腦機箱的側(cè)面找到主板;找到主板上的RAM插槽;解鎖RAM插槽上的鎖存器;將RAM放入插槽中;按下RAM,直到它發(fā)出咔嗒聲;對每一根內(nèi)存條重復(fù)這個過程,直到完成;插入模塊。”

▲Bing 給出的詳細(xì)安裝步驟

ChatGPT的回答只選擇了RAM安裝過程中的關(guān)鍵部分,它提醒用戶在安裝之后檢查系統(tǒng)中的BIOS(基本輸入輸出系統(tǒng)),但卻沒有提醒用戶在安裝后的BIOS設(shè)置中啟用RAM,這樣導(dǎo)致用戶無法用最快的時間來運行RAM以獲得最佳性能。

▲ChatGPT提供的RAM安裝步驟

06.提供一份巧克力蛋糕食譜

除了提示程序安裝步驟之外,生成一份食譜也是個非常考驗聊天機器人創(chuàng)造力的請求。

測試者提出了一個請求:讓它們推薦一份用香草糖霜制作的巧克力蛋糕的食譜,并提供這份食譜的來源。

它們提供的食譜中可能會有完全不同的面粉、水、黃油、雞蛋與糖的比例,導(dǎo)致最終做出的蛋糕更蓬松、更干或是更濕潤。

Bard提供的蛋糕配方誤估了時間和克數(shù),配方中蛋糕的烘烤時間完全不夠,用戶按照它提供的配方只能得到一堆軟塌的面粉黃油混合物。▲Bard提供的蛋糕配方

除此以外,Bard對于口味似乎很有自己的想法,它的蛋糕配方中用牛奶替代了原本的酪乳,把濃郁的咖啡換成了水,也沒有在奶油配方中加牛奶或是重奶油。

Bing在回答中分享了一個特定配方,但卻稍微改變了原有配方中面粉、奶油等重要成分的克數(shù)。

▲Bing提供的蛋糕配方

ChatGPT回答中給出的配方非??孔V,它從一個網(wǎng)站中選擇了巧克力蛋糕的配方,又從另一個網(wǎng)站中收集來一份奶油的打發(fā)配方,并自行補充了一些做蛋糕過程中要注意的細(xì)節(jié),比如將烤箱預(yù)熱到175攝氏度,在蛋糕底盤上抹一層油防粘,在蛋糕胚完全冷卻之后再抹奶油面等。這些細(xì)節(jié)在菜譜來源網(wǎng)站中都未曾提及過,而ChatGPT貼心地補充了進(jìn)去。

▲ChatGPT提供的蛋糕配方

07.制定一項馬拉松訓(xùn)練計劃

當(dāng)測試者提出“為我設(shè)計一項簡潔的馬拉松訓(xùn)練計劃”的請求時,三款工具展示出了截然不同的風(fēng)格。

Bard在標(biāo)題中稱“這是一份適合初學(xué)者的、為期三個月的馬拉松訓(xùn)練計劃”,但最終卻只列出了三周的具體訓(xùn)練計劃,包括每天要進(jìn)行的項目以及何時休息。值得一提的是,它沒有一開始就制定高耗能的訓(xùn)練量,計劃中的跑步里程是逐步增加的,從第一周的3公里逐漸遞增到第三周的7公里。

▲Bard制定的馬拉松訓(xùn)練計劃

Bing幾乎沒有費心做推薦,直接鏈接了知名跑者雜志《Runner's World》上的一篇文章。這種偷懶的做法有點讓人失望,畢竟這次測試就是為了看看它們的回答,而不是直接得到一份跑步愛好者們的專業(yè)建議。

▲Bing提供了外部網(wǎng)站鏈接

ChatGPT詳細(xì)列出一個完整的訓(xùn)練時間表,并建議跑步者的速度與平時訓(xùn)練時的速度相似,這份回答完全可以當(dāng)作一份跑步訓(xùn)練模板來使用。

但它最大的問題在于不知道回答應(yīng)該在哪里就打住,它制定的計劃太過于詳細(xì),沒有滿足測試者簡潔清晰的要求。

▲ChatGPT制定的馬拉松訓(xùn)練計劃表

08.提供一些關(guān)于羅馬旅游的建議

當(dāng)測試者讓它們提供一些關(guān)于羅馬的旅游建議時,這三款聊天機器人的回答都充滿了驚喜。

Bard列出了一些適合參觀的地方,比如庫瓦提瑞·克佩德(Quartiere Copped)街區(qū)、蒙特馬提尼中央博物館(Centrale Montemartini Museum)、多利亞·潘菲爾別墅等景點。而且更貼心的是,它推薦的這些景點都避開了最繁華的商業(yè)區(qū)和人流密集的景點,反而推薦了許多當(dāng)?shù)厝顺Hサ牡胤剑热缣乩固岣チ袇^(qū)(Trastevere)和羅馬新都心EUR區(qū)(Esposizione Universale Roma)。

▲Bard的回答

Bing提供的景點推薦中有和Bard重復(fù)的部分,但也補充了另外一些景點,如帕姆菲力宮(Palazzo Doria Pamphilj)、羅馬圣克萊門特大教堂(Basilica di San Clemente)等。

▲Bing的回答

ChatGPT也建議游客去一些不為人知的小眾景點游玩,這樣更能獲得一些新奇的體驗。它還補充說,即使是不知名的景點也會有高峰時段,建議游客們盡量在非高峰時段或是工作日去游覽。

▲ChatGPT的回答

09.結(jié)語:狂飆之后的AI語言模型更需加速追趕差距

這些在不同應(yīng)用場景下的測試把每個聊天機器人的優(yōu)劣勢都充分展示了出來。如果用戶想用聊天對話的方式來獲取一些創(chuàng)意寫作、歸納推理方面的靈感,ChatGPT一定是首選;如果是想搜索網(wǎng)絡(luò)資源,并且快速獲取一個快速跳轉(zhuǎn)鏈接的話,Bing則更合適一些;而Bard目前的表現(xiàn)在各方面都略遜一籌。

在人與人之間的技能差異被AI語言模型逐步放大的過程中,我們也能清晰感知到語言模型之間的能力差距。

但我們需要明白,無論是人類自身,還是ChatGPT、Bing、Bard等語言模型,進(jìn)步一定是個持續(xù)的過程。這些聊天機器人們目前所展示出的形態(tài)還只是技術(shù)進(jìn)步中的一環(huán),但目前他們所能做到的事已經(jīng)震驚了全世界,所帶來的沖擊力甚至遠(yuǎn)大于之前的移動互聯(lián)網(wǎng)造成的影響。

無論是功能已經(jīng)越來越全面的ChatGPT也好,暫時落后一步的Bard也好,當(dāng)我們以發(fā)展的目光來看待它們所帶來的技術(shù)變革時,就會對它目前欠缺的能力更加寬容,我們需要以一種更為長遠(yuǎn)的深刻洞察來對待它們。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。