正在閱讀:

實(shí)測(cè)阿里版ChatGPT:回答問(wèn)題注重邏輯,比想象中更聰明

掃一掃下載界面新聞APP

實(shí)測(cè)阿里版ChatGPT:回答問(wèn)題注重邏輯,比想象中更聰明

ChatGPT的出現(xiàn)引領(lǐng)新一輪技術(shù)創(chuàng)新,各行各業(yè)將會(huì)如何被顛覆是2023年外界最關(guān)心的話題。

圖片來(lái)源:界面新聞 范劍磊

文|另鏡 劉雨婷

編輯|陳彥旭

科技技術(shù)在改變?nèi)伺c工具的交互方式。PC時(shí)代的Apple Lisa電腦,是首次采用圖形用戶界面和鼠標(biāo)的個(gè)人電腦;到智能手機(jī)時(shí)代,iPhone定義了觸控交互。下一步,ChatGPT類(lèi)的多模態(tài)大模型又將影響未來(lái)AI的發(fā)展方向和人類(lèi)的工作方式。

未來(lái)科技產(chǎn)業(yè)注定是變革和顛覆的一年,新時(shí)代屬于造夢(mèng)者、勇闖者,甚至是孤獨(dú)者。在外界看來(lái),新的科技也許在不久的將來(lái)會(huì)打破現(xiàn)有的商業(yè)格局。大浪淘沙,敢為者先。

新浪潮下,另鏡推出「Tech潮向」專題系列報(bào)道,洞察當(dāng)下前沿科技新變革和發(fā)展趨勢(shì),報(bào)道前沿科技企業(yè)新戰(zhàn)略、新思維,提供更多具有前瞻思考的價(jià)值信息。此篇為該系列報(bào)道第三篇,聚焦新一輪新科技ChatGPT開(kāi)啟。

4月7日,阿里版GPT官宣內(nèi)測(cè),自研大模型“通義千問(wèn)”開(kāi)始邀請(qǐng)用戶測(cè)試體驗(yàn),現(xiàn)階段主要定向邀請(qǐng)企業(yè)用戶進(jìn)行體驗(yàn)測(cè)試。

最近一段時(shí)間以來(lái),ChatGPT成了互聯(lián)網(wǎng)領(lǐng)域最大的風(fēng)口,國(guó)內(nèi)受追捧熱度同樣高漲,百度文心一言率先發(fā)布,美團(tuán)聯(lián)合創(chuàng)始人王慧文早已宣布入場(chǎng),360集團(tuán)創(chuàng)始人周鴻祎也公開(kāi)演示了其公司的聊天機(jī)器人。

ChatGPT的出現(xiàn)引領(lǐng)新一輪技術(shù)創(chuàng)新,各行各業(yè)將會(huì)如何被顛覆是2023年外界最關(guān)心的話題。

阿里此次發(fā)布的通義千問(wèn)是達(dá)摩院自主研發(fā)的超大規(guī)模語(yǔ)言模型,可以回答問(wèn)題、創(chuàng)作文字,以及表達(dá)觀點(diǎn)、撰寫(xiě)代碼。

另鏡拿到“通義千問(wèn)”首批邀測(cè)資格,在登陸“通義千問(wèn)”后,其主頁(yè)頁(yè)面主要突出了四個(gè)功能:職場(chǎng)助理、撰寫(xiě)短文、寫(xiě)封郵件和電影腳本。

在二級(jí)入口“百寶袋”中,通義千問(wèn)舉例了更多應(yīng)用場(chǎng)景,包括提升工作效率的寫(xiě)提綱、SWOT分析、商品描述生成;生活類(lèi)的菜譜、小學(xué)生作文、接文續(xù)寫(xiě);以及娛樂(lè)類(lèi)的彩虹屁、情書(shū)、寫(xiě)詩(shī)。

另鏡通過(guò)邀測(cè)碼對(duì)通義千問(wèn)進(jìn)行了體驗(yàn),從問(wèn)題回答、觀點(diǎn)表達(dá)、邏輯計(jì)算等多個(gè)方面對(duì)“通義千問(wèn)”進(jìn)行測(cè)試,并與文心一言、ChatGPT(GPT-4)的回答進(jìn)行對(duì)比。

能寫(xiě)英文推薦信

首先,另鏡測(cè)試了幾個(gè)大模型對(duì)于最新熱點(diǎn)的了解,提問(wèn)其是否了解最近剛剛成為網(wǎng)絡(luò)熱點(diǎn)的熊貓“花花”。

通義千問(wèn)給出了回答,識(shí)別出提問(wèn)者是想了解具體熊貓個(gè)體“花花”,但可惜或受限于語(yǔ)料資料,并未能給出正確介紹。

通義千問(wèn)答案

正確信息:花花,本名和花,雌性大熊貓,2020年7月4日出生在成都大熊貓繁育研究基地月亮產(chǎn)房。

文心一言、ChatGPT則是未能理解提問(wèn)者的具體意圖,均未能將問(wèn)題回答落實(shí)到具體個(gè)體上。

文心一言答案

ChatGPT答案

這也在一定程度上體現(xiàn)了幾個(gè)大模型對(duì)于新聞熱點(diǎn)的滯后捕捉問(wèn)題。作為國(guó)外的語(yǔ)言大模型,ChatGPT在中英文互譯過(guò)程中的信息理解偏差也是使用者要面臨的問(wèn)題。

之后,另鏡測(cè)試了通義千問(wèn)對(duì)于問(wèn)題的邏輯理解能力。另鏡用一個(gè)藏有邏輯“陷阱”的問(wèn)題進(jìn)行測(cè)試:眼鏡沒(méi)發(fā)明出來(lái)之前,眼鏡蛇叫什么?

在首次測(cè)試中,通義千問(wèn)未能正確解答問(wèn)題,但在第二次重新回答后,其回答眼鏡蛇有另一個(gè)名字——眼鏡王蛇,以及該名稱來(lái)源,但這也并未能避開(kāi)“眼鏡”這個(gè)問(wèn)題。

通義千問(wèn)答案

文心一言則是給出了眼鏡蛇的其他名稱,避開(kāi)了“眼鏡”字眼。

文心一言答案

ChatGPT則是成功理解了問(wèn)題邏輯,解開(kāi)了文字矛盾,并介紹了眼鏡蛇的命名方式。

ChatGPT答案

在接下來(lái)的提問(wèn)中,另鏡特意測(cè)試了“通義千問(wèn)”對(duì)于中文詩(shī)句的理解:“云渺渺,水茫茫。征人歸路許多長(zhǎng)。相思本是無(wú)憑語(yǔ),莫向花箋費(fèi)淚行”是什么意思?

通義千問(wèn)答案

與百度文心一言、ChatGPT相比,通義千問(wèn)的回答要更簡(jiǎn)潔一些,文心一言、ChatGPT詳細(xì)解釋了每句詩(shī)詞的意思和情感表達(dá)。

文心一言答案

ChatGPT答案

接下來(lái),另鏡測(cè)試了通義千問(wèn)對(duì)中文詩(shī)句的更深層理解,細(xì)化到具體詩(shī)句詞語(yǔ):“凄凄慘慘戚戚中”的戚戚是什么意思?

在這個(gè)問(wèn)題上,通義千問(wèn)并未能識(shí)別詩(shī)句出處,在中文文學(xué)理解方面還略有不足。

通義千問(wèn)答案

文心一言回答出了詩(shī)句原文,但并沒(méi)能對(duì)具體詞語(yǔ)進(jìn)行解釋。

文心一言答案

ChatGPT雖然回答出了具體詞語(yǔ)意思,但也并未回答詩(shī)句出處,并將“凄凄慘慘戚戚”錯(cuò)誤理解成了四個(gè)形容詞。

ChatGPT答案

除中文語(yǔ)料測(cè)試外,另鏡也測(cè)試了通義千問(wèn)的英文輸出能力。另鏡要求通義千問(wèn)用英文寫(xiě)一封推薦信,推薦學(xué)生申請(qǐng)碩士,通義千問(wèn)給出了相應(yīng)推薦信模板。

通義千問(wèn)答案

有理科生氣質(zhì)

在觀點(diǎn)表達(dá)方面,通義千問(wèn)、文心一言、ChatGPT體現(xiàn)了不同的分析框架。

另鏡要求三者評(píng)價(jià)馬斯克和他的登月計(jì)劃:

通義千問(wèn)從技術(shù)才華、商業(yè)才華、人品道德三方面,分條展現(xiàn)了評(píng)價(jià)馬斯克的角度,這個(gè)評(píng)價(jià)框架具有一定的通用性、

通義千問(wèn)答案

與通義千問(wèn)偏“理科生”的邏輯性回答不同,文心一言的回答更像是一篇“文科生”的感性作文。

文心一言答案

ChatGPT則是回答了大眾對(duì)于馬斯克的看法,直接介紹了馬斯克的身上的標(biāo)簽,更加有針對(duì)性。

ChatGPT答案

在評(píng)價(jià)馬斯克后,另鏡要求三者分析其太空移民計(jì)劃能否成功。與上個(gè)問(wèn)題相似,通義千問(wèn)分條回答了該問(wèn)題,文心一言寫(xiě)了一段小作文。

通義千問(wèn)答案

文心一言答案

ChatGPT則是深入分析了太空移民計(jì)劃目前面對(duì)的困難,有針對(duì)性的分析了能否成功的具體因素,回答也更實(shí)際。

ChatGPT答案

還不能替小學(xué)生寫(xiě)作業(yè)

在數(shù)學(xué)邏輯方面,通義千問(wèn)、文心一言、ChatGPT都遇到了困難。另鏡挑選了兩道小學(xué)六年級(jí)奧數(shù)題,在回答第一道邏輯判斷題問(wèn)題時(shí),通義千問(wèn)和ChatGPT回答正確,文心一言則出現(xiàn)判斷錯(cuò)誤。

通義千問(wèn)和ChatGPT通過(guò)語(yǔ)言邏輯解答了問(wèn)題,但在更具體的數(shù)學(xué)公式搭建上卻遇到困難。

在回答第二道數(shù)學(xué)計(jì)算問(wèn)題時(shí),通義千問(wèn)、文心一言、ChatGPT都出現(xiàn)錯(cuò)誤。三者給出了解答公式,進(jìn)行推算,但是都未能給出正確答案。

正確答案是:20小時(shí)。

寫(xiě)在最后

目前,各個(gè)大模型的表現(xiàn)都不算完美。但正如通義千問(wèn)所介紹的,語(yǔ)言大模型的未來(lái)是非常廣闊的。

隨著人工智能技術(shù)的不斷發(fā)展和普及,語(yǔ)言大模型將被越來(lái)越多的應(yīng)用于自然語(yǔ)言處理領(lǐng)域的各種任務(wù)。例如,語(yǔ)言大模型可以用于翻譯、問(wèn)答系統(tǒng)、智能客服、機(jī)器翻譯、文本分類(lèi)等。

同時(shí),語(yǔ)言大模型也將促進(jìn)人工智能技術(shù)在其他領(lǐng)域的應(yīng)用,例如智能駕駛、醫(yī)療健康、金融服務(wù)等。未來(lái),語(yǔ)言大模型將會(huì)持續(xù)發(fā)展和創(chuàng)新,為人類(lèi)社會(huì)帶來(lái)更多的便利和效益。

無(wú)論現(xiàn)在OpenAI、百度、阿里旗下的聊天機(jī)器人表現(xiàn)如何,這也只是AI技術(shù)迭代的最開(kāi)始,未來(lái)的路還有很長(zhǎng)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

實(shí)測(cè)阿里版ChatGPT:回答問(wèn)題注重邏輯,比想象中更聰明

ChatGPT的出現(xiàn)引領(lǐng)新一輪技術(shù)創(chuàng)新,各行各業(yè)將會(huì)如何被顛覆是2023年外界最關(guān)心的話題。

圖片來(lái)源:界面新聞 范劍磊

文|另鏡 劉雨婷

編輯|陳彥旭

科技技術(shù)在改變?nèi)伺c工具的交互方式。PC時(shí)代的Apple Lisa電腦,是首次采用圖形用戶界面和鼠標(biāo)的個(gè)人電腦;到智能手機(jī)時(shí)代,iPhone定義了觸控交互。下一步,ChatGPT類(lèi)的多模態(tài)大模型又將影響未來(lái)AI的發(fā)展方向和人類(lèi)的工作方式。

未來(lái)科技產(chǎn)業(yè)注定是變革和顛覆的一年,新時(shí)代屬于造夢(mèng)者、勇闖者,甚至是孤獨(dú)者。在外界看來(lái),新的科技也許在不久的將來(lái)會(huì)打破現(xiàn)有的商業(yè)格局。大浪淘沙,敢為者先。

新浪潮下,另鏡推出「Tech潮向」專題系列報(bào)道,洞察當(dāng)下前沿科技新變革和發(fā)展趨勢(shì),報(bào)道前沿科技企業(yè)新戰(zhàn)略、新思維,提供更多具有前瞻思考的價(jià)值信息。此篇為該系列報(bào)道第三篇,聚焦新一輪新科技ChatGPT開(kāi)啟。

4月7日,阿里版GPT官宣內(nèi)測(cè),自研大模型“通義千問(wèn)”開(kāi)始邀請(qǐng)用戶測(cè)試體驗(yàn),現(xiàn)階段主要定向邀請(qǐng)企業(yè)用戶進(jìn)行體驗(yàn)測(cè)試。

最近一段時(shí)間以來(lái),ChatGPT成了互聯(lián)網(wǎng)領(lǐng)域最大的風(fēng)口,國(guó)內(nèi)受追捧熱度同樣高漲,百度文心一言率先發(fā)布,美團(tuán)聯(lián)合創(chuàng)始人王慧文早已宣布入場(chǎng),360集團(tuán)創(chuàng)始人周鴻祎也公開(kāi)演示了其公司的聊天機(jī)器人。

ChatGPT的出現(xiàn)引領(lǐng)新一輪技術(shù)創(chuàng)新,各行各業(yè)將會(huì)如何被顛覆是2023年外界最關(guān)心的話題。

阿里此次發(fā)布的通義千問(wèn)是達(dá)摩院自主研發(fā)的超大規(guī)模語(yǔ)言模型,可以回答問(wèn)題、創(chuàng)作文字,以及表達(dá)觀點(diǎn)、撰寫(xiě)代碼。

另鏡拿到“通義千問(wèn)”首批邀測(cè)資格,在登陸“通義千問(wèn)”后,其主頁(yè)頁(yè)面主要突出了四個(gè)功能:職場(chǎng)助理、撰寫(xiě)短文、寫(xiě)封郵件和電影腳本。

在二級(jí)入口“百寶袋”中,通義千問(wèn)舉例了更多應(yīng)用場(chǎng)景,包括提升工作效率的寫(xiě)提綱、SWOT分析、商品描述生成;生活類(lèi)的菜譜、小學(xué)生作文、接文續(xù)寫(xiě);以及娛樂(lè)類(lèi)的彩虹屁、情書(shū)、寫(xiě)詩(shī)。

另鏡通過(guò)邀測(cè)碼對(duì)通義千問(wèn)進(jìn)行了體驗(yàn),從問(wèn)題回答、觀點(diǎn)表達(dá)、邏輯計(jì)算等多個(gè)方面對(duì)“通義千問(wèn)”進(jìn)行測(cè)試,并與文心一言、ChatGPT(GPT-4)的回答進(jìn)行對(duì)比。

能寫(xiě)英文推薦信

首先,另鏡測(cè)試了幾個(gè)大模型對(duì)于最新熱點(diǎn)的了解,提問(wèn)其是否了解最近剛剛成為網(wǎng)絡(luò)熱點(diǎn)的熊貓“花花”。

通義千問(wèn)給出了回答,識(shí)別出提問(wèn)者是想了解具體熊貓個(gè)體“花花”,但可惜或受限于語(yǔ)料資料,并未能給出正確介紹。

通義千問(wèn)答案

正確信息:花花,本名和花,雌性大熊貓,2020年7月4日出生在成都大熊貓繁育研究基地月亮產(chǎn)房。

文心一言、ChatGPT則是未能理解提問(wèn)者的具體意圖,均未能將問(wèn)題回答落實(shí)到具體個(gè)體上。

文心一言答案

ChatGPT答案

這也在一定程度上體現(xiàn)了幾個(gè)大模型對(duì)于新聞熱點(diǎn)的滯后捕捉問(wèn)題。作為國(guó)外的語(yǔ)言大模型,ChatGPT在中英文互譯過(guò)程中的信息理解偏差也是使用者要面臨的問(wèn)題。

之后,另鏡測(cè)試了通義千問(wèn)對(duì)于問(wèn)題的邏輯理解能力。另鏡用一個(gè)藏有邏輯“陷阱”的問(wèn)題進(jìn)行測(cè)試:眼鏡沒(méi)發(fā)明出來(lái)之前,眼鏡蛇叫什么?

在首次測(cè)試中,通義千問(wèn)未能正確解答問(wèn)題,但在第二次重新回答后,其回答眼鏡蛇有另一個(gè)名字——眼鏡王蛇,以及該名稱來(lái)源,但這也并未能避開(kāi)“眼鏡”這個(gè)問(wèn)題。

通義千問(wèn)答案

文心一言則是給出了眼鏡蛇的其他名稱,避開(kāi)了“眼鏡”字眼。

文心一言答案

ChatGPT則是成功理解了問(wèn)題邏輯,解開(kāi)了文字矛盾,并介紹了眼鏡蛇的命名方式。

ChatGPT答案

在接下來(lái)的提問(wèn)中,另鏡特意測(cè)試了“通義千問(wèn)”對(duì)于中文詩(shī)句的理解:“云渺渺,水茫茫。征人歸路許多長(zhǎng)。相思本是無(wú)憑語(yǔ),莫向花箋費(fèi)淚行”是什么意思?

通義千問(wèn)答案

與百度文心一言、ChatGPT相比,通義千問(wèn)的回答要更簡(jiǎn)潔一些,文心一言、ChatGPT詳細(xì)解釋了每句詩(shī)詞的意思和情感表達(dá)。

文心一言答案

ChatGPT答案

接下來(lái),另鏡測(cè)試了通義千問(wèn)對(duì)中文詩(shī)句的更深層理解,細(xì)化到具體詩(shī)句詞語(yǔ):“凄凄慘慘戚戚中”的戚戚是什么意思?

在這個(gè)問(wèn)題上,通義千問(wèn)并未能識(shí)別詩(shī)句出處,在中文文學(xué)理解方面還略有不足。

通義千問(wèn)答案

文心一言回答出了詩(shī)句原文,但并沒(méi)能對(duì)具體詞語(yǔ)進(jìn)行解釋。

文心一言答案

ChatGPT雖然回答出了具體詞語(yǔ)意思,但也并未回答詩(shī)句出處,并將“凄凄慘慘戚戚”錯(cuò)誤理解成了四個(gè)形容詞。

ChatGPT答案

除中文語(yǔ)料測(cè)試外,另鏡也測(cè)試了通義千問(wèn)的英文輸出能力。另鏡要求通義千問(wèn)用英文寫(xiě)一封推薦信,推薦學(xué)生申請(qǐng)碩士,通義千問(wèn)給出了相應(yīng)推薦信模板。

通義千問(wèn)答案

有理科生氣質(zhì)

在觀點(diǎn)表達(dá)方面,通義千問(wèn)、文心一言、ChatGPT體現(xiàn)了不同的分析框架。

另鏡要求三者評(píng)價(jià)馬斯克和他的登月計(jì)劃:

通義千問(wèn)從技術(shù)才華、商業(yè)才華、人品道德三方面,分條展現(xiàn)了評(píng)價(jià)馬斯克的角度,這個(gè)評(píng)價(jià)框架具有一定的通用性、

通義千問(wèn)答案

與通義千問(wèn)偏“理科生”的邏輯性回答不同,文心一言的回答更像是一篇“文科生”的感性作文。

文心一言答案

ChatGPT則是回答了大眾對(duì)于馬斯克的看法,直接介紹了馬斯克的身上的標(biāo)簽,更加有針對(duì)性。

ChatGPT答案

在評(píng)價(jià)馬斯克后,另鏡要求三者分析其太空移民計(jì)劃能否成功。與上個(gè)問(wèn)題相似,通義千問(wèn)分條回答了該問(wèn)題,文心一言寫(xiě)了一段小作文。

通義千問(wèn)答案

文心一言答案

ChatGPT則是深入分析了太空移民計(jì)劃目前面對(duì)的困難,有針對(duì)性的分析了能否成功的具體因素,回答也更實(shí)際。

ChatGPT答案

還不能替小學(xué)生寫(xiě)作業(yè)

在數(shù)學(xué)邏輯方面,通義千問(wèn)、文心一言、ChatGPT都遇到了困難。另鏡挑選了兩道小學(xué)六年級(jí)奧數(shù)題,在回答第一道邏輯判斷題問(wèn)題時(shí),通義千問(wèn)和ChatGPT回答正確,文心一言則出現(xiàn)判斷錯(cuò)誤。

通義千問(wèn)和ChatGPT通過(guò)語(yǔ)言邏輯解答了問(wèn)題,但在更具體的數(shù)學(xué)公式搭建上卻遇到困難。

在回答第二道數(shù)學(xué)計(jì)算問(wèn)題時(shí),通義千問(wèn)、文心一言、ChatGPT都出現(xiàn)錯(cuò)誤。三者給出了解答公式,進(jìn)行推算,但是都未能給出正確答案。

正確答案是:20小時(shí)。

寫(xiě)在最后

目前,各個(gè)大模型的表現(xiàn)都不算完美。但正如通義千問(wèn)所介紹的,語(yǔ)言大模型的未來(lái)是非常廣闊的。

隨著人工智能技術(shù)的不斷發(fā)展和普及,語(yǔ)言大模型將被越來(lái)越多的應(yīng)用于自然語(yǔ)言處理領(lǐng)域的各種任務(wù)。例如,語(yǔ)言大模型可以用于翻譯、問(wèn)答系統(tǒng)、智能客服、機(jī)器翻譯、文本分類(lèi)等。

同時(shí),語(yǔ)言大模型也將促進(jìn)人工智能技術(shù)在其他領(lǐng)域的應(yīng)用,例如智能駕駛、醫(yī)療健康、金融服務(wù)等。未來(lái),語(yǔ)言大模型將會(huì)持續(xù)發(fā)展和創(chuàng)新,為人類(lèi)社會(huì)帶來(lái)更多的便利和效益。

無(wú)論現(xiàn)在OpenAI、百度、阿里旗下的聊天機(jī)器人表現(xiàn)如何,這也只是AI技術(shù)迭代的最開(kāi)始,未來(lái)的路還有很長(zhǎng)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。