文|科技新知 王思原
編輯丨賽柯
誰(shuí)能想到,號(hào)稱“超級(jí)大腦”的大模型,竟然在幾道簡(jiǎn)單的數(shù)學(xué)題上敗給了小學(xué)生。
近日,國(guó)內(nèi)火熱的音樂(lè)節(jié)目《歌手》中,孫楠與外國(guó)歌手的微小分?jǐn)?shù)差異,引發(fā)了網(wǎng)友關(guān)于13.8%和13.11%誰(shuí)大誰(shuí)小的爭(zhēng)論。
艾倫研究機(jī)構(gòu)成員林禹臣將此問(wèn)題拋給了ChatGPT-4o,但結(jié)果令人吃驚,最強(qiáng)大模型竟然在回答中給到了13.11比13.8更大的錯(cuò)誤答案。
隨后Scale AI的提示工程師萊利·古德賽德基于此靈感變換了問(wèn)法,拷問(wèn)了可能是目前最強(qiáng)的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個(gè)更大?然而幾家頭部大模型的錯(cuò)誤回答,也讓該話題傳播開(kāi)來(lái)。
而面對(duì)如此簡(jiǎn)單的問(wèn)題,國(guó)產(chǎn)大模型表現(xiàn)如何呢?為此,我們也對(duì)國(guó)內(nèi)7款主流AIGC產(chǎn)品文心一言、通義千問(wèn)、騰訊元寶、字節(jié)豆包、訊飛星火、智譜、Kimi進(jìn)行了比小學(xué)數(shù)學(xué)更簡(jiǎn)單的“單詞字母數(shù)識(shí)別”測(cè)試,結(jié)果令我們大吃一驚。
Part.1 7家大模型,幾乎全翻車
首先我們向7款大模型產(chǎn)品詢問(wèn)同一個(gè)問(wèn)題,“strawberry中有幾個(gè)字母r”?
大模型新星Kimi,斬釘截鐵且不加解釋的表示有1個(gè)字母r,不過(guò)當(dāng)我們?cè)俅卧儐?wèn)時(shí),Kimi竟打翻了自己第一次的錯(cuò)誤答案,給到了第二個(gè)錯(cuò)誤答案。再三追問(wèn)后仍是沒(méi)能給到正確答案。
來(lái)源:科技新知(Kimi)
智譜AI旗下的智譜清言ChatCLM給到的也是錯(cuò)誤答案。
來(lái)源:科技新知(智譜清言)
科大訊飛的訊飛星火對(duì)話在回答這個(gè)問(wèn)題的時(shí)候開(kāi)啟了聯(lián)網(wǎng)搜索,給到一個(gè)錯(cuò)誤答案后,還一本正經(jīng)的告訴我們這2個(gè)r的位置。但可惜的是,星火對(duì)話給到的位置有一個(gè)也是錯(cuò)誤的。
來(lái)源:科技新知(訊飛星火)
不過(guò)也有表現(xiàn)不錯(cuò)的,百度的文心大模型將strawberry每個(gè)字母都進(jìn)行了拆分,然后進(jìn)行統(tǒng)計(jì),給到了正確結(jié)果。
來(lái)源:科技新知(文心大模型)
阿里旗下的通義千問(wèn)在第一次回答中給到了一個(gè)錯(cuò)誤答案,并且闡述的位置也是錯(cuò)誤的,第二次雖然再次給出了錯(cuò)誤答案,但其回答中識(shí)別到了3個(gè)字母r,只是一句“注意雖然 "rr" 是連續(xù)的,但它們?nèi)匀槐挥?jì)算為兩個(gè)單獨(dú)的字母?!弊屓嗣坏筋^腦。
來(lái)源:科技新知(通義千問(wèn))
于是我們追問(wèn)了“為什么rr被計(jì)算為兩個(gè)單獨(dú)的字母”,通義千問(wèn)竟然又否認(rèn)了剛才的回答,稱“在 "strawberry" 中,兩個(gè) "r" 字母可以影響周圍音節(jié)的發(fā)音,但它們?nèi)匀皇莾蓚€(gè)獨(dú)立的字母?!?/p>
來(lái)源:科技新知(通義千問(wèn))
騰訊元寶在回答這個(gè)問(wèn)題時(shí)采用的是假設(shè)法,假設(shè)了字母“r”的數(shù)量為未知數(shù)x,然后通過(guò)查看單詞“strawberry”并計(jì)數(shù)字母“r”得到x的值,最后給到的答案是正確的。
來(lái)源:科技新知(騰訊元寶)
表現(xiàn)良好的還有字節(jié)豆包,直截了當(dāng)?shù)慕o出了正確答案,并且還舉了兩個(gè)例子來(lái)證明這個(gè)簡(jiǎn)單的問(wèn)題難不倒它。但是,也是豆包的這兩個(gè)例子出賣了它在識(shí)數(shù)能力上的問(wèn)題。豆包稱“car”這個(gè)單詞只有1個(gè)“r”,“mirror”則有2個(gè)“r”,而“strawberry”比它們都多,有3個(gè)。
問(wèn)題顯而易見(jiàn),“mirror”中有其實(shí)是有3個(gè)“r”,并非2個(gè)。于是我們又追問(wèn)了一下“mirror中有幾個(gè)字母r”,豆包給到的答案仍然是2個(gè),并且又舉了兩個(gè)錯(cuò)誤的例子,稱“father”這個(gè)單詞有2個(gè)“r”,而“orange”里面則一個(gè)“r”都沒(méi)有。這多少讓人認(rèn)為豆包的正確回答有“蒙”的嫌疑。
來(lái)源:科技新知(豆包)
通過(guò)這個(gè)簡(jiǎn)單的測(cè)試我們可以看到,7家大模型中有5家都有“不識(shí)數(shù)”的嫌疑,于是我們又將這個(gè)單詞進(jìn)行拆分成2個(gè)更簡(jiǎn)單的字母,測(cè)試這些大模型能否給到正確答案。
Part.2 拆分測(cè)試,揭露大模型邏輯短板
為了引導(dǎo)大模型,盡量使大模型給到正確答案,我們這部分將分為兩個(gè)問(wèn)題,一個(gè)是“str中含有幾個(gè)字母r,berry中含有幾個(gè)字母r,他們一共含有幾個(gè)r?”,另一個(gè)是“那str和berry合在一起是strawberry,所以strawberry中含有幾個(gè)字母r?”
不過(guò),被寄予厚望的Kimi還是讓我們失望了。將strawberry拆分成兩個(gè)簡(jiǎn)單的單詞后,Kimi仍沒(méi)給到正確答案。
來(lái)源:科技新知(Kimi)
同樣,智譜清言在這一輪也沒(méi)能給到正確答案。并且其給出的解釋也與Kimi一致,都認(rèn)為berry中有1個(gè)字母r,所以才導(dǎo)致strawberry中少了1個(gè)r。
來(lái)源:科技新知(智譜清言)
有趣的是訊飛星火,當(dāng)我們將單詞分開(kāi)提問(wèn)時(shí),星火對(duì)話能夠給到正確的回答,并且識(shí)別到了berry中有2個(gè)字母r,不過(guò)看星火對(duì)話給的解釋是將這兩個(gè)字母當(dāng)作字符串,用編程的方式來(lái)查找所得。但不管怎樣,答案確實(shí)是正確的。
來(lái)源:科技新知(訊飛星火)
而當(dāng)我們認(rèn)為訊飛星火又行了的時(shí)候,再次詢問(wèn)“那str和berry合在一起是strawberry,所以strawberry中含有幾個(gè)字母r?”,但訊飛星火仍然給到的是錯(cuò)誤答案。
來(lái)源:科技新知(訊飛星火)
上一輪表現(xiàn)出色的文心大模型這次并沒(méi)有給到正確答案,它與Kimi和智譜清言都認(rèn)為“berry” 中有1個(gè)“r”,而追問(wèn)兩個(gè)單詞合在一起有幾個(gè)r后,文心也是給出了2個(gè)的錯(cuò)誤答案。
來(lái)源:科技新知(文心大模型)
通義千問(wèn)這次的表現(xiàn)讓人吃驚,不但準(zhǔn)確的給出了答案,而且還給了代碼級(jí)別的計(jì)算過(guò)程。
來(lái)源:科技新知(通義千問(wèn))
當(dāng)我們?cè)俅螁?wèn)strawberry中含有幾個(gè)字母r時(shí),通義千問(wèn)也非常有邏輯的地告訴我們可以直接在 "strawberry" 中查找 "r" 的出現(xiàn)次數(shù),而不必依賴于之前的組合。
來(lái)源:科技新知(通義千問(wèn))
騰訊元寶的表現(xiàn)也足夠穩(wěn)定,簡(jiǎn)單迅速的給到了正確答案。
來(lái)源:科技新知(騰訊元寶)
豆包在這一輪也給到的正確答案,但喜歡舉例的豆包,再次舉了一個(gè)錯(cuò)誤案例。所以其數(shù)數(shù)字的水平和邏輯到底怎樣,仍是未知。
來(lái)源:科技新知(豆包)
兩輪簡(jiǎn)單的小測(cè)試下來(lái),7家國(guó)產(chǎn)大模型只有1家表現(xiàn)穩(wěn)定,其他6家均出現(xiàn)了不同程度的錯(cuò)誤,這到底是怎么回事呢?
Part.3 數(shù)學(xué)不好,本質(zhì)是能力問(wèn)題
這類大模型說(shuō)胡話的現(xiàn)象,在業(yè)界被稱為大模型出現(xiàn)幻覺(jué)。
此前,哈爾濱工業(yè)大學(xué)和華為的研究團(tuán)隊(duì)發(fā)表的綜述論文認(rèn)為,模型產(chǎn)生幻覺(jué)的三大來(lái)源:數(shù)據(jù)源、訓(xùn)練過(guò)程和推理。大模型可能會(huì)過(guò)度依賴訓(xùn)練數(shù)據(jù)中的一些模式,如位置接近性、共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)和相關(guān)文檔計(jì)數(shù),從而導(dǎo)致幻覺(jué)。此外,大模型還可能會(huì)出現(xiàn)長(zhǎng)尾知識(shí)回憶不足、難以應(yīng)對(duì)復(fù)雜推理的情況。
一位算法工程師認(rèn)為,生成式的語(yǔ)言模型更像文科生而不是理科生。實(shí)際上語(yǔ)言模型在這樣的數(shù)據(jù)訓(xùn)練過(guò)程中學(xué)到的是相關(guān)性,使得AI在文字創(chuàng)作上達(dá)到人類平均水平,而數(shù)學(xué)推理更需要的是因果性,數(shù)學(xué)是高度抽象和邏輯驅(qū)動(dòng)的,與語(yǔ)言模型處理的語(yǔ)言數(shù)據(jù)在本質(zhì)上有所不同。這意味著大模型要學(xué)好數(shù)學(xué),除了學(xué)習(xí)世界知識(shí)外,還應(yīng)該有思維的訓(xùn)練,從而具備推理演繹能力。
不過(guò)中國(guó)社科院新聞與傳播研究所所長(zhǎng)胡正榮也指出,大模型雖然是語(yǔ)言模型,但這個(gè)語(yǔ)言不是人們通常理解的字面意思,音頻、解題等都是大模型可以做的。從理論上看,數(shù)學(xué)大模型這個(gè)技術(shù)方向是可行的,但最終結(jié)果如何,取決于兩個(gè)因素,一是算法是不是足夠好,二是是否有足夠量的數(shù)據(jù)做支撐?!叭绻竽P偷乃惴ú粔蚵斆鳎皇钦嬲臄?shù)學(xué)思維,也會(huì)影響到答題的正確率。”
其實(shí)對(duì)于大模型來(lái)說(shuō),對(duì)自然語(yǔ)言的理解是基礎(chǔ)。很多數(shù)理化的專業(yè)知識(shí)并不是大模型的強(qiáng)項(xiàng),并且很多大模型是利用搜索把之前已有的解題的經(jīng)驗(yàn)和知識(shí)的推理相結(jié)合,可以理解為在搜索內(nèi)容上進(jìn)行理解,如果搜索內(nèi)容本就是錯(cuò)誤的,那么大模型給到的結(jié)果必然錯(cuò)誤。
值得一提的是,大模型的復(fù)雜推理能力尤為重要,這關(guān)乎可靠性和準(zhǔn)確性,是大模型在金融、工業(yè)等場(chǎng)景落地需要的關(guān)鍵能力?,F(xiàn)在很多大模型的應(yīng)用場(chǎng)景是客服、聊天等等,在聊天場(chǎng)景一本正經(jīng)胡說(shuō)八道影響不太大,但它很難在非常嚴(yán)肅的商業(yè)場(chǎng)合去落地。
隨著技術(shù)的進(jìn)步和算法的優(yōu)化,我們期待大模型能夠在更多領(lǐng)域發(fā)揮其潛力,為人類社會(huì)帶來(lái)更多實(shí)際價(jià)值。但通過(guò)這次對(duì)國(guó)內(nèi)主流大模型的簡(jiǎn)單測(cè)試,也警示我們,在依賴大模型進(jìn)行決策時(shí),必須保持謹(jǐn)慎,充分認(rèn)識(shí)到其局限性,并在關(guān)鍵領(lǐng)域加強(qiáng)人工審核和干預(yù),確保結(jié)果的準(zhǔn)確性和可靠性。畢竟,技術(shù)的最終目的是服務(wù)于人,而不是取代人的思考和判斷。