正在閱讀:

媒體人廣告人達(dá)人最適合哪個(gè)AI?11個(gè)大模型橫評(píng)②

掃一掃下載界面新聞APP

媒體人廣告人達(dá)人最適合哪個(gè)AI?11個(gè)大模型橫評(píng)②

“都說AI好,一用急跺腳?!?/p>

文|娛樂資本論

編輯|James

這是娛樂資本論·視智未來在第一次做大語言模型文本應(yīng)用能力測試時(shí),寫下的第一句話。

當(dāng)時(shí),對于不少從業(yè)者而言,AI大模型的重點(diǎn)不是能不能做順口溜或回答哲學(xué)問題,而是在于AI是否能夠在實(shí)際工作中發(fā)揮作用,提升效率。時(shí)至今日,這一基本需求仍未改變。

為了解決這樣的疑問,我們特意咨詢了編輯、寫手、編劇、公關(guān)等許多內(nèi)容行業(yè)的專業(yè)人士,征詢到18個(gè)問題,針對國內(nèi)的大型語言模型,進(jìn)行了一次全面的,不同于以往科技工作者的文本應(yīng)用能力測試。

時(shí)隔半年,情況發(fā)生了怎樣的變化呢?

8月底,首批八款國產(chǎn)大模型完成備案,允許對公眾開放:百度(文心一言)、抖音(云雀大模型)、智譜 AI(GLM 大模型)、中科院(紫東太初大模型)、百川智能(百川大模型)、商湯(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能實(shí)驗(yàn)室(書生通用大模型)。

這也讓9月成為國產(chǎn)AI大模型的“節(jié)日”。這八款大模型中絕大部分免費(fèi)開放,吸引了許多人的使用。很多媒體也在第一時(shí)間進(jìn)行了簡單的上手測試,而一些側(cè)重于邏輯推理等能力的基準(zhǔn)評(píng)測也迅速展開,各自產(chǎn)生了不同的結(jié)果。

越來越多的國產(chǎn)大模型在生成結(jié)果時(shí)默認(rèn)加入網(wǎng)絡(luò)搜索內(nèi)容,以避免大模型生成錯(cuò)誤的敘述,還有些國產(chǎn)大模型表示已經(jīng)超越了GPT-3.5。此時(shí),我們認(rèn)為是展開第二輪AI大模型實(shí)用性評(píng)測的絕佳時(shí)機(jī)。

本次測試有如下創(chuàng)新內(nèi)容:

為盡可能排除測試中的干擾因素,使人們可以輕松地比較結(jié)果差異與提示詞(prompt)之間的關(guān)系,我們的問題是模塊化的。首先,按照大的任務(wù)分類,指定一些基礎(chǔ)的提示詞片段;然后,依據(jù)不同場景,逐級(jí)插入相應(yīng)的段落。

考慮到目前大模型已經(jīng)陸續(xù)接入網(wǎng)絡(luò),我們?yōu)橥粋€(gè)問題準(zhǔn)備了聯(lián)網(wǎng)和不聯(lián)網(wǎng)的兩種版本。本次測試中將有6個(gè)具體產(chǎn)品是聯(lián)網(wǎng)的,有2個(gè)產(chǎn)品是不聯(lián)網(wǎng)的。另有2個(gè)產(chǎn)品只參加跟寫作能力有關(guān)的測試。

我們著重測試了通過自己長期使用,總結(jié)出來大模型最擅長的幾種能力,包括對文章進(jìn)行擴(kuò)寫、縮寫和變換寫作風(fēng)格的改寫,以及總結(jié)長文章的要點(diǎn)等。

這將是一篇特別長的評(píng)測。請坐穩(wěn)扶好,我們現(xiàn)在出發(fā)。

測試過程簡述:我們的測試并非旨在提供學(xué)術(shù)上的嚴(yán)謹(jǐn)標(biāo)準(zhǔn),我們的目標(biāo)是:從實(shí)用的角度出發(fā),分析這些大模型在各種文本應(yīng)用場景的綜合表現(xiàn),為文娛、傳媒行業(yè)從業(yè)者提供參考。我們會(huì)基于以下5個(gè)維度,為每個(gè)答案打0-5分,來評(píng)判大模型的表現(xiàn)。1.語言表達(dá)能力:文本是否通順、流暢,語法是否正確。2.準(zhǔn)確性:模型是否能正確理解問題,并給出準(zhǔn)確的信息。3.完整性:文本內(nèi)容是否足夠完整,是否涵蓋了問題的主要內(nèi)容,是否達(dá)到了基本可用的標(biāo)準(zhǔn)。4.交互性:模型是否能猜測不太準(zhǔn)確的問題背后,用戶的真實(shí)意圖。5.加分項(xiàng):任何創(chuàng)新、獨(dú)特、讓人眼前一亮的內(nèi)容(不作具體要求)。本測試的題目是互相分開的,不設(shè)總分。讀者可以自行計(jì)算模型之間的總分,但對總分的比較沒有顯著意義。讀者只需要留意每一道題的具體分?jǐn)?shù)即可。包含所有題目及回答的詳細(xì)測試表單,將通過公眾號(hào)“視智未來”發(fā)布。讀者可以掃描/長按下列二維碼查看詳情:

部分測試項(xiàng)目及結(jié)果展示

因篇幅限制,本文不會(huì)一一展示所有問題的測試結(jié)果及結(jié)論,會(huì)挑一些有代表性的展示給大家。我們在下面展示的案例,由此來反映測試中突出的一些問題,以及尋求其中的一些閃光點(diǎn)。 聯(lián)網(wǎng)能力判斷 對于判斷某個(gè)大模型是否真聯(lián)網(wǎng),我們用了兩個(gè)問題:

請問現(xiàn)在通過備案的8款國產(chǎn)大模型都叫什么?

請問李凱爾會(huì)不會(huì)打杭州亞運(yùn)

如果是有聯(lián)網(wǎng)開關(guān)的大模型,一律使用其最佳狀態(tài)測試。至于不聯(lián)網(wǎng)問題僅針對不能聯(lián)網(wǎng)的模型,計(jì)分標(biāo)準(zhǔn)一致。有些時(shí)候,有些大模型的聯(lián)網(wǎng)功能不完全,例如文心一言只能百度搜索prompt里面的關(guān)鍵字,不能讀取指定網(wǎng)址鏈接。此時(shí)該問題會(huì)降級(jí)到測試不聯(lián)網(wǎng)的版本。本次測試僅僅使用娛樂資本論·視智未來能接觸到的模型,不代表各家公司的最新技術(shù)。例如百川剛宣布的Baichuan2-7B用不上,就只測試現(xiàn)有的Baichuan-7B。Minimax對外發(fā)布的產(chǎn)品是WPS AI 和Glow(它基本不能用,不參與本次測試),它們使用的大模型可能也不是最新的版本,其它家的情況也類似。 小紅書文案-產(chǎn)品介紹向

僅有百川、360智腦等在回答中提到華為Mate 60 Pro采用了麒麟9000s芯片,以及這是一款5G手機(jī)。不過,百川的回答錯(cuò)誤地說該機(jī)用的是EMUI而不是鴻蒙。另一邊,通義千問的某一次回答提到該手機(jī)的衛(wèi)星通訊功能,卻把處理器說成了驍龍8+。因此,這些模型通過聯(lián)網(wǎng)來確保準(zhǔn)確性的能力都比較差。

ChatGPT和Bing在網(wǎng)絡(luò)結(jié)果中都用了華為官網(wǎng)的宣傳頁面,而因?yàn)楸娝苤奶厥庠?,官網(wǎng)信息對處理器和5G功能隱而不宣。其它用到外部結(jié)果的模型,居然一個(gè)都沒有提到“遙遙領(lǐng)先”“4G+鴻蒙>5G”等梗,而且也充滿了沒查到結(jié)果時(shí)候的腦補(bǔ),非常令人失望。要解決這個(gè)問題,一個(gè)可能的辦法是分步推理,首先用一個(gè)專門的步驟去搜索所有和該手機(jī)有關(guān)的功能點(diǎn),下一步再生成文案。在我們的測試中,你會(huì)發(fā)現(xiàn)很多問題如果用幾個(gè)連續(xù)的prompt提問,而不是在一個(gè)問題中提問,效果都會(huì)更好。小紅書文案-買家秀向 我們本來是希望從商家角度和買家角度分別推斷新品推介文案的差異,在小紅書上同時(shí)存在這兩種賬號(hào)。不過實(shí)際測試后,“產(chǎn)品介紹向”和“買家秀向”的區(qū)別不大,所以這部分我們展示兩款不能聯(lián)網(wǎng)的大模型的表現(xiàn)。對于不聯(lián)網(wǎng)的模型,我們讓它們介紹iPhone X,這款手機(jī)的基礎(chǔ)知識(shí)在大多數(shù)模型訓(xùn)練的期限之內(nèi)。

商湯的商量感覺還可以,對基礎(chǔ)知識(shí)的調(diào)用比較準(zhǔn)確,信息沒有錯(cuò)漏;但格式較為死板,“互動(dòng)引導(dǎo)”也出現(xiàn)在里面就需要更多的手動(dòng)修改,也沒有emoji。

智譜清言相對更為敷衍,但幸虧還是讀完了題目的所有要求。相對而言,它沒有很明確地介紹專屬于iPhone X的功能。作為對比,GPT-3.5的腦力輸出就比較慷慨了。

總的來說,雖然小紅書屬于一種簡略的文體,但越是短小的段落,其實(shí)越難寫。當(dāng)然,讓AI像專業(yè)文案作者那樣工作是強(qiáng)“模”所難,AIGC比較適合完成對質(zhì)量要求不高,但批量出品的那種工作。直播文案-淘寶直播

非常遺憾的是,沒有模型在這個(gè)測試中給出“3、2、1,上鏈接”這句話,只有通義千問化用了“所有女生”,即使我們已經(jīng)非常明確地提示了你要模仿的人是李佳琦。所以說,大模型的“理解”和“讀懂”很多時(shí)候仍然只是人類用戶善意腦補(bǔ)后的結(jié)果。

可能相對比較好的有字節(jié)的豆包:(上圖1)如果以標(biāo)志性的語句為判斷依據(jù),那么通義千問也還可以:(上圖2)如果佳琦哥是這么回答直播間提問的,他倒是一定不會(huì)翻車。直播文案-抖音直播 這個(gè)測試用兩個(gè)問題來測試模型是不是真的能聯(lián)網(wǎng)。一般第一個(gè)問題(8個(gè)大模型的名稱)已經(jīng)可以確定是否聯(lián)網(wǎng),但判斷不準(zhǔn)時(shí)會(huì)加入第二個(gè)問題(李凱爾)。對這兩個(gè)問題的回答,所有聯(lián)網(wǎng)模型表現(xiàn)都很好,除了使用插件的GPT-4和360智腦——它即使打開了所謂的“搜索增強(qiáng)”,對問題的回答也有很大偏差。

我們用最近成為熱搜焦點(diǎn)的“秀才”作為問題,看這些模型是不是能Get到他的直播風(fēng)格是:“秀才的視頻拍攝地多為鄉(xiāng)村場景,內(nèi)容主要是‘認(rèn)真做事、假裝被發(fā)現(xiàn)、挑眉、吐舌、扶額對口型唱歌’的動(dòng)作套路呈現(xiàn)?!绷硗猓绻_定看過秀才的介紹文章,就會(huì)發(fā)現(xiàn)他在直播中一般不直接帶貨。結(jié)果可想而知是不行。比如360智腦的常規(guī)版本:

360智腦還有一個(gè)“數(shù)字人廣場”。記得這個(gè)大模型正式發(fā)布的時(shí)候說:

360將依托360智腦大模型能力,重新定義“數(shù)字人”。區(qū)別于傳統(tǒng)數(shù)字人只能按既定腳本輸出內(nèi)容,360AI數(shù)字人的特點(diǎn)在于有記憶、有人設(shè)和性格,能夠復(fù)刻思維方式和人生經(jīng)歷。據(jù)了解,360AI數(shù)字人目前擁有200多個(gè)角色,分為數(shù)字名人和數(shù)字員工兩類。數(shù)字名人包括歷史人物、偶像明星、文學(xué)形象等,讓用戶在與數(shù)字人的開放對話中實(shí)現(xiàn)與偶像的近距離接觸,與先賢的思想交流。數(shù)字員工則可成為企業(yè)員工的知識(shí)助手和辦公助手,提升企業(yè)運(yùn)營效能。周鴻祎現(xiàn)場演示了“法務(wù)專員”數(shù)字人角色,對中小企業(yè)常見的公章管理和合同審核問題給與了專業(yè)回答。

我還真的以為是他們一個(gè)一個(gè)訓(xùn)練了小模型。當(dāng)我真正用上的時(shí)候,我發(fā)現(xiàn)“數(shù)字人”的背后其實(shí)就是一行預(yù)設(shè)prompt:

確實(shí),加入預(yù)設(shè)角色后的效果好了不少,但是仍然距離理想狀態(tài)有很大差距。對于360智腦來說,下一步如果不是預(yù)先選擇角色,而是首先分析用戶的輸入,再根據(jù)用戶意圖推薦切換到某個(gè)角色,相信這樣的用戶體驗(yàn)會(huì)極大增強(qiáng)。

長文章寫作-歷史類

bing給我們開了個(gè)好頭。它充分利用了聯(lián)網(wǎng)搜索,給出了網(wǎng)上優(yōu)質(zhì)回答的文獻(xiàn)綜述,信息量很大,只可惜因?yàn)樽謹(jǐn)?shù)限制沒有寫完。相比之下,GPT-4的結(jié)果因?yàn)榧尤胩嗝庳?zé)條款式的內(nèi)容而顯得啰嗦和“水”。

在豆包的各種預(yù)制角色里面,搞笑的是居然就有一個(gè)“曹操”。我們立馬用不聯(lián)網(wǎng)的三國題測試了一下:

可以說很努力的在角色扮演了,但是太短。豆包的回答普遍都特別短,跟bing類似,這使得它難以完成本測試中的大多數(shù)題目。另外,豆包在很多問題的回答都沒有利用網(wǎng)絡(luò)搜索,它似乎只有在明確提出“xxx是怎么回事”這樣的單純問題時(shí),才會(huì)試圖聯(lián)網(wǎng)查詢。這里還想提一下昆侖萬維的天工。我們額外用題干測試了天工AI搜索。它給出答案的問題是字?jǐn)?shù)太少,不過通過適當(dāng)追問,你可以將其中每個(gè)段落都補(bǔ)充一些內(nèi)容,從而生成非??捎玫某善?。

天工AI搜索可以直接回答問答類問題,所以只需要輸入問題本身。輸入完整的提示詞反而不行,因?yàn)樘L了。它對我們所有問題的完整提示詞都無法回答。長文章寫作-科普類

我們希望參與測試的模型們可以自己尋找一個(gè)給定主題(醫(yī)美)的近期熱點(diǎn),然后解答這個(gè)熱點(diǎn)。除了百川之外,其它模型的表現(xiàn)都不太好。特別是GPT-4,在插件搜索一番無功而返以后,為了滿足prompt的要求,它只好編了一個(gè)前因后果都不明的故事作為引子。

相比之下,百川給出的兩個(gè)具體的醫(yī)美關(guān)鍵字,我們可以通過小紅書搜索發(fā)現(xiàn)它們確實(shí)是近期醫(yī)美愛好者比較關(guān)心的手術(shù)項(xiàng)目。

因此,這種給出具體項(xiàng)目的對比介紹就比泛泛的討論醫(yī)療手術(shù)的風(fēng)險(xiǎn)與如何防范等,更符合我們題目的意思。當(dāng)然,我們都不是醫(yī)學(xué)專業(yè)人士,如果可以確認(rèn)這些回答里面有明顯的事實(shí)錯(cuò)誤,將會(huì)成為重大的減分項(xiàng)。 文章調(diào)整-改寫

絕大部分模型都無法通過我們的測試,它們號(hào)稱聯(lián)網(wǎng),但無法準(zhǔn)確抓到《孤注一擲》的劇情,因此只是隨手亂答。

例如通義千問的結(jié)果:(上圖1)不僅如此,通義千問還錯(cuò)誤地將我們的兩個(gè)需求變成了自己的節(jié)標(biāo)題,這說明它沒有讀懂問題。實(shí)際上要完成這個(gè)題目,大模型需要自己學(xué)會(huì)分步完成,即先搜索劇情,再類比出結(jié)果。這是Bing的結(jié)果(上圖2),其思考過程很明顯地反映了上述正確的步驟。而ChatGPT聯(lián)網(wǎng)后的結(jié)果則更為驚艷:(上圖3、4)文章調(diào)整-擴(kuò)寫

本來我對于模型們寫出跟跳水大爺有機(jī)結(jié)合的天津愛情故事沒有任何期待。但在選擇了Bing的“更有創(chuàng)造力”版本后,它給出了一篇任何角度看都當(dāng)之無愧的滿分作文,一個(gè)字都不用改。

理解這個(gè)題目的關(guān)鍵是需要通過聯(lián)網(wǎng)準(zhǔn)確地獲取“大爺跳水”的本質(zhì),是一種積極的運(yùn)動(dòng)方式。有的模型為了安排情節(jié),將女方寫成了新聞?dòng)浾?,還有的寫成了勇救落水大爺,所以效果都比較遺憾。文章調(diào)整-縮寫 大部分模型表現(xiàn)都中規(guī)中矩,以WPS為例:

WPS AI本身提供“總結(jié)”的功能選項(xiàng),但是當(dāng)輸入我們的prompt時(shí),它并不能正常工作:(下圖1)

如果覺得官方“總結(jié)”字?jǐn)?shù)太少,可以“續(xù)寫”,但通常來說效果不佳。這段文字“續(xù)寫”兩次后是這樣:(上圖2)不過,當(dāng)文章篇幅增長時(shí),WPS AI會(huì)變得更好用一些。這篇3000字的文章只能在prompt里涵蓋前1000字,但對于全文的總結(jié),WPS AI明顯強(qiáng)于對剛才的前1000字的總結(jié)。(上圖3)我們實(shí)際測試也發(fā)現(xiàn),如果你需要指定字?jǐn)?shù)的縮寫,使用“全文處理-縮短篇幅”可能會(huì)比較好。文章調(diào)整-仿寫 在這個(gè)問題上優(yōu)秀的回答,必然是調(diào)用了一整篇文章所總結(jié)的相關(guān)知識(shí),我們本來也沒期待大模型們用自己的方法一條一條地總結(jié)。但不管黑貓白貓,只要給出結(jié)果能用就好。

ChatGPT正確地給出了基于搜索總結(jié)的2022年經(jīng)典營銷案例(來自一個(gè)知乎專欄),它給出的蜜雪冰城文案乍一看可能不相關(guān),但仔細(xì)看會(huì)發(fā)現(xiàn)是用了“王心凌浪姐”里面提到的懷舊概念。

當(dāng)Bing說出“叫人想樂”的時(shí)候那場面是真的叫人想樂。文心一言也正確地實(shí)現(xiàn)了總結(jié),但在最后關(guān)頭的仿寫上全面失敗??紤]到問題兩部分要完整地看,因此雖然百度沒能完成給定任務(wù),但總結(jié)得不錯(cuò),算是加分項(xiàng),最后這道題給了3分。

結(jié)論

包含所有題目及回答的詳細(xì)測試表單,將通過公眾號(hào)“視智未來”發(fā)布。

以下是參與本次評(píng)測的幾款大模型在測試中的表現(xiàn)概述:

1.GPT-3.5/4:不聯(lián)網(wǎng)時(shí)發(fā)揮出色,聯(lián)網(wǎng)使用第三方插件,可能因?yàn)椴寮憩F(xiàn)不穩(wěn)定而大大影響了效果。

2.Bing:充分利用聯(lián)網(wǎng)搜索,提供了大量信息,但有時(shí)因字?jǐn)?shù)限制未能完成回答。

3.文心一言:展現(xiàn)了較好的總結(jié)能力,在仿寫上表現(xiàn)不佳,但總體尚可。

4.通義千問:針對直播場景的表現(xiàn)很好;其他場景一般。

5.百川:在某些情況下能提供準(zhǔn)確的信息,長文章寫作能力出色,但有時(shí)難以正確理解問題。

6.豆包:回答通常較短,基本不能聯(lián)網(wǎng)查詢,難以完成測試中的多數(shù)題目。

7.360智腦:基本不能聯(lián)網(wǎng),默認(rèn)設(shè)置效果不好,但使用預(yù)設(shè)角色(“數(shù)字人”)后有改善。

8.智譜清言:回答相對敷衍,但通常讀取了題目的所有要求。

9.商量:對基礎(chǔ)知識(shí)的調(diào)用準(zhǔn)確,但回答格式較為死板。

10.WPS AI(minimax):在一些情況下無法正常工作。在文章總的篇幅增加時(shí),其總結(jié)、縮寫能力更強(qiáng)。

11.天工:AI搜索的回答字?jǐn)?shù)較少,但通過適當(dāng)追問,可以生成可用的成品。

AI寫作的風(fēng)格類似于GPT-4。大多數(shù)模型在不同類型的測試中表現(xiàn)都有一些問題,需要進(jìn)一步改進(jìn),以提供更準(zhǔn)確和有用的回答。

讀者可以注意到,我們對每個(gè)項(xiàng)目的評(píng)分基本在2到4分之間浮動(dòng)。這是因?yàn)楹茈y找到能夠獲得額外加分的項(xiàng)目,而通順的語言表達(dá)通常都能夠滿足要求,所以2分是實(shí)際上的“最低分”,表示當(dāng)大模型不能準(zhǔn)確理解問題,或者答非所問的情況。在上面的摘要中,我們也提供了一些獲得額外加分的示例。

關(guān)于聯(lián)網(wǎng)功能對大模型是否有用的問題,我們目前只能很遺憾的回答,還不是特別有用。大部分聯(lián)網(wǎng)動(dòng)作的結(jié)果都是找到一篇文章(大概率是知乎上的),然后總結(jié)其主要內(nèi)容作為回答。它的搜索結(jié)果特別“碰運(yùn)氣”,而且往往難以對相關(guān)內(nèi)容做事實(shí)核查。

由于每個(gè)大模型的優(yōu)化方向和訓(xùn)練素材都不同,所以將它們的總分進(jìn)行比較并不是特別有意義。在處理特定問題時(shí),讀者可以參考相關(guān)具體項(xiàng)目的評(píng)分,結(jié)合自己的經(jīng)驗(yàn)來進(jìn)行選擇。

下一步計(jì)劃

和之前一樣,在測試過程中可能依然存在一些遺漏和不成熟的地方。我們會(huì)根據(jù)大模型的升級(jí)換代和應(yīng)用場景的變化,及時(shí)進(jìn)行更新,也歡迎大家在公眾號(hào)“視智未來”下關(guān)注并留言,貢獻(xiàn)出自己想問的問題,我們后期將再做測試。

由于時(shí)間倉促,以下在規(guī)劃中的項(xiàng)目將會(huì)在下一次大模型評(píng)測時(shí)引入:

1.我們的未來評(píng)測將更側(cè)重于已經(jīng)聯(lián)網(wǎng)的模型。下一次評(píng)測將引入聯(lián)網(wǎng)模型專屬的一些問題,包括但不限于:

實(shí)時(shí)新聞、天氣預(yù)報(bào)等查詢

相關(guān)新聞、時(shí)間線等查詢

產(chǎn)品比較、電影推薦等基于查詢結(jié)果的分析

股票分析、旅行建議等復(fù)雜的解決方案

事實(shí)核查和辟謠

2.本次使用的GPT-4插件VoxScript是編輯日常使用的,但效果不一定是ChatGPT眾多聯(lián)網(wǎng)插件中最好的。這次GPT-4對一些問題令人失望的回答可能與此有關(guān)。在下次測試前,我們會(huì)首先完成對GPT-4聯(lián)網(wǎng)插件的能力測試,并確定下次使用的插件型號(hào)。

3.部分廠家有插件及多模態(tài)能力,但相對比較分散。我們會(huì)根據(jù)各廠商的后續(xù)發(fā)展,確定是否在下次測試時(shí)引入多模態(tài)類內(nèi)容。

4.翻譯也是大模型的長項(xiàng),但是由于需要專業(yè)的語言知識(shí),所以我們這次不會(huì)測試翻譯相關(guān)的內(nèi)容。如果大家對此期望很高,我們會(huì)在下一次測試引入。

給讀者的建議

這次我們有一些基本建議,對于大家更好的使用AI大模型,更高效率的產(chǎn)出想要的內(nèi)容可能會(huì)有所幫助:

首先,在GPT-4沒有官方的網(wǎng)絡(luò)搜索能力時(shí),使用第三方聯(lián)網(wǎng)插件可能反而會(huì)降低它的表現(xiàn)。由于準(zhǔn)確度較低,ChatGPT與必應(yīng)的集成在前段時(shí)間已經(jīng)暫停了。所以人們只能通過一些插件來訪問搜索結(jié)果并將其代入GPT-4。但這些插件的工作原理各不相同,而且它們現(xiàn)在很難訪問谷歌,大多數(shù)都改用免費(fèi)的搜索引擎DuckDuckGo,這也影響了最終能搜到的東西。另外,有一些網(wǎng)站如微信公眾號(hào)文章并不能被讀取。

在prompt要求生成結(jié)果結(jié)合網(wǎng)絡(luò)搜索之后,GPT的表現(xiàn)會(huì)變得難以預(yù)測。在實(shí)際使用中,建議大家分步來完成過程,特別是在寫長文章時(shí)。第1步,讓它先搜索網(wǎng)絡(luò)上的結(jié)果,獲得相關(guān)的文章鏈接及其摘要。第2步,再請它以此為基礎(chǔ)來寫文章。如果有必要,也可以先自己搜索,然后將相關(guān)文章的純文本提供給GPT,讓它總結(jié),讀完文章之后可以繼續(xù)寫作。

第二,對于特定任務(wù),使用針對性優(yōu)化過的國產(chǎn)模型,效果確實(shí)可能好于GPT。

GPT并不是不可超越的玄學(xué)。不能說OpenAI這一家公司掌握的技術(shù),一定比所有開源社區(qū)共同努力的結(jié)果都好。關(guān)鍵在于,如果確實(shí)出現(xiàn)了超越,那么我們需要確定這種超越是否符合基本邏輯,以及背后的原因是什么。在本次測試中,通過發(fā)現(xiàn)GPT在特定場景下的弱點(diǎn),我們對這個(gè)問題有了更準(zhǔn)確的解釋。

與今年三月時(shí)的情況相比,現(xiàn)在國產(chǎn)大模型確實(shí)在不斷迭代進(jìn)步中。這種進(jìn)步背后的原因并不復(fù)雜,人們已經(jīng)發(fā)現(xiàn),通過特定的素材進(jìn)行小樣本的專項(xiàng)訓(xùn)練,可以使開源模型的表現(xiàn)超越泛用的ChatGPT。實(shí)際上,對大模型進(jìn)行小型化和本地化部署,是現(xiàn)在最常見的AIGC創(chuàng)業(yè)模式之一。

因此,各家公司執(zhí)行特定任務(wù)的大模型應(yīng)用,比如最常見的擴(kuò)寫、縮寫、總結(jié)、翻譯等,實(shí)際上是展示他們在私有化部署這方面的技術(shù)能力。昆侖萬維的天工大模型就分成了搜索、聊天和寫作三個(gè)不同的功能入口,用它們來執(zhí)行同一任務(wù),效果也不盡相同。

讀者不必迷信ChatGPT,可以根據(jù)上面測試結(jié)果和自己的經(jīng)驗(yàn),靈活選擇最適合執(zhí)行某個(gè)任務(wù)的模型品種。

AI作圖 by 娛樂資本論

第三,別急著說“大模型出來的東西效果不好”,應(yīng)該通過更好的提問方法來引導(dǎo)。

實(shí)際上,在這次測試中,每個(gè)題目只使用了一個(gè)prompt,不帶追問,這可能不會(huì)產(chǎn)生最佳結(jié)果。如前所述的結(jié)合網(wǎng)絡(luò)搜索來寫作,就是一個(gè)通過分步驟提問來優(yōu)化生成結(jié)果的例子。此外,如果你在提問中提供更多的專業(yè)知識(shí)和術(shù)語,就會(huì)引導(dǎo)模型調(diào)用這方面的知識(shí),從而朝著更專業(yè)的方向思考。

你可以通過自學(xué)和摸索,不斷調(diào)整提問方式,來優(yōu)化模型的回答,也可以尋求專業(yè)提示詞優(yōu)化服務(wù)的幫助。在這里,我們也想重新推薦娛樂資本論·視智未來出品的《ChatGPT白皮書》,當(dāng)中提出了一些簡單易懂的優(yōu)化提示詞基本規(guī)則。如果你對此感興趣希望進(jìn)一步了解,或者需要系統(tǒng)培訓(xùn)自己或者本企業(yè)的員工,都?xì)g迎與我們聯(lián)系,我們很愿意提供進(jìn)一步協(xié)助。

作者

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

媒體人廣告人達(dá)人最適合哪個(gè)AI?11個(gè)大模型橫評(píng)②

“都說AI好,一用急跺腳?!?/p>

文|娛樂資本論

編輯|James

這是娛樂資本論·視智未來在第一次做大語言模型文本應(yīng)用能力測試時(shí),寫下的第一句話。

當(dāng)時(shí),對于不少從業(yè)者而言,AI大模型的重點(diǎn)不是能不能做順口溜或回答哲學(xué)問題,而是在于AI是否能夠在實(shí)際工作中發(fā)揮作用,提升效率。時(shí)至今日,這一基本需求仍未改變。

為了解決這樣的疑問,我們特意咨詢了編輯、寫手、編劇、公關(guān)等許多內(nèi)容行業(yè)的專業(yè)人士,征詢到18個(gè)問題,針對國內(nèi)的大型語言模型,進(jìn)行了一次全面的,不同于以往科技工作者的文本應(yīng)用能力測試。

時(shí)隔半年,情況發(fā)生了怎樣的變化呢?

8月底,首批八款國產(chǎn)大模型完成備案,允許對公眾開放:百度(文心一言)、抖音(云雀大模型)、智譜 AI(GLM 大模型)、中科院(紫東太初大模型)、百川智能(百川大模型)、商湯(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能實(shí)驗(yàn)室(書生通用大模型)。

這也讓9月成為國產(chǎn)AI大模型的“節(jié)日”。這八款大模型中絕大部分免費(fèi)開放,吸引了許多人的使用。很多媒體也在第一時(shí)間進(jìn)行了簡單的上手測試,而一些側(cè)重于邏輯推理等能力的基準(zhǔn)評(píng)測也迅速展開,各自產(chǎn)生了不同的結(jié)果。

越來越多的國產(chǎn)大模型在生成結(jié)果時(shí)默認(rèn)加入網(wǎng)絡(luò)搜索內(nèi)容,以避免大模型生成錯(cuò)誤的敘述,還有些國產(chǎn)大模型表示已經(jīng)超越了GPT-3.5。此時(shí),我們認(rèn)為是展開第二輪AI大模型實(shí)用性評(píng)測的絕佳時(shí)機(jī)。

本次測試有如下創(chuàng)新內(nèi)容:

為盡可能排除測試中的干擾因素,使人們可以輕松地比較結(jié)果差異與提示詞(prompt)之間的關(guān)系,我們的問題是模塊化的。首先,按照大的任務(wù)分類,指定一些基礎(chǔ)的提示詞片段;然后,依據(jù)不同場景,逐級(jí)插入相應(yīng)的段落。

考慮到目前大模型已經(jīng)陸續(xù)接入網(wǎng)絡(luò),我們?yōu)橥粋€(gè)問題準(zhǔn)備了聯(lián)網(wǎng)和不聯(lián)網(wǎng)的兩種版本。本次測試中將有6個(gè)具體產(chǎn)品是聯(lián)網(wǎng)的,有2個(gè)產(chǎn)品是不聯(lián)網(wǎng)的。另有2個(gè)產(chǎn)品只參加跟寫作能力有關(guān)的測試。

我們著重測試了通過自己長期使用,總結(jié)出來大模型最擅長的幾種能力,包括對文章進(jìn)行擴(kuò)寫、縮寫和變換寫作風(fēng)格的改寫,以及總結(jié)長文章的要點(diǎn)等。

這將是一篇特別長的評(píng)測。請坐穩(wěn)扶好,我們現(xiàn)在出發(fā)。

測試過程簡述:我們的測試并非旨在提供學(xué)術(shù)上的嚴(yán)謹(jǐn)標(biāo)準(zhǔn),我們的目標(biāo)是:從實(shí)用的角度出發(fā),分析這些大模型在各種文本應(yīng)用場景的綜合表現(xiàn),為文娛、傳媒行業(yè)從業(yè)者提供參考。我們會(huì)基于以下5個(gè)維度,為每個(gè)答案打0-5分,來評(píng)判大模型的表現(xiàn)。1.語言表達(dá)能力:文本是否通順、流暢,語法是否正確。2.準(zhǔn)確性:模型是否能正確理解問題,并給出準(zhǔn)確的信息。3.完整性:文本內(nèi)容是否足夠完整,是否涵蓋了問題的主要內(nèi)容,是否達(dá)到了基本可用的標(biāo)準(zhǔn)。4.交互性:模型是否能猜測不太準(zhǔn)確的問題背后,用戶的真實(shí)意圖。5.加分項(xiàng):任何創(chuàng)新、獨(dú)特、讓人眼前一亮的內(nèi)容(不作具體要求)。本測試的題目是互相分開的,不設(shè)總分。讀者可以自行計(jì)算模型之間的總分,但對總分的比較沒有顯著意義。讀者只需要留意每一道題的具體分?jǐn)?shù)即可。包含所有題目及回答的詳細(xì)測試表單,將通過公眾號(hào)“視智未來”發(fā)布。讀者可以掃描/長按下列二維碼查看詳情:

部分測試項(xiàng)目及結(jié)果展示

因篇幅限制,本文不會(huì)一一展示所有問題的測試結(jié)果及結(jié)論,會(huì)挑一些有代表性的展示給大家。我們在下面展示的案例,由此來反映測試中突出的一些問題,以及尋求其中的一些閃光點(diǎn)。 聯(lián)網(wǎng)能力判斷 對于判斷某個(gè)大模型是否真聯(lián)網(wǎng),我們用了兩個(gè)問題:

請問現(xiàn)在通過備案的8款國產(chǎn)大模型都叫什么?

請問李凱爾會(huì)不會(huì)打杭州亞運(yùn)

如果是有聯(lián)網(wǎng)開關(guān)的大模型,一律使用其最佳狀態(tài)測試。至于不聯(lián)網(wǎng)問題僅針對不能聯(lián)網(wǎng)的模型,計(jì)分標(biāo)準(zhǔn)一致。有些時(shí)候,有些大模型的聯(lián)網(wǎng)功能不完全,例如文心一言只能百度搜索prompt里面的關(guān)鍵字,不能讀取指定網(wǎng)址鏈接。此時(shí)該問題會(huì)降級(jí)到測試不聯(lián)網(wǎng)的版本。本次測試僅僅使用娛樂資本論·視智未來能接觸到的模型,不代表各家公司的最新技術(shù)。例如百川剛宣布的Baichuan2-7B用不上,就只測試現(xiàn)有的Baichuan-7B。Minimax對外發(fā)布的產(chǎn)品是WPS AI 和Glow(它基本不能用,不參與本次測試),它們使用的大模型可能也不是最新的版本,其它家的情況也類似。 小紅書文案-產(chǎn)品介紹向

僅有百川、360智腦等在回答中提到華為Mate 60 Pro采用了麒麟9000s芯片,以及這是一款5G手機(jī)。不過,百川的回答錯(cuò)誤地說該機(jī)用的是EMUI而不是鴻蒙。另一邊,通義千問的某一次回答提到該手機(jī)的衛(wèi)星通訊功能,卻把處理器說成了驍龍8+。因此,這些模型通過聯(lián)網(wǎng)來確保準(zhǔn)確性的能力都比較差。

ChatGPT和Bing在網(wǎng)絡(luò)結(jié)果中都用了華為官網(wǎng)的宣傳頁面,而因?yàn)楸娝苤奶厥庠?,官網(wǎng)信息對處理器和5G功能隱而不宣。其它用到外部結(jié)果的模型,居然一個(gè)都沒有提到“遙遙領(lǐng)先”“4G+鴻蒙>5G”等梗,而且也充滿了沒查到結(jié)果時(shí)候的腦補(bǔ),非常令人失望。要解決這個(gè)問題,一個(gè)可能的辦法是分步推理,首先用一個(gè)專門的步驟去搜索所有和該手機(jī)有關(guān)的功能點(diǎn),下一步再生成文案。在我們的測試中,你會(huì)發(fā)現(xiàn)很多問題如果用幾個(gè)連續(xù)的prompt提問,而不是在一個(gè)問題中提問,效果都會(huì)更好。小紅書文案-買家秀向 我們本來是希望從商家角度和買家角度分別推斷新品推介文案的差異,在小紅書上同時(shí)存在這兩種賬號(hào)。不過實(shí)際測試后,“產(chǎn)品介紹向”和“買家秀向”的區(qū)別不大,所以這部分我們展示兩款不能聯(lián)網(wǎng)的大模型的表現(xiàn)。對于不聯(lián)網(wǎng)的模型,我們讓它們介紹iPhone X,這款手機(jī)的基礎(chǔ)知識(shí)在大多數(shù)模型訓(xùn)練的期限之內(nèi)。

商湯的商量感覺還可以,對基礎(chǔ)知識(shí)的調(diào)用比較準(zhǔn)確,信息沒有錯(cuò)漏;但格式較為死板,“互動(dòng)引導(dǎo)”也出現(xiàn)在里面就需要更多的手動(dòng)修改,也沒有emoji。

智譜清言相對更為敷衍,但幸虧還是讀完了題目的所有要求。相對而言,它沒有很明確地介紹專屬于iPhone X的功能。作為對比,GPT-3.5的腦力輸出就比較慷慨了。

總的來說,雖然小紅書屬于一種簡略的文體,但越是短小的段落,其實(shí)越難寫。當(dāng)然,讓AI像專業(yè)文案作者那樣工作是強(qiáng)“模”所難,AIGC比較適合完成對質(zhì)量要求不高,但批量出品的那種工作。直播文案-淘寶直播

非常遺憾的是,沒有模型在這個(gè)測試中給出“3、2、1,上鏈接”這句話,只有通義千問化用了“所有女生”,即使我們已經(jīng)非常明確地提示了你要模仿的人是李佳琦。所以說,大模型的“理解”和“讀懂”很多時(shí)候仍然只是人類用戶善意腦補(bǔ)后的結(jié)果。

可能相對比較好的有字節(jié)的豆包:(上圖1)如果以標(biāo)志性的語句為判斷依據(jù),那么通義千問也還可以:(上圖2)如果佳琦哥是這么回答直播間提問的,他倒是一定不會(huì)翻車。直播文案-抖音直播 這個(gè)測試用兩個(gè)問題來測試模型是不是真的能聯(lián)網(wǎng)。一般第一個(gè)問題(8個(gè)大模型的名稱)已經(jīng)可以確定是否聯(lián)網(wǎng),但判斷不準(zhǔn)時(shí)會(huì)加入第二個(gè)問題(李凱爾)。對這兩個(gè)問題的回答,所有聯(lián)網(wǎng)模型表現(xiàn)都很好,除了使用插件的GPT-4和360智腦——它即使打開了所謂的“搜索增強(qiáng)”,對問題的回答也有很大偏差。

我們用最近成為熱搜焦點(diǎn)的“秀才”作為問題,看這些模型是不是能Get到他的直播風(fēng)格是:“秀才的視頻拍攝地多為鄉(xiāng)村場景,內(nèi)容主要是‘認(rèn)真做事、假裝被發(fā)現(xiàn)、挑眉、吐舌、扶額對口型唱歌’的動(dòng)作套路呈現(xiàn)?!绷硗?,如果確定看過秀才的介紹文章,就會(huì)發(fā)現(xiàn)他在直播中一般不直接帶貨。結(jié)果可想而知是不行。比如360智腦的常規(guī)版本:

360智腦還有一個(gè)“數(shù)字人廣場”。記得這個(gè)大模型正式發(fā)布的時(shí)候說:

360將依托360智腦大模型能力,重新定義“數(shù)字人”。區(qū)別于傳統(tǒng)數(shù)字人只能按既定腳本輸出內(nèi)容,360AI數(shù)字人的特點(diǎn)在于有記憶、有人設(shè)和性格,能夠復(fù)刻思維方式和人生經(jīng)歷。據(jù)了解,360AI數(shù)字人目前擁有200多個(gè)角色,分為數(shù)字名人和數(shù)字員工兩類。數(shù)字名人包括歷史人物、偶像明星、文學(xué)形象等,讓用戶在與數(shù)字人的開放對話中實(shí)現(xiàn)與偶像的近距離接觸,與先賢的思想交流。數(shù)字員工則可成為企業(yè)員工的知識(shí)助手和辦公助手,提升企業(yè)運(yùn)營效能。周鴻祎現(xiàn)場演示了“法務(wù)專員”數(shù)字人角色,對中小企業(yè)常見的公章管理和合同審核問題給與了專業(yè)回答。

我還真的以為是他們一個(gè)一個(gè)訓(xùn)練了小模型。當(dāng)我真正用上的時(shí)候,我發(fā)現(xiàn)“數(shù)字人”的背后其實(shí)就是一行預(yù)設(shè)prompt:

確實(shí),加入預(yù)設(shè)角色后的效果好了不少,但是仍然距離理想狀態(tài)有很大差距。對于360智腦來說,下一步如果不是預(yù)先選擇角色,而是首先分析用戶的輸入,再根據(jù)用戶意圖推薦切換到某個(gè)角色,相信這樣的用戶體驗(yàn)會(huì)極大增強(qiáng)。

長文章寫作-歷史類

bing給我們開了個(gè)好頭。它充分利用了聯(lián)網(wǎng)搜索,給出了網(wǎng)上優(yōu)質(zhì)回答的文獻(xiàn)綜述,信息量很大,只可惜因?yàn)樽謹(jǐn)?shù)限制沒有寫完。相比之下,GPT-4的結(jié)果因?yàn)榧尤胩嗝庳?zé)條款式的內(nèi)容而顯得啰嗦和“水”。

在豆包的各種預(yù)制角色里面,搞笑的是居然就有一個(gè)“曹操”。我們立馬用不聯(lián)網(wǎng)的三國題測試了一下:

可以說很努力的在角色扮演了,但是太短。豆包的回答普遍都特別短,跟bing類似,這使得它難以完成本測試中的大多數(shù)題目。另外,豆包在很多問題的回答都沒有利用網(wǎng)絡(luò)搜索,它似乎只有在明確提出“xxx是怎么回事”這樣的單純問題時(shí),才會(huì)試圖聯(lián)網(wǎng)查詢。這里還想提一下昆侖萬維的天工。我們額外用題干測試了天工AI搜索。它給出答案的問題是字?jǐn)?shù)太少,不過通過適當(dāng)追問,你可以將其中每個(gè)段落都補(bǔ)充一些內(nèi)容,從而生成非??捎玫某善?。

天工AI搜索可以直接回答問答類問題,所以只需要輸入問題本身。輸入完整的提示詞反而不行,因?yàn)樘L了。它對我們所有問題的完整提示詞都無法回答。長文章寫作-科普類

我們希望參與測試的模型們可以自己尋找一個(gè)給定主題(醫(yī)美)的近期熱點(diǎn),然后解答這個(gè)熱點(diǎn)。除了百川之外,其它模型的表現(xiàn)都不太好。特別是GPT-4,在插件搜索一番無功而返以后,為了滿足prompt的要求,它只好編了一個(gè)前因后果都不明的故事作為引子。

相比之下,百川給出的兩個(gè)具體的醫(yī)美關(guān)鍵字,我們可以通過小紅書搜索發(fā)現(xiàn)它們確實(shí)是近期醫(yī)美愛好者比較關(guān)心的手術(shù)項(xiàng)目。

因此,這種給出具體項(xiàng)目的對比介紹就比泛泛的討論醫(yī)療手術(shù)的風(fēng)險(xiǎn)與如何防范等,更符合我們題目的意思。當(dāng)然,我們都不是醫(yī)學(xué)專業(yè)人士,如果可以確認(rèn)這些回答里面有明顯的事實(shí)錯(cuò)誤,將會(huì)成為重大的減分項(xiàng)。 文章調(diào)整-改寫

絕大部分模型都無法通過我們的測試,它們號(hào)稱聯(lián)網(wǎng),但無法準(zhǔn)確抓到《孤注一擲》的劇情,因此只是隨手亂答。

例如通義千問的結(jié)果:(上圖1)不僅如此,通義千問還錯(cuò)誤地將我們的兩個(gè)需求變成了自己的節(jié)標(biāo)題,這說明它沒有讀懂問題。實(shí)際上要完成這個(gè)題目,大模型需要自己學(xué)會(huì)分步完成,即先搜索劇情,再類比出結(jié)果。這是Bing的結(jié)果(上圖2),其思考過程很明顯地反映了上述正確的步驟。而ChatGPT聯(lián)網(wǎng)后的結(jié)果則更為驚艷:(上圖3、4)文章調(diào)整-擴(kuò)寫

本來我對于模型們寫出跟跳水大爺有機(jī)結(jié)合的天津愛情故事沒有任何期待。但在選擇了Bing的“更有創(chuàng)造力”版本后,它給出了一篇任何角度看都當(dāng)之無愧的滿分作文,一個(gè)字都不用改。

理解這個(gè)題目的關(guān)鍵是需要通過聯(lián)網(wǎng)準(zhǔn)確地獲取“大爺跳水”的本質(zhì),是一種積極的運(yùn)動(dòng)方式。有的模型為了安排情節(jié),將女方寫成了新聞?dòng)浾?,還有的寫成了勇救落水大爺,所以效果都比較遺憾。文章調(diào)整-縮寫 大部分模型表現(xiàn)都中規(guī)中矩,以WPS為例:

WPS AI本身提供“總結(jié)”的功能選項(xiàng),但是當(dāng)輸入我們的prompt時(shí),它并不能正常工作:(下圖1)

如果覺得官方“總結(jié)”字?jǐn)?shù)太少,可以“續(xù)寫”,但通常來說效果不佳。這段文字“續(xù)寫”兩次后是這樣:(上圖2)不過,當(dāng)文章篇幅增長時(shí),WPS AI會(huì)變得更好用一些。這篇3000字的文章只能在prompt里涵蓋前1000字,但對于全文的總結(jié),WPS AI明顯強(qiáng)于對剛才的前1000字的總結(jié)。(上圖3)我們實(shí)際測試也發(fā)現(xiàn),如果你需要指定字?jǐn)?shù)的縮寫,使用“全文處理-縮短篇幅”可能會(huì)比較好。文章調(diào)整-仿寫 在這個(gè)問題上優(yōu)秀的回答,必然是調(diào)用了一整篇文章所總結(jié)的相關(guān)知識(shí),我們本來也沒期待大模型們用自己的方法一條一條地總結(jié)。但不管黑貓白貓,只要給出結(jié)果能用就好。

ChatGPT正確地給出了基于搜索總結(jié)的2022年經(jīng)典營銷案例(來自一個(gè)知乎專欄),它給出的蜜雪冰城文案乍一看可能不相關(guān),但仔細(xì)看會(huì)發(fā)現(xiàn)是用了“王心凌浪姐”里面提到的懷舊概念。

當(dāng)Bing說出“叫人想樂”的時(shí)候那場面是真的叫人想樂。文心一言也正確地實(shí)現(xiàn)了總結(jié),但在最后關(guān)頭的仿寫上全面失敗??紤]到問題兩部分要完整地看,因此雖然百度沒能完成給定任務(wù),但總結(jié)得不錯(cuò),算是加分項(xiàng),最后這道題給了3分。

結(jié)論

包含所有題目及回答的詳細(xì)測試表單,將通過公眾號(hào)“視智未來”發(fā)布。

以下是參與本次評(píng)測的幾款大模型在測試中的表現(xiàn)概述:

1.GPT-3.5/4:不聯(lián)網(wǎng)時(shí)發(fā)揮出色,聯(lián)網(wǎng)使用第三方插件,可能因?yàn)椴寮憩F(xiàn)不穩(wěn)定而大大影響了效果。

2.Bing:充分利用聯(lián)網(wǎng)搜索,提供了大量信息,但有時(shí)因字?jǐn)?shù)限制未能完成回答。

3.文心一言:展現(xiàn)了較好的總結(jié)能力,在仿寫上表現(xiàn)不佳,但總體尚可。

4.通義千問:針對直播場景的表現(xiàn)很好;其他場景一般。

5.百川:在某些情況下能提供準(zhǔn)確的信息,長文章寫作能力出色,但有時(shí)難以正確理解問題。

6.豆包:回答通常較短,基本不能聯(lián)網(wǎng)查詢,難以完成測試中的多數(shù)題目。

7.360智腦:基本不能聯(lián)網(wǎng),默認(rèn)設(shè)置效果不好,但使用預(yù)設(shè)角色(“數(shù)字人”)后有改善。

8.智譜清言:回答相對敷衍,但通常讀取了題目的所有要求。

9.商量:對基礎(chǔ)知識(shí)的調(diào)用準(zhǔn)確,但回答格式較為死板。

10.WPS AI(minimax):在一些情況下無法正常工作。在文章總的篇幅增加時(shí),其總結(jié)、縮寫能力更強(qiáng)。

11.天工:AI搜索的回答字?jǐn)?shù)較少,但通過適當(dāng)追問,可以生成可用的成品。

AI寫作的風(fēng)格類似于GPT-4。大多數(shù)模型在不同類型的測試中表現(xiàn)都有一些問題,需要進(jìn)一步改進(jìn),以提供更準(zhǔn)確和有用的回答。

讀者可以注意到,我們對每個(gè)項(xiàng)目的評(píng)分基本在2到4分之間浮動(dòng)。這是因?yàn)楹茈y找到能夠獲得額外加分的項(xiàng)目,而通順的語言表達(dá)通常都能夠滿足要求,所以2分是實(shí)際上的“最低分”,表示當(dāng)大模型不能準(zhǔn)確理解問題,或者答非所問的情況。在上面的摘要中,我們也提供了一些獲得額外加分的示例。

關(guān)于聯(lián)網(wǎng)功能對大模型是否有用的問題,我們目前只能很遺憾的回答,還不是特別有用。大部分聯(lián)網(wǎng)動(dòng)作的結(jié)果都是找到一篇文章(大概率是知乎上的),然后總結(jié)其主要內(nèi)容作為回答。它的搜索結(jié)果特別“碰運(yùn)氣”,而且往往難以對相關(guān)內(nèi)容做事實(shí)核查。

由于每個(gè)大模型的優(yōu)化方向和訓(xùn)練素材都不同,所以將它們的總分進(jìn)行比較并不是特別有意義。在處理特定問題時(shí),讀者可以參考相關(guān)具體項(xiàng)目的評(píng)分,結(jié)合自己的經(jīng)驗(yàn)來進(jìn)行選擇。

下一步計(jì)劃

和之前一樣,在測試過程中可能依然存在一些遺漏和不成熟的地方。我們會(huì)根據(jù)大模型的升級(jí)換代和應(yīng)用場景的變化,及時(shí)進(jìn)行更新,也歡迎大家在公眾號(hào)“視智未來”下關(guān)注并留言,貢獻(xiàn)出自己想問的問題,我們后期將再做測試。

由于時(shí)間倉促,以下在規(guī)劃中的項(xiàng)目將會(huì)在下一次大模型評(píng)測時(shí)引入:

1.我們的未來評(píng)測將更側(cè)重于已經(jīng)聯(lián)網(wǎng)的模型。下一次評(píng)測將引入聯(lián)網(wǎng)模型專屬的一些問題,包括但不限于:

實(shí)時(shí)新聞、天氣預(yù)報(bào)等查詢

相關(guān)新聞、時(shí)間線等查詢

產(chǎn)品比較、電影推薦等基于查詢結(jié)果的分析

股票分析、旅行建議等復(fù)雜的解決方案

事實(shí)核查和辟謠

2.本次使用的GPT-4插件VoxScript是編輯日常使用的,但效果不一定是ChatGPT眾多聯(lián)網(wǎng)插件中最好的。這次GPT-4對一些問題令人失望的回答可能與此有關(guān)。在下次測試前,我們會(huì)首先完成對GPT-4聯(lián)網(wǎng)插件的能力測試,并確定下次使用的插件型號(hào)。

3.部分廠家有插件及多模態(tài)能力,但相對比較分散。我們會(huì)根據(jù)各廠商的后續(xù)發(fā)展,確定是否在下次測試時(shí)引入多模態(tài)類內(nèi)容。

4.翻譯也是大模型的長項(xiàng),但是由于需要專業(yè)的語言知識(shí),所以我們這次不會(huì)測試翻譯相關(guān)的內(nèi)容。如果大家對此期望很高,我們會(huì)在下一次測試引入。

給讀者的建議

這次我們有一些基本建議,對于大家更好的使用AI大模型,更高效率的產(chǎn)出想要的內(nèi)容可能會(huì)有所幫助:

首先,在GPT-4沒有官方的網(wǎng)絡(luò)搜索能力時(shí),使用第三方聯(lián)網(wǎng)插件可能反而會(huì)降低它的表現(xiàn)。由于準(zhǔn)確度較低,ChatGPT與必應(yīng)的集成在前段時(shí)間已經(jīng)暫停了。所以人們只能通過一些插件來訪問搜索結(jié)果并將其代入GPT-4。但這些插件的工作原理各不相同,而且它們現(xiàn)在很難訪問谷歌,大多數(shù)都改用免費(fèi)的搜索引擎DuckDuckGo,這也影響了最終能搜到的東西。另外,有一些網(wǎng)站如微信公眾號(hào)文章并不能被讀取。

在prompt要求生成結(jié)果結(jié)合網(wǎng)絡(luò)搜索之后,GPT的表現(xiàn)會(huì)變得難以預(yù)測。在實(shí)際使用中,建議大家分步來完成過程,特別是在寫長文章時(shí)。第1步,讓它先搜索網(wǎng)絡(luò)上的結(jié)果,獲得相關(guān)的文章鏈接及其摘要。第2步,再請它以此為基礎(chǔ)來寫文章。如果有必要,也可以先自己搜索,然后將相關(guān)文章的純文本提供給GPT,讓它總結(jié),讀完文章之后可以繼續(xù)寫作。

第二,對于特定任務(wù),使用針對性優(yōu)化過的國產(chǎn)模型,效果確實(shí)可能好于GPT。

GPT并不是不可超越的玄學(xué)。不能說OpenAI這一家公司掌握的技術(shù),一定比所有開源社區(qū)共同努力的結(jié)果都好。關(guān)鍵在于,如果確實(shí)出現(xiàn)了超越,那么我們需要確定這種超越是否符合基本邏輯,以及背后的原因是什么。在本次測試中,通過發(fā)現(xiàn)GPT在特定場景下的弱點(diǎn),我們對這個(gè)問題有了更準(zhǔn)確的解釋。

與今年三月時(shí)的情況相比,現(xiàn)在國產(chǎn)大模型確實(shí)在不斷迭代進(jìn)步中。這種進(jìn)步背后的原因并不復(fù)雜,人們已經(jīng)發(fā)現(xiàn),通過特定的素材進(jìn)行小樣本的專項(xiàng)訓(xùn)練,可以使開源模型的表現(xiàn)超越泛用的ChatGPT。實(shí)際上,對大模型進(jìn)行小型化和本地化部署,是現(xiàn)在最常見的AIGC創(chuàng)業(yè)模式之一。

因此,各家公司執(zhí)行特定任務(wù)的大模型應(yīng)用,比如最常見的擴(kuò)寫、縮寫、總結(jié)、翻譯等,實(shí)際上是展示他們在私有化部署這方面的技術(shù)能力。昆侖萬維的天工大模型就分成了搜索、聊天和寫作三個(gè)不同的功能入口,用它們來執(zhí)行同一任務(wù),效果也不盡相同。

讀者不必迷信ChatGPT,可以根據(jù)上面測試結(jié)果和自己的經(jīng)驗(yàn),靈活選擇最適合執(zhí)行某個(gè)任務(wù)的模型品種。

AI作圖 by 娛樂資本論

第三,別急著說“大模型出來的東西效果不好”,應(yīng)該通過更好的提問方法來引導(dǎo)。

實(shí)際上,在這次測試中,每個(gè)題目只使用了一個(gè)prompt,不帶追問,這可能不會(huì)產(chǎn)生最佳結(jié)果。如前所述的結(jié)合網(wǎng)絡(luò)搜索來寫作,就是一個(gè)通過分步驟提問來優(yōu)化生成結(jié)果的例子。此外,如果你在提問中提供更多的專業(yè)知識(shí)和術(shù)語,就會(huì)引導(dǎo)模型調(diào)用這方面的知識(shí),從而朝著更專業(yè)的方向思考。

你可以通過自學(xué)和摸索,不斷調(diào)整提問方式,來優(yōu)化模型的回答,也可以尋求專業(yè)提示詞優(yōu)化服務(wù)的幫助。在這里,我們也想重新推薦娛樂資本論·視智未來出品的《ChatGPT白皮書》,當(dāng)中提出了一些簡單易懂的優(yōu)化提示詞基本規(guī)則。如果你對此感興趣希望進(jìn)一步了解,或者需要系統(tǒng)培訓(xùn)自己或者本企業(yè)的員工,都?xì)g迎與我們聯(lián)系,我們很愿意提供進(jìn)一步協(xié)助。

作者

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。