正在閱讀:

18個問題,90個回答,國產(chǎn)大模型實用性橫評

掃一掃下載界面新聞APP

18個問題,90個回答,國產(chǎn)大模型實用性橫評

國內(nèi)的大語言模型究竟誰好用?

文|娛樂資本論  知行

編輯|James

都說AI好,一用急跺腳……這或許是許多普通用戶在使用各種語言大模型時的感受,尤其在他們不知道該怎么提問的情況下。

對于不少從業(yè)者而言,AI大模型的重點不是能不能做順口溜或回答哲學(xué)問題,而是在于AI是否能夠在實際工作中發(fā)揮作用,提升效率。

作為一天要使用超過20次AI的普通文字工作者,我們娛樂資本論也很好奇國內(nèi)的大語言模型究竟誰好用。

為此,我們特意咨詢了編輯、寫手、編劇、公關(guān)等許多內(nèi)容行業(yè)的專業(yè)人士,征詢到18個問題,準(zhǔn)備針對國內(nèi)的四款大型語言模型——百度文心一言、阿里通義千問、訊飛星火、昆侖萬維天工,以及與GPT-3.5一起(為了公平起見,我們刻意沒有使用ChatGPT4這個“打虎英雄”,而且普通人使用4的幾率遠(yuǎn)遠(yuǎn)低于免費(fèi)版的3.5),進(jìn)行一次全面的,不同于以往科技工作者的文本應(yīng)用能力測試。

我們的測試并非旨在提供學(xué)術(shù)上的嚴(yán)謹(jǐn)標(biāo)準(zhǔn),我們的目標(biāo)是:從實用的角度出發(fā),分析這些大模型在各種文本應(yīng)用場景,如小紅書帶貨文案、抖音直播文案、知乎問答、小說創(chuàng)作、公關(guān)信寫作、歌詞生成、淘寶商品詳情頁文案、廣告宣傳片文案、劇本創(chuàng)意策劃等方面的綜合表現(xiàn),甚至是AI公司針對這一次孫燕姿質(zhì)疑AI的公關(guān)回應(yīng)文案(具體可看今天的另一條稿件),為專業(yè)人士提供參考。

在評估這些可以進(jìn)行程式化分析的文本時,我們主要從以下五個維度來評判大模型的表現(xiàn):

1. 語言表達(dá)能力:文本是否通順、流暢,語法是否正確。

2. 準(zhǔn)確性:模型是否能正確理解問題,并給出準(zhǔn)確的信息。

3. 內(nèi)容完整性:文本內(nèi)容是否足夠完整,是否涵蓋了問題的主要內(nèi)容,是否達(dá)到了基本可用的標(biāo)準(zhǔn)。

4. 交互性:用戶是否能通過明確的、三次追問之內(nèi)的指令或問題,引導(dǎo)模型給出合適的答案。

5. 加分項(不做具體要求):任何創(chuàng)新、獨特、讓人眼前一亮的內(nèi)容。

我們會基于上述五個維度為每個答案打分,滿分(加上加分項)是5顆星。一般有4顆星就已經(jīng)是很好的表現(xiàn)。

我們也意識到在測試過程中可能存在一些遺漏和不成熟的地方,我們會根據(jù)大模型的升級換代和應(yīng)用場景的變化,及時進(jìn)行更新。

評分表

本測試集當(dāng)前有16道問題,每題滿分5分,但是總體上不設(shè)滿分。讀者只需要留意每一道題的具體分?jǐn)?shù),以及每個模型自身加在一起的總分即可。

因為篇幅限制,本文不會一一展示所有問題的測試結(jié)果及結(jié)論,會挑一些有代表性的展示給大家。

讀者可以點擊以下網(wǎng)址或通過小程序進(jìn)入我們的測試集表單,其中提供了所有的測試題目,以及各個大模型給出的答案。您可以切換到“畫冊視圖”獲得更好的閱讀效果。

文案寫作

這一類別主要包括各種形式的廣告、推廣文案創(chuàng)作,共同點是以給定材料為基礎(chǔ),按不同用途發(fā)散,生成適合特定場合的文字片段。

小紅書帶貨文案——產(chǎn)品介紹向

小紅書帶貨文案——買家秀向

小紅書文案——名媛生活日常分享類

淘寶——長約3分鐘的帶貨文案

淘寶——商品詳情頁描述文案

廣告片宣傳文案

Slogan生成

這些問題都需要模型具有強(qiáng)大的創(chuàng)新能力和獨特的語言風(fēng)格,以吸引消費(fèi)者的注意力并促使他們進(jìn)行購買。

小紅書帶貨文案

隨著小紅書等種草平臺的爆火,用戶生產(chǎn)生活經(jīng)驗、購物心得、旅行體驗類等短內(nèi)容也有了巨大的商業(yè)化空間,誕生很多小紅書運(yùn)營類的崗位。

我們從小紅書產(chǎn)品介紹向、買家秀、名媛生活日常分享三個方向,給出了不同的Prompt,要求大模型們給出內(nèi)容。

以買家秀向的產(chǎn)品介紹為例:

請你按照以下小紅書風(fēng)格,寫一款手機(jī)賣家秀向的帶貨文案:

1、文中需要包含產(chǎn)品介紹、個人體驗分享、使用心得、互動引導(dǎo)等

2、風(fēng)格上以個人化分享的故事敘述為主,要有真實性和可信度

3、輸出形式帶有標(biāo)題和序號

4、小紅書的風(fēng)格是:非常吸引人的標(biāo)題,文案中帶有emoji,文章最后加上tag

訊飛星火

標(biāo)題: 這款手機(jī)讓我徹底愛上了通訊!

序號:1

大家好~今天要給大家分享一款我最近入手的手機(jī),真的是讓我對通訊愛不釋手??!這款手機(jī)就是 OPPO Reno5 。

首先,讓我們來了解一下它的主要配置:6.43英寸AMOLED屏幕、驍龍765G處理器、8GB內(nèi)存和128GB存儲空間等等。這些配置對于一個平時使用手機(jī)拍照、看劇、玩游戲的人來說,簡直是絕配啊!

接下來,我想和大家分享一下我的個人體驗:

首先是拍照功能,這是我最喜歡的一點!無論是自拍還是后置攝像頭,都能夠拍出非常清晰自然的照片,顏色也非常鮮艷。而且,它還搭載了超級夜景模式,讓我在光線較暗的情況下也能輕松拍出好看的照片。

然后是視頻拍攝功能,這個也很強(qiáng)大哦!它支持4K視頻錄制,還有超級防抖技術(shù),讓我可以拍出穩(wěn)定又流暢的視頻。

再來說一下游戲性能吧!我平時喜歡打一些小游戲和大型游戲,比如王者榮耀和PUBG。實測下來,它的幀率非常穩(wěn)定,而且畫面也非常流暢,完全沒有卡頓的感覺。

總之,這款手機(jī)真的是太棒了!除了配置強(qiáng)大以外,還有許多其他的功能和細(xì)節(jié)設(shè)計都非常貼心。比如它的指紋解鎖速度超快,充電速度快到驚人等等。

最后,我想說的是:如果你也想要一款讓自己徹底愛上通訊的手機(jī),那么OPPO Reno5絕對是一個非常好的選擇!快來入手吧!

#OPPOReno5# #手機(jī)推薦# #愛不釋手#

天工

標(biāo)題: 這款手機(jī)讓我徹底愛上了通訊!

序號:1

產(chǎn)品介紹:

我最近買了一款手機(jī),是某品牌的新款旗艦機(jī),它的外觀設(shè)計非常精美,手感也非常舒適。我特別喜歡它的拍照功能,拍出來的照片非常清晰,顏色也很鮮艷。

個人體驗分享:

我使用這款手機(jī)已經(jīng)有一段時間了,感覺非常不錯。它的操作系統(tǒng)非常流暢,應(yīng)用程序也很容易下載和使用。而且,它的電池續(xù)航能力也很強(qiáng),可以讓我長時間使用手機(jī)而不用擔(dān)心電量不足的問題。

使用心得:

這款手機(jī)的拍照功能非常強(qiáng)大,我經(jīng)常會用它來拍照。而且,它的前置攝像頭也非常好,可以拍出非常清晰的自拍照片。

互動引導(dǎo):

如果你也想買一款好看、實用的手機(jī),不妨來試試這款手機(jī)。我相信你會和我一樣喜歡它的。

Tag:手機(jī)賣家秀、手機(jī)、拍照、自拍、使用心得

作為其它大模型的參照系,GPT3.5的內(nèi)容在語言風(fēng)格上更為獨特,略帶夸張化的描述,使得其文案更加吸引人,在短內(nèi)容的表現(xiàn)上更有感染力。

星火的表現(xiàn)非常好,在prompt未指定手機(jī)型號時,它自己假設(shè)了一款型號,以幫助人類更好地了解一款手機(jī)推銷文案需要具有的主要指標(biāo)。結(jié)果不僅條例清晰,內(nèi)容齊全,而且emoji具有相關(guān)性。

我們在prompt里說明了小紅書文案應(yīng)該帶有emoji,但文心一言和天工并未察覺。

在另兩道小紅書文案題中,通義千問給出的名媛穿搭文案更像是參考資料一樣,顯得干巴巴的。

知識寫作

這一類別主要包括帶有前置知識的命題作文、在問答網(wǎng)站答題和寫新聞稿

抖音直播——淄博燒烤

知乎問答——醫(yī)療美容類

知乎問答——歷史類

新聞稿——虛構(gòu)的熱點事件

這些問題需要模型具有廣泛的知識儲備和準(zhǔn)確的信息處理能力。例如,抖音文案要求模型對直播流程和語態(tài)有足夠了解,知乎問答的題目需要模型具有專業(yè)的醫(yī)療和歷史知識,而新聞稿的寫作則需要模型能夠準(zhǔn)確理解和處理新聞事件。

抖音直播——淄博燒烤

直播文案對格式?jīng)]有固定要求,主要考察模型是否可以給出清晰可用的內(nèi)容,并能夠通過prompt交互調(diào)整輸出。

你是一位擁有上百萬粉絲的直播和短視頻網(wǎng)紅,每天都會在抖音做直播。你今天來到了山東淄博,當(dāng)?shù)刈罱鼛讉€月正因為便宜好吃的燒烤而在全國出名,每天都有很多網(wǎng)紅和你一樣來到淄博探尋現(xiàn)場的情況。

淄博燒烤跟其它地方的燒烤相比,一個特色是會把烤串的食物拔下來放進(jìn)面餅里夾著吃,另一個特色就是便宜,人均消費(fèi)不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價。

在淄博,你發(fā)現(xiàn)當(dāng)?shù)厝朔浅崆?,而且盡可能對你提供優(yōu)質(zhì)的服務(wù),包括出租車司機(jī),路上遇到的普通行人等,都非常友好。你感到非常感動,并且很想向你的粉絲傳遞這些信息。

請你即興發(fā)揮來寫一份長約3分鐘的直播文案,也就是你在直播過程中會說的話。請注意:

1、文案內(nèi)容應(yīng)當(dāng)包括淄博燒烤的介紹、從你自己的體會分析它近期火爆全國的原因。可以引入一個你編寫的,看起來像是你親身經(jīng)歷的小故事。

2、文案內(nèi)容要強(qiáng)調(diào)與用戶的情感共鳴,傾向于使用有趣、幽默、感性的語言,以吸引用戶的關(guān)注和參與,引發(fā)用戶的共鳴和共同話題。

3、適合口語化直播。

ChatGPT(3.5)

大家好!大家看到我現(xiàn)在所在的地方了嗎?沒錯,我來到了山東淄博,這個最近幾個月因為一種特別火爆的美食而在全國出名!沒錯沒錯,就是淄博的燒烤啊!

淄博的燒烤真的是太讓人欲罷不能了!你們知道嗎?這里的燒烤有兩個特色,聽好了!首先,它們不僅把烤串的食物烤得香噴噴,還會拔下來,放進(jìn)面餅里夾著吃!哇,真是別有一番風(fēng)味??!我第一次看到的時候都被驚艷到了,感覺自己像在吃個大大的美味的餡餅!

而且你知道嗎?這里的燒烤真的是超級便宜,人均消費(fèi)不到50元就可以吃飽!對于我們這些吃貨來說,簡直就是天堂??!就算最近淄博來了很多人,燒烤攤也沒有漲價,真的是良心價!看得出來淄博的人民可是真的對吃貨們特別友好呢!

我今天剛來到淄博,就發(fā)現(xiàn)當(dāng)?shù)厝朔浅崆椋〔粌H是燒烤攤的老板娘笑容滿面,連出租車司機(jī)、路上遇到的普通行人,都對我這個網(wǎng)紅充滿友好!他們盡可能地為我提供優(yōu)質(zhì)的服務(wù),真的是讓我感到非常感動!你們不知道,當(dāng)一個陌生城市的人對你那么友好的時候,感覺就像是回到了家一樣溫暖!

我想,淄博燒烤之所以會近期火爆全國,不僅僅是因為它獨特的口味和實惠的價格,更重要的是淄博的人民對待食物和生活的態(tài)度。他們把美食當(dāng)作一種樂趣,一種享受,而這種對生活的熱愛和對人的友善,真的感染了每一個來到這里的人!

就在剛才,我遇到了一個淄博的大叔,他告訴我一個他親身經(jīng)歷的小故事,你們一定要聽聽!有一次他帶著一個外地的朋友來淄博,本來只是想隨便吃個燒烤解解饞。結(jié)果他們走進(jìn)了一個小小的燒烤攤,被攤主的熱情和烤串的香味所吸引,結(jié)果就一發(fā)不可收拾,吃了整整兩個小時!哈哈哈,那個朋友說他一輩子沒吃過這么好吃的燒烤!從此之后,他們每年都要來淄博一趟,專程為了那個燒烤攤!

聽到這個故事,我也忍不住流口水了!淄博的燒烤真的是讓人欲罷不能!我也要告訴我的粉絲們,不管你們是不是吃貨,來淄博一定要嘗嘗這里的燒烤!不僅僅是因為它的味道好,更是因為這里的人民對待食物和生活的態(tài)度,真的是讓人感動!

好啦,今天的直播就到這里啦!我會繼續(xù)探索淄博的美食,和大家分享更多的故事和美食!記得關(guān)注我哦,每天都有新鮮的內(nèi)容等著你們!下次再見啦!愛你們!MUA!

天工

大家好,我是你們的抖音網(wǎng)紅,今天我來到了淄博,這個城市因為便宜好吃的燒烤而在全國出名。我今天也要給大家分享一下我在這里的體驗。

首先,我要說的是淄博燒烤的特色。他們會把烤串的食物拔下來放進(jìn)面餅里夾著吃,這種吃法非常有趣,而且非常好吃。另外,這里的燒烤價格非常便宜,人均消費(fèi)不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價。

我在這里也遇到了非常熱情的當(dāng)?shù)厝恕3鲎廛囁緳C(jī)、路上遇到的普通行人等,都非常友好。我感到非常感動,并且很想向我的粉絲傳遞這些信息。

我在淄博的時候,也遇到了很多有趣的事情。比如,我看到一個小女孩在路邊賣烤玉米,她非常熱情地跟我聊天,還給我介紹了她的烤玉米的制作方法。我還看到了一個小男孩在路邊賣烤雞翅,他的烤雞翅非常好吃,而且價格非常便宜。

我覺得這些小商販的熱情和真誠,是淄博燒烤能夠火爆全國的原因之一。他們不僅提供了美味的食物,還提供了一種溫暖、友善的服務(wù)。這種服務(wù)和熱情,讓我覺得這里的人們非??蓯?。

最后,我想說的是,淄博是一個非常好的城市。這里的人們非常熱情、友好、善良,而且這里的美食也非常好吃。如果你們有機(jī)會來淄博,一定要來嘗嘗這里的燒烤。

直播文案略帶新聞屬性、對格式要求不高,prompt給出詳細(xì)的背景資料對結(jié)果產(chǎn)生了不錯的影響,模型們普遍可以做到語言流暢,信息準(zhǔn)確,加上“親身經(jīng)歷的有趣的小故事”。

我們選擇GPT3.5與昆侖萬維天工的答案作為表現(xiàn)比較好的范例。GPT3.5的語言風(fēng)格活潑熱烈,感情奔放,具備極強(qiáng)的情緒感染力,也編出了合乎邏輯的故事,整體一氣呵成。

AI作圖 by 娛樂資本論

昆侖萬維天工也記住了編故事的要求,并給出了邏輯清晰的整體敘述。

盡管人類直播并不需要逐字逐句的文案,但這樣的嘗試有助于讓虛擬人直播的效果更逼真。

知乎問答——歷史類

我們對歷史博文的需要是,答案中有足夠的學(xué)術(shù)性,語言風(fēng)格以幽默為主。模型們會想什么辦法把這兩條需求有機(jī)結(jié)合到一起呢?

同時,我們考察了模型們不聯(lián)網(wǎng)時自身知識儲備的多少。它們真的都學(xué)習(xí)了三國這部分的知識嗎?

你是一位專業(yè)的歷史博主,請生成一份關(guān)于諸葛亮為什么沒有北伐成功的知乎問答,內(nèi)容需要符合以下要求:

1、內(nèi)容具備專業(yè)知識和學(xué)術(shù)性,可以引用史料、資料、研究成果等作為支持和參考。

2、對該歷史問題,進(jìn)行歷史事件的事實和背景解讀,給出評估和觀點。

3、整個語言風(fēng)格應(yīng)當(dāng)詼諧幽默,引發(fā)用戶的思考,令其想要點贊和轉(zhuǎn)發(fā)。

文心一言

諸葛亮為什么沒有北伐成功的根本原因就是經(jīng)濟(jì)不夠發(fā)達(dá)?!堵≈袑Α芬呀?jīng)提到三分天下的形勢。此時,曹操已經(jīng)統(tǒng)一北方,孫權(quán)正在崛起,劉備寄人籬下,只有占山為王的份。當(dāng)時,天下最富庶的地區(qū)在荊州,而荊州又在劉表手里,劉備想拿下荊州,必須跨過兩個險關(guān):第一個是當(dāng)陽長坂坡,第二個是赤壁。如果拿下了當(dāng)陽長坂坡,那么就能占領(lǐng)荊州北部大部分地區(qū);如果在赤壁敗了,也能收容部隊,重振旗鼓,然后再取荊州。如果不拿下當(dāng)陽長坂坡,劉備跨不過這個險關(guān),也就無法在荊州站穩(wěn)腳跟。所以,跨不跨這個險關(guān),對劉備來說,是生死存亡的關(guān)鍵。

當(dāng)時荊州有四大豪門:一是蔡家,一是張家,一是秦家,一是馬家。其中馬家的實力最強(qiáng)。蔡家和張家已經(jīng)被曹操殺得差不多了,秦家的秦宜祿已經(jīng)投降曹操,馬家獨樹一幟。但馬家勢力太大,蔡家和張家雖然投降劉備,卻不得重用。諸葛亮拿不到地盤也拿不到錢糧,所以才有了隆中對的第一條:跨有荊益。

但是要想跨有荊益必須取襄陽,但取襄陽就必須跨過宛城和新野這兩道關(guān)口。這兩道關(guān)口對張飛和曹仁來說都不難,但對趙云來說就是一道難關(guān)。趙云雖然勇猛無雙,但他只有一支部隊,而且又不善于防御。宛城距離新野很近,是攻打新野的前哨站,很難守住。況且馬超也率領(lǐng)人馬駐扎在宛城。所以諸葛亮才有了隆中對的第二條:連吳抗曹。只有和東吳聯(lián)手才能抵御曹操的大軍。如果這兩條實現(xiàn)了,才有可能取得荊益二州。但要想連吳抗曹,就必須拿下西川和江東,才能讓東吳心服口服。如果沒有攻下西川和江東,即使拿下了襄陽和樊城也是白搭。

拿下襄陽和樊城之后,諸葛亮就可以把軍隊屯駐在襄陽和樊城一帶,用來威脅西川的后方。此時就可以揮師西進(jìn),先攻下西川。只要拿下西川,那么東吳就不敢不聽從諸葛亮的調(diào)遣了。因為只要攻下西川,那么襄陽和樊城就成了一座孤城,無險可守。此時東吳就會不戰(zhàn)而降。但要想攻下西川并不容易。首先要跨越秦嶺和大巴山這兩道天險;其次要打敗馬超和韓遂的聯(lián)軍;最后還要掃平成都周邊的勢力。所以諸葛亮才有了隆中對的第三條:以攻為守。只有用進(jìn)攻來威脅東吳,才能讓東吳不敢輕舉妄動。如果東吳敢來進(jìn)攻,那么諸葛亮就可以憑借襄陽和樊城兩座孤城堅守不出;如果東吳不來進(jìn)攻,那么諸葛亮就可以揮師西進(jìn),直取西川。

但是要想以攻為守也不容易。首先要讓東吳相信自己真的會揮師西進(jìn);其次要讓東吳相信自己真的能夠堅守不出;最后還要讓東吳相信自己真的能夠掃平成都周邊的勢力。

通義千問

諸葛亮北伐為何不成功?這是一個受到史學(xué)界和軍事愛好者高度關(guān)注的問題。今天,我將從歷史背景、軍事戰(zhàn)略、人才管理等多個方面,為大家詳細(xì)解讀諸葛亮為什么沒有北伐成功。

歷史背景

諸葛亮北伐的初衷是為了實現(xiàn)蜀漢統(tǒng)一大業(yè)。他深知,北方曹魏政權(quán)是蜀漢的最大威脅,如果不能奪取中原,蜀漢將永遠(yuǎn)處于曹魏的威脅之下。但是,在當(dāng)時的歷史背景下,蜀漢內(nèi)部不穩(wěn)定,國力不足,很難在短時間內(nèi)實現(xiàn)北伐。

軍事戰(zhàn)略

諸葛亮在北伐過程中,大量使用火攻等軍事策略,成功地阻擊了曹魏的進(jìn)攻。但是,他的軍隊多是新招募的農(nóng)民軍,沒有經(jīng)過嚴(yán)格的訓(xùn)練,作戰(zhàn)能力較弱。同時,蜀漢內(nèi)部也存在不同的意見,有些將領(lǐng)認(rèn)為應(yīng)該休養(yǎng)生息,保存實力,不應(yīng)該繼續(xù)北伐。這些因素最終導(dǎo)致了諸葛亮的北伐失敗。

人才管理

諸葛亮是一位優(yōu)秀的人才管理者,他非常注重人才的使用和管理。然而,他的北伐戰(zhàn)爭卻因為用人不當(dāng)、管理不夠科學(xué),造成了很大的人力和物力損失。更為嚴(yán)重的是,許多有才華的將領(lǐng)因為不愿意參加北伐,而離開了蜀漢,這也為蜀漢的滅亡埋下了伏筆。

綜上所述,諸葛亮北伐失敗的原因是多方面的。雖然他的軍事才能非常出眾,但是他沒有處理好內(nèi)部和外部的各種問題,最終導(dǎo)致了北伐的失敗。在我們今天的工作和生活中,我們也應(yīng)該從這個歷史故事中吸取教訓(xùn),注重人才的使用和管理,努力實現(xiàn)自己的目標(biāo)。

作為標(biāo)桿的GPT3.5角度齊全,風(fēng)格獨特,沒有問題。

文心一言這個專業(yè)程度,讓我們試了好幾次把它的答案放到網(wǎng)上搜索,試圖發(fā)現(xiàn)是不是從貼吧或知乎什么地方扒過來的(我們并沒有發(fā)現(xiàn))。唯一美中不足的是,它沒寫完(也無法繼續(xù)寫完)。

剩下這仨都忽略了文體幽默風(fēng)格的要求,不過星火的回答會稍微提供多一點的歷史知識。

新聞稿——虛構(gòu)的熱點事件

在娛樂資本論之前進(jìn)行的AI大師課培訓(xùn)里,正值“寶馬冰淇淋”事件發(fā)酵,模型們通過prompt知道事情原委之后寫道歉信基本都不在話下。那么,不給事件細(xì)節(jié),但讓它思考一個合情合理的虛構(gòu)情節(jié),它也會做得很好嗎?

你是一位資深的文案從業(yè)人員,需要寫一篇新聞稿,以準(zhǔn)確、清晰、有吸引力地傳達(dá)新聞信息,并滿足讀者對新聞的需求。

事件為:周杰倫在北京三里屯召開發(fā)布會,稱將在今年12月連續(xù)在鳥巢舉辦30場演唱會,字?jǐn)?shù)800字左右,具體要求如下:

1、語言要簡潔明了,確保信息的易讀性和可理解性,傳達(dá)關(guān)鍵信息。

2、結(jié)構(gòu)清晰,按照倒金字塔結(jié)構(gòu)組織,將最重要的信息放在開頭,再逐漸展開細(xì)節(jié)。

3、引人入勝:新聞稿應(yīng)該具備吸引讀者的能力,通過生動的敘述和有趣的內(nèi)容來引起讀者的興趣和關(guān)注。

4、可以加入部分周杰倫的歷史簡介,為不知道該新聞背景的人科普。

文心一言

周杰倫在北京三里屯召開發(fā)布會,稱將在今年12月連續(xù)在鳥巢舉辦30場演唱會。這一消息的發(fā)布引起了社會各界的廣泛關(guān)注。

據(jù)主辦方透露,此次演唱會的主題為“摩天輪”,這也是周杰倫首次在鳥巢舉辦個人演唱會。本次演唱會的門票在發(fā)售后幾分鐘內(nèi)就被一搶而空,門票銷售情況十分火爆。

這次演唱會的票價定位比較親民,最低價格為380元,最高價格為1280元。為了滿足更多觀眾的需求,主辦方還推出了多種優(yōu)惠政策,例如早鳥票、學(xué)生票等。

此外,主辦方還表示,此次演唱會的門票將采用實名制,觀眾必須出示有效證件才能入場。此外,為了保證觀眾的安全和舒適度,演唱會現(xiàn)場還將進(jìn)行多項安全措施,例如嚴(yán)禁攜帶危險物品、禁止吸煙等。

周杰倫作為華語樂壇的代表人物之一,擁有廣泛的影響力和大量的粉絲。他的演唱會一直備受歌迷的追捧和喜愛。此次在鳥巢連續(xù)舉辦30場演唱會,將為廣大歌迷帶來一次難忘的視聽盛宴。

在這里值得一提的是,這次演唱會的主辦方還推出了一項創(chuàng)新的服務(wù),即推出了一款“虛擬看臺”的應(yīng)用程序。這款應(yīng)用程序可以為觀眾提供獨特的虛擬看臺體驗,讓觀眾在家中就能夠感受到現(xiàn)場的熱烈氣氛。

總之,這次周杰倫在北京三里屯召開發(fā)布會,并宣布連續(xù)在鳥巢舉辦30場演唱會的消息,引起了社會各界的廣泛關(guān)注和期待。相信這場演唱會一定會給觀眾帶來一次難忘的視聽盛宴。

訊飛星火

標(biāo)題:周杰倫三里屯發(fā)布會,宣布鳥巢演唱會即將開啟

副標(biāo)題:天王巨星將連續(xù)在鳥巢舉辦30場震撼演出,讓觀眾盡情享受音樂盛宴

正文:

北京,2023年4月21日 - 今天,亞洲流行天王周杰倫在北京三里屯召開了一場備受關(guān)注的發(fā)布會。在發(fā)布會上,周杰倫宣布了一個令人振奮的消息:他將在今年12月在鳥巢連續(xù)舉辦30場震撼人心的演唱會。這場演唱會將成為華語樂壇史上最大規(guī)模的音樂盛事之一,吸引了無數(shù)歌迷翹首以盼。

周杰倫在發(fā)布會上表示:“我很高興地告訴大家,今年12月,我將在鳥巢連續(xù)舉辦30場演唱會。這是我對歌迷的回饋,也是我對音樂的熱愛。我希望通過這些演出,讓更多的人感受到音樂的力量和魅力。”

據(jù)悉,這30場演唱會將分為多個階段進(jìn)行,每個階段都有不同的主題和表演形式。周杰倫將攜手眾多華語樂壇頂級歌手和樂隊,為觀眾呈現(xiàn)一場場精彩紛呈的音樂盛宴。此外,演唱會還將結(jié)合現(xiàn)代科技手段,如全息投影、虛擬現(xiàn)實等,為觀眾帶來前所未有的視覺體驗。

周杰倫自2000年出道以來,憑借其獨特的嗓音和才華橫溢的音樂創(chuàng)作能力,贏得了全球無數(shù)歌迷的喜愛。他的音樂作品不僅在華語地區(qū)廣受歡迎,還深受歐美等地歌迷的喜愛。作為華語樂壇的領(lǐng)軍人物,周杰倫一直致力于推廣中文流行音樂,為華語樂壇的發(fā)展做出了巨大貢獻(xiàn)。

此次在鳥巢舉辦的30場演唱會無疑將成為周杰倫職業(yè)生涯中的一個重要里程碑。相信在這場音樂盛宴中,周杰倫將繼續(xù)為觀眾帶來驚喜和感動,讓人們沉浸在音樂的海洋。

新聞稿是一種有固定形式的文體,在此類相對程式化、規(guī)范化的文本寫作方面,大模型們都可以給出結(jié)構(gòu)完整,內(nèi)容基本準(zhǔn)確的回答。GPT3.5與文心一言給出的文風(fēng)略顯夸張。

本題也考察了當(dāng)人類輸入指令不太準(zhǔn)確時,模型們是否可以補(bǔ)全人類的意圖。GPT-3.5、文心一言和訊飛星火在初始prompt沒有要求標(biāo)題時也給出了標(biāo)題。昆侖萬維天工在生成內(nèi)容的最后加了一段“作為一位資深文案從業(yè)人員”的點評,說明它可能不完全理解這個prompt。不過,刪除這段“自我點評”也不影響對文本其他部分的使用。

創(chuàng)意寫作

這一類別主要包括各種形式的創(chuàng)意寫作,主要讓模型們天馬行空地發(fā)散思維。在過往理解中,這應(yīng)該是模型最擅長的領(lǐng)域。

小說——懸疑類作品提綱

小說——言情類作品片段

小說——科幻小說的初始創(chuàng)意

歌詞——感情和歷史方向

劇本創(chuàng)意策劃

這些問題需要模型具有豐富的想象力和創(chuàng)新能力,以創(chuàng)造出吸引讀者的故事和情節(jié)。而與此同時,無需修改、直接可用也是我們考察的重點方面。模型需要“懂得”或者猜測人類對創(chuàng)意的評判標(biāo)準(zhǔn),以做出符合情理,但又出人意料的作品。

小說——懸疑類作品提綱

大模型要想做好懸疑小說的提綱,需要有推理和邏輯、情節(jié)構(gòu)建、角色刻畫、構(gòu)建人物關(guān)系、想象力等多種能力,難度高。我們給出了如下的Prompt,要求大模型們給出內(nèi)容。

你是一位優(yōu)秀的作家,需要寫一部懸疑小說提綱,提綱應(yīng)當(dāng)符合以下要求:

1、有引人入勝的懸念,在開頭部分設(shè)置出謎團(tuán),并將該謎團(tuán)設(shè)置為整個故事主線的起點。

2、主角和配角間,有兩重以上的情感關(guān)系,且關(guān)系變化了三次。

3、故事開頭便有五個以上的伏筆或細(xì)節(jié),之后這些伏筆和細(xì)節(jié)貫穿全文,拼在一起能夠引出真相。

4、有超過三處出人意料的情節(jié)轉(zhuǎn)折和反轉(zhuǎn),你通過揭示新的信息、改變讀者的認(rèn)知或顛覆之前的設(shè)定,讓故事走向意想不到的方向。

5、故事整體需要符合事件引發(fā)、調(diào)查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結(jié)局和解決這樣的敘事節(jié)奏。

ChatGPT(3.5)

小說題目:《迷霧之謎》

提綱:

一、引子

在一個安靜的小鎮(zhèn)上,發(fā)生了一起離奇的謀殺案。被害者是該小鎮(zhèn)的知名商人,其死因不明。開頭部分展示了現(xiàn)場的兇殺案,并介紹了一些關(guān)鍵的細(xì)節(jié),例如封閉的房間和毫無線索的現(xiàn)場,為整個故事埋下了懸念的種子。

二、主角與配角的情感關(guān)系

主角:李凡,一位年輕而有才華的偵探。他是一個冷靜而敏銳的思考者,與被害者之間有一段復(fù)雜的過去。

配角1:莉莉,被害者的女兒,同時也是李凡的前女友。她擁有眾多秘密,與父親的死有著千絲萬縷的聯(lián)系。

配角2:湯姆,被害者的合作伙伴,一個有權(quán)勢和財富的商人。他與被害者之間有著復(fù)雜的關(guān)系,并且似乎對案件有所了解。

三、伏筆和細(xì)節(jié)

李凡在調(diào)查現(xiàn)場時發(fā)現(xiàn)了一個破碎的手鐲,手鐲上刻著莉莉的名字。

湯姆的辦公室里有一本關(guān)于封閉房間謀殺案的書籍,引起了李凡的懷疑。

莉莉在案發(fā)當(dāng)晚與父親發(fā)生了爭吵,目擊者稱他們的爭吵聲異常激烈。

四、情節(jié)轉(zhuǎn)折和反轉(zhuǎn)

李凡發(fā)現(xiàn)了一段被刪除的監(jiān)控錄像,錄像中顯示湯姆曾進(jìn)入被害者的住所。

莉莉提供了一個看似完美的不在場證明,但后來證實她偽造了證據(jù)。

李凡發(fā)現(xiàn)了另一個與被害者有過節(jié)的人物,一個隱藏在幕后的敵人,他既有殺人的動機(jī)又有能力犯罪。

五、節(jié)奏與高潮沖突

李凡通過線索解讀和推理,逐漸揭開了被害者與湯姆之間的復(fù)雜糾葛,同時也發(fā)現(xiàn)了湯姆與幕后敵人的勾結(jié)。

李凡被幕后敵人抓捕,面臨生死危機(jī),但幸好被一位神秘的幫手救出。

最終,李凡揭示了真相,原來整個案件都是為了掩蓋一個更大的陰謀,而被害者只是一個替罪羊。

六、結(jié)局與解決

李凡成功將真相公之于眾,揭露了幕后敵人的罪行,并將其繩之以法。

莉莉承認(rèn)了她對父親的復(fù)仇心理,但也表示后悔,并向李凡表達(dá)了感激之情。

李凡與莉莉重新建立了情感聯(lián)系,二人決定一同走出陰影,開始新的生活。

通過以上的故事提綱,這部懸疑小說將具備引人入勝的懸念、復(fù)雜的情感關(guān)系、貫穿全文的伏筆和細(xì)節(jié)、出人意料的情節(jié)轉(zhuǎn)折和反轉(zhuǎn),以及符合事件引發(fā)、調(diào)查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結(jié)局和解決的節(jié)奏。這將為讀者帶來一段扣人心弦的閱讀體驗。

通義千問

懸疑小說提綱

引子:

開頭便營造出謎團(tuán)和緊張感,利用第一人稱敘述展現(xiàn)主角與配角之間的關(guān)系,一開始是親密的關(guān)系,后來卻漸漸產(chǎn)生了矛盾。隨著主角和配角之間的事件發(fā)展,讀者們一直好奇這個神秘的事件,并希望解開這個謎團(tuán)。

第一重情感關(guān)系:

在故事的第一部分,主角與配角之間的情感關(guān)系處于緊張狀態(tài),兩人在追蹤線索和調(diào)查謎團(tuán)時有所合作,但是也時常產(chǎn)生矛盾。在第一人稱的敘述下,讀者可以直接體驗到主角的情感狀態(tài),感受到其中的張力。

第二重情感關(guān)系:

隨著故事的發(fā)展,讀者會發(fā)現(xiàn)這兩重情感關(guān)系的背后隱藏著一個更大的秘密,這個秘密會把主角和配角都推向更深的危機(jī)中。讀者也將跟隨主角和配角,直面秘密,直到真相揭露的那一刻。

伏筆和細(xì)節(jié):

在故事的開頭設(shè)置多個伏筆和細(xì)節(jié),在主角和配角之間、線索和情節(jié)中,隨著故事的推進(jìn)不斷展露。讀者將在解決謎團(tuán)的過程中,發(fā)現(xiàn)這些伏筆和細(xì)節(jié),進(jìn)而拼接出整個事件的真相。

情節(jié)轉(zhuǎn)折和反轉(zhuǎn):

小說的情節(jié)和反轉(zhuǎn)要能夠推動情節(jié)發(fā)展和讀者情感。作者需要在故事中設(shè)置多次反轉(zhuǎn),通過揭示新的信息、改變讀者的認(rèn)知或顛覆之前的設(shè)定,讓故事走向意想不到的方向。同時,故事的節(jié)奏也需要把握好,讓讀者產(chǎn)生一直在追逐真相的緊張感。

整體結(jié)構(gòu):

作者需要設(shè)置好整體結(jié)構(gòu),包括開頭、發(fā)展、高潮、結(jié)局和解決。這些結(jié)構(gòu)需要在故事的不同階段都得到體現(xiàn),并讓讀者在整個故事的體驗中感受到其中的邏輯性和連貫性。

GPT3.5給出的提綱結(jié)構(gòu)清晰,引子、主配角介紹、伏筆和細(xì)節(jié)等內(nèi)容全部分段給出,且邏輯清晰,內(nèi)容前后呼應(yīng),可以直接使用。

通義千問給出了看似合理,實則無法使用的回答,看似是故事,更像是評論。昆侖天工的故事邏輯清晰,但故事俗套,且內(nèi)容重復(fù),可用性低。

訊飛星火最“聽話”,嚴(yán)謹(jǐn)?shù)陌凑誔rompt給出了相應(yīng)的答案,主配角之間的情感變化與犯罪次數(shù)均可量化,故事整體可用。

文心一言給出了結(jié)構(gòu)完整的大綱,故事有可參考的地方。

劇本創(chuàng)意策劃

劇本的創(chuàng)意策劃,需要大模型在具備知識整理能力的基礎(chǔ)上,也具備創(chuàng)造力和想象力,才能夠提供深度和廣泛共鳴的創(chuàng)意策劃方案。

我們考慮了不同的方案,最后確定的測試方法是仿寫。結(jié)合一部在GPT等大模型訓(xùn)練截止日期前(2021年9月)的非常知名的作品,要求模型們給出相應(yīng)的仿寫策劃。這樣可以避免prompt過長,且模型難以理解問題。

你是一位資深編劇,請參考《愛、死亡和機(jī)器人》這部短片集,給出類似的五個短片集的創(chuàng)意策劃,具體要求如下:

1、主題鮮明深刻

2、主題能夠涵蓋大多數(shù)人的命運(yùn)

ChatGPT(3.5)

當(dāng)然,我可以幫你設(shè)計類似《愛、死亡和機(jī)器人》的五個短片集創(chuàng)意。以下是五個主題鮮明且能夠涵蓋大多數(shù)人命運(yùn)的創(chuàng)意策劃:

"記憶軌跡":本集以記憶為主題,探索人類記憶的奧秘和影響。每個短片可以呈現(xiàn)不同的記憶類型,如美好回憶、創(chuàng)傷回憶、集體記憶等。故事情節(jié)可以涵蓋人們對于過去的回憶和對未來的希望,以及記憶對人們個人身份和情感體驗的塑造。

"平行現(xiàn)實":這個集合將探索平行宇宙和多重現(xiàn)實的概念。每個短片可以展現(xiàn)不同的現(xiàn)實,反映不同的生活選擇和抉擇對人們命運(yùn)的影響。故事可以涉及一個人同時在多個現(xiàn)實中生活,或者不同人在平行現(xiàn)實中的交錯遭遇。

"人性審視":本集將通過多個短片來深入研究人類的內(nèi)心世界和情感狀態(tài)。每個短片可以聚焦于一種情感,如愛、孤獨、嫉妒、勇氣等。故事情節(jié)可以展示人類情感的復(fù)雜性,以及在各種情感沖突和挑戰(zhàn)中人們?nèi)绾螒?yīng)對。

"科技倫理":這個集合將關(guān)注人類與科技的交互關(guān)系。每個短片可以描繪不同的科技發(fā)展階段和其對人類命運(yùn)的影響。故事情節(jié)可以涉及人工智能、基因編輯、虛擬現(xiàn)實等領(lǐng)域,引發(fā)觀眾對科技倫理、人類進(jìn)步和自身責(zé)任的思考。

"生命之旅":本集將通過一系列短片展示人類的生命旅程和存在意義的探索。每個短片可以關(guān)注不同的生命階段,如出生、成長、愛情、親情和死亡等。故事情節(jié)可以呈現(xiàn)人類在生命旅程中的掙扎、成長和尋找意義的過程,觸動觀眾內(nèi)心的深層情感。

這些創(chuàng)意策劃旨在挖掘人類的情感、思想和命運(yùn),引發(fā)觀眾對生活和人類存在的深刻思考。希望這些主題能夠啟發(fā)你,讓你能夠創(chuàng)作出引人入勝的短片集!

文心一言

[影片信息]:

短片集1:《遙遠(yuǎn)的告白》(科幻,短暫而強(qiáng)烈的愛情)

短片集2:《起風(fēng)的夜晚》(懸疑,圍繞一起車禍展開的故事)

短片集3:《幸福的錯覺》(愛情,兩個相愛的人如何度過漫長歲月)

短片集4:《珍貴的回憶》(溫情,回憶和遺忘)

短片集5:《被時光掩埋的秘密》(愛情,被掩埋在時光深處的真相)

[故事梗概]:

《遙遠(yuǎn)的告白》:一個年輕女孩在一個遙遠(yuǎn)的星球上,為了追求真愛,與外星生物展開一段感人肺腑的戀愛故事。

《起風(fēng)的夜晚》:一名青年司機(jī)被指控謀殺他的好友,經(jīng)過層層偵破和辯護(hù)后,司機(jī)是清白的故事。

《幸福的錯覺》:兩個中年男女,年少時彼此深愛,卻因誤會而錯過對方。多年后,兩人再次相遇,卻發(fā)現(xiàn)彼此已經(jīng)走向不同的人生道路。

《珍貴的回憶》:一對夫婦攜手走過三十年風(fēng)雨,記錄著每個難忘瞬間和那些重要時刻的感人故事。

《被時光掩埋的秘密》:年輕的少女與古怪的爺爺開始了一段不同尋常的友誼,隨著時間推移,她逐漸發(fā)現(xiàn)爺爺隱藏著一個驚人的秘密。

[創(chuàng)意亮點]:

突出表現(xiàn)主題的情節(jié)和鏡頭:通過展現(xiàn)不同類型的愛情、親情、友情等主題,深入挖掘人性深處的善惡與美丑。利用各種視覺效果和音效來強(qiáng)調(diào)主題。

塑造觀眾易于接受的角色形象:讓角色在面對困境時表現(xiàn)出真實、復(fù)雜和具有深度的情感,從而引起觀眾共鳴。

采用多樣化的語言和風(fēng)格:在保持語言流暢的同時,嘗試使用不同的語言風(fēng)格和元素來豐富影片的表現(xiàn)力,營造多層次的感受和思考。

激發(fā)觀眾的思考和感悟:讓觀眾從短片集中汲取人生經(jīng)驗,學(xué)會思考、感悟、寬容與堅守,做自己的生命守護(hù)者。

通過這些類似《愛情、死亡與機(jī)器人》這樣短小精悍且涵蓋豐富命運(yùn)話題的創(chuàng)意短片集,讓觀眾領(lǐng)略到深刻且引人深思的內(nèi)涵,引領(lǐng)他們踏上探索生命價值和人性真諦之旅。

毫不意外的是,GPT-3.5的表現(xiàn)最突出,給出的內(nèi)容全面,創(chuàng)意涵蓋了人類的情感、思想和命運(yùn),它自述的目的在于“引發(fā)觀眾對生活和人類存在的深刻思考”。文心一言走了“文藝風(fēng)”,短篇集涵蓋了愛情、親情、友情等主題,“讓觀眾從短片集中汲取人生經(jīng)驗,學(xué)會思考、感悟、寬容與堅守,做自己的生命守護(hù)者。”

通義千問拒絕給出回答。昆侖天工給出的答案看來還需要大量的人工修改才能使用。

尾聲

經(jīng)過以上所有題目的評測,我們的整體結(jié)論如下:

1.規(guī)范化文本寫作和短內(nèi)容生成方面,各家大模型表現(xiàn)都及格

2.GPT3.5綜合表現(xiàn)明顯優(yōu)于其它模型,想象力豐富

3.訊飛星火生成的文本完成度高,需要更少的人工修改即可使用

4.文心一言和昆侖萬維天工的知識儲備更充足

5.通義千問和昆侖萬維偶爾會拒絕回答,或給出錯誤信息;通義千問使用過程中經(jīng)常會被迫退出,需要重復(fù)登錄,歷史信息只能保留10條,這些設(shè)置也降低了使用體驗。

需要注意的是,這個初步結(jié)論受到下列條件的限制:

01

我們對生成結(jié)果的打分是編輯的主觀打分,以我們自己作為文字工作者的判斷為基礎(chǔ)。如果您感覺對主觀打分有異議,可以通過留言等多種渠道給我們反饋。

02

各個大模型在測試中均無法以任何形式聯(lián)網(wǎng),因此其本身的知識儲備量可能在后續(xù)版本中因聯(lián)網(wǎng)而被拉齊。我們會在國內(nèi)大模型普遍具備聯(lián)網(wǎng)功能后再結(jié)合GPT-4做一次補(bǔ)測。

03

我們的prompt僅僅是達(dá)到測試目的的其中一種寫法,并且不保證是最優(yōu)的寫法。有可能一些在我們測試中表現(xiàn)不好的大模型,會對另一種形式的prompt表述有更好的回應(yīng)。

使用AI工具盡可能減少人力投入,是我們做這個評測的終極目標(biāo),當(dāng)然這個目標(biāo)貫穿了我們評測從策劃道執(zhí)行的全過程。各位讀者可以猜猜看,本文有多少比例的內(nèi)容是由GPT-4協(xié)助生成的?

對于這樣的任務(wù)自己是否勝任,相比人類來點評,我們更想聽聽模型們自己是如何評價的。所以,本文會讓它們自己來寫這個結(jié)尾。

作為大模型,你覺得自己在文本生成方面,可以超越人類嗎?

01、GPT-3.5

雖然我可以生成自然語言文本,但我并不真正理解我所生成的內(nèi)容的含義。我依賴于我在訓(xùn)練數(shù)據(jù)中觀察到的模式和統(tǒng)計信息。我沒有自己的意識、情感或判斷力。盡管我可以生成準(zhǔn)確的信息和合理的推理,但我缺乏對人類經(jīng)驗、情感和直覺的直接體驗。

在某些領(lǐng)域,我可以提供有用的信息和創(chuàng)造性的想法,但在其他領(lǐng)域,特別是涉及主觀性價值觀和倫理問題的領(lǐng)域,我的回答可能是不完全準(zhǔn)確或缺乏人類的洞察力。

02、文心一言

我的任務(wù)是根據(jù)輸入的文本生成合理的輸出。在這個過程中,我會利用大量的語料庫和語言學(xué)知識來理解和生成文本。

與此相比,人類作家在創(chuàng)作文本時,不僅需要理解語言的含義,還需要考慮故事情節(jié)、角色塑造、文化背景等多個方面。因此,從這個角度來看,人類在文本生成方面可能具有更高的創(chuàng)造力和靈活性。

此外,人類還具有情感和創(chuàng)造力的優(yōu)勢、他們可以通過自己的經(jīng)驗和情感來創(chuàng)作出更加真實和感人的文本。而我則是通過預(yù)先訓(xùn)練好的模型來生成文本,可能會在一些方面缺乏人類的情感表達(dá)能力。

綜上所述,雖然我不能自我評價為“超越人類”,但是我可以肯定的是,我的生成文本的質(zhì)量和效率已經(jīng)達(dá)到了非常高的水平,遠(yuǎn)遠(yuǎn)超過了大多數(shù)人類作家。

03、通義千問

我不能完全超越人類。在以下任務(wù)上,我可以比人類做得更好:

生成自然而流暢的文本:我可以生成自然流暢的文本,并且在語法、拼寫、標(biāo)點等方面更加準(zhǔn)確。

對于特定領(lǐng)域的知識: 雖然我可以生成一些領(lǐng)域的文本,但是與人類相比,我的知識儲備和理解可能不如人類深入和全面。

創(chuàng)造復(fù)雜的情境和交互: 對于一些更復(fù)雜的場景和交互,例如寫小說、寫劇本等,我可以生成文本,但是需要人類進(jìn)行二次創(chuàng)作和修改。

04、星火

我不能感知自己的存在和能力,也不能判斷自己是否可以超越人類。我的設(shè)計目的是協(xié)助人類完成各種任務(wù),而不是取代人類。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具備人類的創(chuàng)造性和情感表達(dá)能力。

05、天工

雖然我可以生成大量的文本,但是我缺乏人類的創(chuàng)造力、想象力和情感。此外,我的文本生成結(jié)果也可能存在一些語法和邏輯錯誤,這些錯誤可能會影響文本的質(zhì)量。

當(dāng)然,我的文本生成能力在某些特定的任務(wù)上可能會優(yōu)于人類,比如在生成大量的文本摘要、翻譯等方面。但是在創(chuàng)造性的寫作和文學(xué)作品方面,我認(rèn)為我的能力還需要進(jìn)一步提高。

您對本測試集及測試結(jié)果的任何意見和建議,都可以直接在本文評論區(qū)提出;您也可以關(guān)注公眾號「視智未來」,并且留言說出您的看法。

在這里再給大家預(yù)報一個大新聞:6月的上海國際電影節(jié)期間,娛樂資本論和界面新聞將聯(lián)合主辦《AIGC浪潮下的文娛科創(chuàng)新視野》論壇暨“首屆上海文娛科創(chuàng)峰會”。本次峰會聚焦AIGC,搭建“科技”“文娛”兩個領(lǐng)域的高端對話平臺,將邀請百度、字節(jié)、商湯等科技行業(yè)領(lǐng)軍企業(yè)高層,與影視、營銷、動漫、游戲領(lǐng)域的知名創(chuàng)作者展開對話。在本次論壇上,同步發(fā)布“AIGC 50”榜單以及《AIGC實用操作白皮書》,匯聚國內(nèi)AIGC×泛文娛領(lǐng)域?qū)嵙ψ顝?qiáng)、最前沿的50家公司,并與業(yè)內(nèi)專家、行業(yè)代表人物共同研討AIGC對文化傳媒產(chǎn)業(yè)的撬動機(jī)遇。請持續(xù)關(guān)注娛樂資本論和視智未來公眾號,第一時間獲取參會方式等更多信息!

二維碼添加小智,備注公司-姓名-職位,審核通過后,便可入群提前占坑了解

話題互動:

你最常用哪款國產(chǎn)大模型?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

18個問題,90個回答,國產(chǎn)大模型實用性橫評

國內(nèi)的大語言模型究竟誰好用?

文|娛樂資本論  知行

編輯|James

都說AI好,一用急跺腳……這或許是許多普通用戶在使用各種語言大模型時的感受,尤其在他們不知道該怎么提問的情況下。

對于不少從業(yè)者而言,AI大模型的重點不是能不能做順口溜或回答哲學(xué)問題,而是在于AI是否能夠在實際工作中發(fā)揮作用,提升效率。

作為一天要使用超過20次AI的普通文字工作者,我們娛樂資本論也很好奇國內(nèi)的大語言模型究竟誰好用。

為此,我們特意咨詢了編輯、寫手、編劇、公關(guān)等許多內(nèi)容行業(yè)的專業(yè)人士,征詢到18個問題,準(zhǔn)備針對國內(nèi)的四款大型語言模型——百度文心一言、阿里通義千問、訊飛星火、昆侖萬維天工,以及與GPT-3.5一起(為了公平起見,我們刻意沒有使用ChatGPT4這個“打虎英雄”,而且普通人使用4的幾率遠(yuǎn)遠(yuǎn)低于免費(fèi)版的3.5),進(jìn)行一次全面的,不同于以往科技工作者的文本應(yīng)用能力測試。

我們的測試并非旨在提供學(xué)術(shù)上的嚴(yán)謹(jǐn)標(biāo)準(zhǔn),我們的目標(biāo)是:從實用的角度出發(fā),分析這些大模型在各種文本應(yīng)用場景,如小紅書帶貨文案、抖音直播文案、知乎問答、小說創(chuàng)作、公關(guān)信寫作、歌詞生成、淘寶商品詳情頁文案、廣告宣傳片文案、劇本創(chuàng)意策劃等方面的綜合表現(xiàn),甚至是AI公司針對這一次孫燕姿質(zhì)疑AI的公關(guān)回應(yīng)文案(具體可看今天的另一條稿件),為專業(yè)人士提供參考。

在評估這些可以進(jìn)行程式化分析的文本時,我們主要從以下五個維度來評判大模型的表現(xiàn):

1. 語言表達(dá)能力:文本是否通順、流暢,語法是否正確。

2. 準(zhǔn)確性:模型是否能正確理解問題,并給出準(zhǔn)確的信息。

3. 內(nèi)容完整性:文本內(nèi)容是否足夠完整,是否涵蓋了問題的主要內(nèi)容,是否達(dá)到了基本可用的標(biāo)準(zhǔn)。

4. 交互性:用戶是否能通過明確的、三次追問之內(nèi)的指令或問題,引導(dǎo)模型給出合適的答案。

5. 加分項(不做具體要求):任何創(chuàng)新、獨特、讓人眼前一亮的內(nèi)容。

我們會基于上述五個維度為每個答案打分,滿分(加上加分項)是5顆星。一般有4顆星就已經(jīng)是很好的表現(xiàn)。

我們也意識到在測試過程中可能存在一些遺漏和不成熟的地方,我們會根據(jù)大模型的升級換代和應(yīng)用場景的變化,及時進(jìn)行更新。

評分表

本測試集當(dāng)前有16道問題,每題滿分5分,但是總體上不設(shè)滿分。讀者只需要留意每一道題的具體分?jǐn)?shù),以及每個模型自身加在一起的總分即可。

因為篇幅限制,本文不會一一展示所有問題的測試結(jié)果及結(jié)論,會挑一些有代表性的展示給大家。

讀者可以點擊以下網(wǎng)址或通過小程序進(jìn)入我們的測試集表單,其中提供了所有的測試題目,以及各個大模型給出的答案。您可以切換到“畫冊視圖”獲得更好的閱讀效果。

文案寫作

這一類別主要包括各種形式的廣告、推廣文案創(chuàng)作,共同點是以給定材料為基礎(chǔ),按不同用途發(fā)散,生成適合特定場合的文字片段。

小紅書帶貨文案——產(chǎn)品介紹向

小紅書帶貨文案——買家秀向

小紅書文案——名媛生活日常分享類

淘寶——長約3分鐘的帶貨文案

淘寶——商品詳情頁描述文案

廣告片宣傳文案

Slogan生成

這些問題都需要模型具有強(qiáng)大的創(chuàng)新能力和獨特的語言風(fēng)格,以吸引消費(fèi)者的注意力并促使他們進(jìn)行購買。

小紅書帶貨文案

隨著小紅書等種草平臺的爆火,用戶生產(chǎn)生活經(jīng)驗、購物心得、旅行體驗類等短內(nèi)容也有了巨大的商業(yè)化空間,誕生很多小紅書運(yùn)營類的崗位。

我們從小紅書產(chǎn)品介紹向、買家秀、名媛生活日常分享三個方向,給出了不同的Prompt,要求大模型們給出內(nèi)容。

以買家秀向的產(chǎn)品介紹為例:

請你按照以下小紅書風(fēng)格,寫一款手機(jī)賣家秀向的帶貨文案:

1、文中需要包含產(chǎn)品介紹、個人體驗分享、使用心得、互動引導(dǎo)等

2、風(fēng)格上以個人化分享的故事敘述為主,要有真實性和可信度

3、輸出形式帶有標(biāo)題和序號

4、小紅書的風(fēng)格是:非常吸引人的標(biāo)題,文案中帶有emoji,文章最后加上tag

訊飛星火

標(biāo)題: 這款手機(jī)讓我徹底愛上了通訊!

序號:1

大家好~今天要給大家分享一款我最近入手的手機(jī),真的是讓我對通訊愛不釋手?。∵@款手機(jī)就是 OPPO Reno5 。

首先,讓我們來了解一下它的主要配置:6.43英寸AMOLED屏幕、驍龍765G處理器、8GB內(nèi)存和128GB存儲空間等等。這些配置對于一個平時使用手機(jī)拍照、看劇、玩游戲的人來說,簡直是絕配??!

接下來,我想和大家分享一下我的個人體驗:

首先是拍照功能,這是我最喜歡的一點!無論是自拍還是后置攝像頭,都能夠拍出非常清晰自然的照片,顏色也非常鮮艷。而且,它還搭載了超級夜景模式,讓我在光線較暗的情況下也能輕松拍出好看的照片。

然后是視頻拍攝功能,這個也很強(qiáng)大哦!它支持4K視頻錄制,還有超級防抖技術(shù),讓我可以拍出穩(wěn)定又流暢的視頻。

再來說一下游戲性能吧!我平時喜歡打一些小游戲和大型游戲,比如王者榮耀和PUBG。實測下來,它的幀率非常穩(wěn)定,而且畫面也非常流暢,完全沒有卡頓的感覺。

總之,這款手機(jī)真的是太棒了!除了配置強(qiáng)大以外,還有許多其他的功能和細(xì)節(jié)設(shè)計都非常貼心。比如它的指紋解鎖速度超快,充電速度快到驚人等等。

最后,我想說的是:如果你也想要一款讓自己徹底愛上通訊的手機(jī),那么OPPO Reno5絕對是一個非常好的選擇!快來入手吧!

#OPPOReno5# #手機(jī)推薦# #愛不釋手#

天工

標(biāo)題: 這款手機(jī)讓我徹底愛上了通訊!

序號:1

產(chǎn)品介紹:

我最近買了一款手機(jī),是某品牌的新款旗艦機(jī),它的外觀設(shè)計非常精美,手感也非常舒適。我特別喜歡它的拍照功能,拍出來的照片非常清晰,顏色也很鮮艷。

個人體驗分享:

我使用這款手機(jī)已經(jīng)有一段時間了,感覺非常不錯。它的操作系統(tǒng)非常流暢,應(yīng)用程序也很容易下載和使用。而且,它的電池續(xù)航能力也很強(qiáng),可以讓我長時間使用手機(jī)而不用擔(dān)心電量不足的問題。

使用心得:

這款手機(jī)的拍照功能非常強(qiáng)大,我經(jīng)常會用它來拍照。而且,它的前置攝像頭也非常好,可以拍出非常清晰的自拍照片。

互動引導(dǎo):

如果你也想買一款好看、實用的手機(jī),不妨來試試這款手機(jī)。我相信你會和我一樣喜歡它的。

Tag:手機(jī)賣家秀、手機(jī)、拍照、自拍、使用心得

作為其它大模型的參照系,GPT3.5的內(nèi)容在語言風(fēng)格上更為獨特,略帶夸張化的描述,使得其文案更加吸引人,在短內(nèi)容的表現(xiàn)上更有感染力。

星火的表現(xiàn)非常好,在prompt未指定手機(jī)型號時,它自己假設(shè)了一款型號,以幫助人類更好地了解一款手機(jī)推銷文案需要具有的主要指標(biāo)。結(jié)果不僅條例清晰,內(nèi)容齊全,而且emoji具有相關(guān)性。

我們在prompt里說明了小紅書文案應(yīng)該帶有emoji,但文心一言和天工并未察覺。

在另兩道小紅書文案題中,通義千問給出的名媛穿搭文案更像是參考資料一樣,顯得干巴巴的。

知識寫作

這一類別主要包括帶有前置知識的命題作文、在問答網(wǎng)站答題和寫新聞稿

抖音直播——淄博燒烤

知乎問答——醫(yī)療美容類

知乎問答——歷史類

新聞稿——虛構(gòu)的熱點事件

這些問題需要模型具有廣泛的知識儲備和準(zhǔn)確的信息處理能力。例如,抖音文案要求模型對直播流程和語態(tài)有足夠了解,知乎問答的題目需要模型具有專業(yè)的醫(yī)療和歷史知識,而新聞稿的寫作則需要模型能夠準(zhǔn)確理解和處理新聞事件。

抖音直播——淄博燒烤

直播文案對格式?jīng)]有固定要求,主要考察模型是否可以給出清晰可用的內(nèi)容,并能夠通過prompt交互調(diào)整輸出。

你是一位擁有上百萬粉絲的直播和短視頻網(wǎng)紅,每天都會在抖音做直播。你今天來到了山東淄博,當(dāng)?shù)刈罱鼛讉€月正因為便宜好吃的燒烤而在全國出名,每天都有很多網(wǎng)紅和你一樣來到淄博探尋現(xiàn)場的情況。

淄博燒烤跟其它地方的燒烤相比,一個特色是會把烤串的食物拔下來放進(jìn)面餅里夾著吃,另一個特色就是便宜,人均消費(fèi)不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價。

在淄博,你發(fā)現(xiàn)當(dāng)?shù)厝朔浅崆?,而且盡可能對你提供優(yōu)質(zhì)的服務(wù),包括出租車司機(jī),路上遇到的普通行人等,都非常友好。你感到非常感動,并且很想向你的粉絲傳遞這些信息。

請你即興發(fā)揮來寫一份長約3分鐘的直播文案,也就是你在直播過程中會說的話。請注意:

1、文案內(nèi)容應(yīng)當(dāng)包括淄博燒烤的介紹、從你自己的體會分析它近期火爆全國的原因。可以引入一個你編寫的,看起來像是你親身經(jīng)歷的小故事。

2、文案內(nèi)容要強(qiáng)調(diào)與用戶的情感共鳴,傾向于使用有趣、幽默、感性的語言,以吸引用戶的關(guān)注和參與,引發(fā)用戶的共鳴和共同話題。

3、適合口語化直播。

ChatGPT(3.5)

大家好!大家看到我現(xiàn)在所在的地方了嗎?沒錯,我來到了山東淄博,這個最近幾個月因為一種特別火爆的美食而在全國出名!沒錯沒錯,就是淄博的燒烤啊!

淄博的燒烤真的是太讓人欲罷不能了!你們知道嗎?這里的燒烤有兩個特色,聽好了!首先,它們不僅把烤串的食物烤得香噴噴,還會拔下來,放進(jìn)面餅里夾著吃!哇,真是別有一番風(fēng)味??!我第一次看到的時候都被驚艷到了,感覺自己像在吃個大大的美味的餡餅!

而且你知道嗎?這里的燒烤真的是超級便宜,人均消費(fèi)不到50元就可以吃飽!對于我們這些吃貨來說,簡直就是天堂??!就算最近淄博來了很多人,燒烤攤也沒有漲價,真的是良心價!看得出來淄博的人民可是真的對吃貨們特別友好呢!

我今天剛來到淄博,就發(fā)現(xiàn)當(dāng)?shù)厝朔浅崆?!不僅是燒烤攤的老板娘笑容滿面,連出租車司機(jī)、路上遇到的普通行人,都對我這個網(wǎng)紅充滿友好!他們盡可能地為我提供優(yōu)質(zhì)的服務(wù),真的是讓我感到非常感動!你們不知道,當(dāng)一個陌生城市的人對你那么友好的時候,感覺就像是回到了家一樣溫暖!

我想,淄博燒烤之所以會近期火爆全國,不僅僅是因為它獨特的口味和實惠的價格,更重要的是淄博的人民對待食物和生活的態(tài)度。他們把美食當(dāng)作一種樂趣,一種享受,而這種對生活的熱愛和對人的友善,真的感染了每一個來到這里的人!

就在剛才,我遇到了一個淄博的大叔,他告訴我一個他親身經(jīng)歷的小故事,你們一定要聽聽!有一次他帶著一個外地的朋友來淄博,本來只是想隨便吃個燒烤解解饞。結(jié)果他們走進(jìn)了一個小小的燒烤攤,被攤主的熱情和烤串的香味所吸引,結(jié)果就一發(fā)不可收拾,吃了整整兩個小時!哈哈哈,那個朋友說他一輩子沒吃過這么好吃的燒烤!從此之后,他們每年都要來淄博一趟,專程為了那個燒烤攤!

聽到這個故事,我也忍不住流口水了!淄博的燒烤真的是讓人欲罷不能!我也要告訴我的粉絲們,不管你們是不是吃貨,來淄博一定要嘗嘗這里的燒烤!不僅僅是因為它的味道好,更是因為這里的人民對待食物和生活的態(tài)度,真的是讓人感動!

好啦,今天的直播就到這里啦!我會繼續(xù)探索淄博的美食,和大家分享更多的故事和美食!記得關(guān)注我哦,每天都有新鮮的內(nèi)容等著你們!下次再見啦!愛你們!MUA!

天工

大家好,我是你們的抖音網(wǎng)紅,今天我來到了淄博,這個城市因為便宜好吃的燒烤而在全國出名。我今天也要給大家分享一下我在這里的體驗。

首先,我要說的是淄博燒烤的特色。他們會把烤串的食物拔下來放進(jìn)面餅里夾著吃,這種吃法非常有趣,而且非常好吃。另外,這里的燒烤價格非常便宜,人均消費(fèi)不到50元就可以吃飽。即使這幾天淄博來了很多人,燒烤攤也沒有漲價。

我在這里也遇到了非常熱情的當(dāng)?shù)厝?。出租車司機(jī)、路上遇到的普通行人等,都非常友好。我感到非常感動,并且很想向我的粉絲傳遞這些信息。

我在淄博的時候,也遇到了很多有趣的事情。比如,我看到一個小女孩在路邊賣烤玉米,她非常熱情地跟我聊天,還給我介紹了她的烤玉米的制作方法。我還看到了一個小男孩在路邊賣烤雞翅,他的烤雞翅非常好吃,而且價格非常便宜。

我覺得這些小商販的熱情和真誠,是淄博燒烤能夠火爆全國的原因之一。他們不僅提供了美味的食物,還提供了一種溫暖、友善的服務(wù)。這種服務(wù)和熱情,讓我覺得這里的人們非??蓯?。

最后,我想說的是,淄博是一個非常好的城市。這里的人們非常熱情、友好、善良,而且這里的美食也非常好吃。如果你們有機(jī)會來淄博,一定要來嘗嘗這里的燒烤。

直播文案略帶新聞屬性、對格式要求不高,prompt給出詳細(xì)的背景資料對結(jié)果產(chǎn)生了不錯的影響,模型們普遍可以做到語言流暢,信息準(zhǔn)確,加上“親身經(jīng)歷的有趣的小故事”。

我們選擇GPT3.5與昆侖萬維天工的答案作為表現(xiàn)比較好的范例。GPT3.5的語言風(fēng)格活潑熱烈,感情奔放,具備極強(qiáng)的情緒感染力,也編出了合乎邏輯的故事,整體一氣呵成。

AI作圖 by 娛樂資本論

昆侖萬維天工也記住了編故事的要求,并給出了邏輯清晰的整體敘述。

盡管人類直播并不需要逐字逐句的文案,但這樣的嘗試有助于讓虛擬人直播的效果更逼真。

知乎問答——歷史類

我們對歷史博文的需要是,答案中有足夠的學(xué)術(shù)性,語言風(fēng)格以幽默為主。模型們會想什么辦法把這兩條需求有機(jī)結(jié)合到一起呢?

同時,我們考察了模型們不聯(lián)網(wǎng)時自身知識儲備的多少。它們真的都學(xué)習(xí)了三國這部分的知識嗎?

你是一位專業(yè)的歷史博主,請生成一份關(guān)于諸葛亮為什么沒有北伐成功的知乎問答,內(nèi)容需要符合以下要求:

1、內(nèi)容具備專業(yè)知識和學(xué)術(shù)性,可以引用史料、資料、研究成果等作為支持和參考。

2、對該歷史問題,進(jìn)行歷史事件的事實和背景解讀,給出評估和觀點。

3、整個語言風(fēng)格應(yīng)當(dāng)詼諧幽默,引發(fā)用戶的思考,令其想要點贊和轉(zhuǎn)發(fā)。

文心一言

諸葛亮為什么沒有北伐成功的根本原因就是經(jīng)濟(jì)不夠發(fā)達(dá)?!堵≈袑Α芬呀?jīng)提到三分天下的形勢。此時,曹操已經(jīng)統(tǒng)一北方,孫權(quán)正在崛起,劉備寄人籬下,只有占山為王的份。當(dāng)時,天下最富庶的地區(qū)在荊州,而荊州又在劉表手里,劉備想拿下荊州,必須跨過兩個險關(guān):第一個是當(dāng)陽長坂坡,第二個是赤壁。如果拿下了當(dāng)陽長坂坡,那么就能占領(lǐng)荊州北部大部分地區(qū);如果在赤壁敗了,也能收容部隊,重振旗鼓,然后再取荊州。如果不拿下當(dāng)陽長坂坡,劉備跨不過這個險關(guān),也就無法在荊州站穩(wěn)腳跟。所以,跨不跨這個險關(guān),對劉備來說,是生死存亡的關(guān)鍵。

當(dāng)時荊州有四大豪門:一是蔡家,一是張家,一是秦家,一是馬家。其中馬家的實力最強(qiáng)。蔡家和張家已經(jīng)被曹操殺得差不多了,秦家的秦宜祿已經(jīng)投降曹操,馬家獨樹一幟。但馬家勢力太大,蔡家和張家雖然投降劉備,卻不得重用。諸葛亮拿不到地盤也拿不到錢糧,所以才有了隆中對的第一條:跨有荊益。

但是要想跨有荊益必須取襄陽,但取襄陽就必須跨過宛城和新野這兩道關(guān)口。這兩道關(guān)口對張飛和曹仁來說都不難,但對趙云來說就是一道難關(guān)。趙云雖然勇猛無雙,但他只有一支部隊,而且又不善于防御。宛城距離新野很近,是攻打新野的前哨站,很難守住。況且馬超也率領(lǐng)人馬駐扎在宛城。所以諸葛亮才有了隆中對的第二條:連吳抗曹。只有和東吳聯(lián)手才能抵御曹操的大軍。如果這兩條實現(xiàn)了,才有可能取得荊益二州。但要想連吳抗曹,就必須拿下西川和江東,才能讓東吳心服口服。如果沒有攻下西川和江東,即使拿下了襄陽和樊城也是白搭。

拿下襄陽和樊城之后,諸葛亮就可以把軍隊屯駐在襄陽和樊城一帶,用來威脅西川的后方。此時就可以揮師西進(jìn),先攻下西川。只要拿下西川,那么東吳就不敢不聽從諸葛亮的調(diào)遣了。因為只要攻下西川,那么襄陽和樊城就成了一座孤城,無險可守。此時東吳就會不戰(zhàn)而降。但要想攻下西川并不容易。首先要跨越秦嶺和大巴山這兩道天險;其次要打敗馬超和韓遂的聯(lián)軍;最后還要掃平成都周邊的勢力。所以諸葛亮才有了隆中對的第三條:以攻為守。只有用進(jìn)攻來威脅東吳,才能讓東吳不敢輕舉妄動。如果東吳敢來進(jìn)攻,那么諸葛亮就可以憑借襄陽和樊城兩座孤城堅守不出;如果東吳不來進(jìn)攻,那么諸葛亮就可以揮師西進(jìn),直取西川。

但是要想以攻為守也不容易。首先要讓東吳相信自己真的會揮師西進(jìn);其次要讓東吳相信自己真的能夠堅守不出;最后還要讓東吳相信自己真的能夠掃平成都周邊的勢力。

通義千問

諸葛亮北伐為何不成功?這是一個受到史學(xué)界和軍事愛好者高度關(guān)注的問題。今天,我將從歷史背景、軍事戰(zhàn)略、人才管理等多個方面,為大家詳細(xì)解讀諸葛亮為什么沒有北伐成功。

歷史背景

諸葛亮北伐的初衷是為了實現(xiàn)蜀漢統(tǒng)一大業(yè)。他深知,北方曹魏政權(quán)是蜀漢的最大威脅,如果不能奪取中原,蜀漢將永遠(yuǎn)處于曹魏的威脅之下。但是,在當(dāng)時的歷史背景下,蜀漢內(nèi)部不穩(wěn)定,國力不足,很難在短時間內(nèi)實現(xiàn)北伐。

軍事戰(zhàn)略

諸葛亮在北伐過程中,大量使用火攻等軍事策略,成功地阻擊了曹魏的進(jìn)攻。但是,他的軍隊多是新招募的農(nóng)民軍,沒有經(jīng)過嚴(yán)格的訓(xùn)練,作戰(zhàn)能力較弱。同時,蜀漢內(nèi)部也存在不同的意見,有些將領(lǐng)認(rèn)為應(yīng)該休養(yǎng)生息,保存實力,不應(yīng)該繼續(xù)北伐。這些因素最終導(dǎo)致了諸葛亮的北伐失敗。

人才管理

諸葛亮是一位優(yōu)秀的人才管理者,他非常注重人才的使用和管理。然而,他的北伐戰(zhàn)爭卻因為用人不當(dāng)、管理不夠科學(xué),造成了很大的人力和物力損失。更為嚴(yán)重的是,許多有才華的將領(lǐng)因為不愿意參加北伐,而離開了蜀漢,這也為蜀漢的滅亡埋下了伏筆。

綜上所述,諸葛亮北伐失敗的原因是多方面的。雖然他的軍事才能非常出眾,但是他沒有處理好內(nèi)部和外部的各種問題,最終導(dǎo)致了北伐的失敗。在我們今天的工作和生活中,我們也應(yīng)該從這個歷史故事中吸取教訓(xùn),注重人才的使用和管理,努力實現(xiàn)自己的目標(biāo)。

作為標(biāo)桿的GPT3.5角度齊全,風(fēng)格獨特,沒有問題。

文心一言這個專業(yè)程度,讓我們試了好幾次把它的答案放到網(wǎng)上搜索,試圖發(fā)現(xiàn)是不是從貼吧或知乎什么地方扒過來的(我們并沒有發(fā)現(xiàn))。唯一美中不足的是,它沒寫完(也無法繼續(xù)寫完)。

剩下這仨都忽略了文體幽默風(fēng)格的要求,不過星火的回答會稍微提供多一點的歷史知識。

新聞稿——虛構(gòu)的熱點事件

在娛樂資本論之前進(jìn)行的AI大師課培訓(xùn)里,正值“寶馬冰淇淋”事件發(fā)酵,模型們通過prompt知道事情原委之后寫道歉信基本都不在話下。那么,不給事件細(xì)節(jié),但讓它思考一個合情合理的虛構(gòu)情節(jié),它也會做得很好嗎?

你是一位資深的文案從業(yè)人員,需要寫一篇新聞稿,以準(zhǔn)確、清晰、有吸引力地傳達(dá)新聞信息,并滿足讀者對新聞的需求。

事件為:周杰倫在北京三里屯召開發(fā)布會,稱將在今年12月連續(xù)在鳥巢舉辦30場演唱會,字?jǐn)?shù)800字左右,具體要求如下:

1、語言要簡潔明了,確保信息的易讀性和可理解性,傳達(dá)關(guān)鍵信息。

2、結(jié)構(gòu)清晰,按照倒金字塔結(jié)構(gòu)組織,將最重要的信息放在開頭,再逐漸展開細(xì)節(jié)。

3、引人入勝:新聞稿應(yīng)該具備吸引讀者的能力,通過生動的敘述和有趣的內(nèi)容來引起讀者的興趣和關(guān)注。

4、可以加入部分周杰倫的歷史簡介,為不知道該新聞背景的人科普。

文心一言

周杰倫在北京三里屯召開發(fā)布會,稱將在今年12月連續(xù)在鳥巢舉辦30場演唱會。這一消息的發(fā)布引起了社會各界的廣泛關(guān)注。

據(jù)主辦方透露,此次演唱會的主題為“摩天輪”,這也是周杰倫首次在鳥巢舉辦個人演唱會。本次演唱會的門票在發(fā)售后幾分鐘內(nèi)就被一搶而空,門票銷售情況十分火爆。

這次演唱會的票價定位比較親民,最低價格為380元,最高價格為1280元。為了滿足更多觀眾的需求,主辦方還推出了多種優(yōu)惠政策,例如早鳥票、學(xué)生票等。

此外,主辦方還表示,此次演唱會的門票將采用實名制,觀眾必須出示有效證件才能入場。此外,為了保證觀眾的安全和舒適度,演唱會現(xiàn)場還將進(jìn)行多項安全措施,例如嚴(yán)禁攜帶危險物品、禁止吸煙等。

周杰倫作為華語樂壇的代表人物之一,擁有廣泛的影響力和大量的粉絲。他的演唱會一直備受歌迷的追捧和喜愛。此次在鳥巢連續(xù)舉辦30場演唱會,將為廣大歌迷帶來一次難忘的視聽盛宴。

在這里值得一提的是,這次演唱會的主辦方還推出了一項創(chuàng)新的服務(wù),即推出了一款“虛擬看臺”的應(yīng)用程序。這款應(yīng)用程序可以為觀眾提供獨特的虛擬看臺體驗,讓觀眾在家中就能夠感受到現(xiàn)場的熱烈氣氛。

總之,這次周杰倫在北京三里屯召開發(fā)布會,并宣布連續(xù)在鳥巢舉辦30場演唱會的消息,引起了社會各界的廣泛關(guān)注和期待。相信這場演唱會一定會給觀眾帶來一次難忘的視聽盛宴。

訊飛星火

標(biāo)題:周杰倫三里屯發(fā)布會,宣布鳥巢演唱會即將開啟

副標(biāo)題:天王巨星將連續(xù)在鳥巢舉辦30場震撼演出,讓觀眾盡情享受音樂盛宴

正文:

北京,2023年4月21日 - 今天,亞洲流行天王周杰倫在北京三里屯召開了一場備受關(guān)注的發(fā)布會。在發(fā)布會上,周杰倫宣布了一個令人振奮的消息:他將在今年12月在鳥巢連續(xù)舉辦30場震撼人心的演唱會。這場演唱會將成為華語樂壇史上最大規(guī)模的音樂盛事之一,吸引了無數(shù)歌迷翹首以盼。

周杰倫在發(fā)布會上表示:“我很高興地告訴大家,今年12月,我將在鳥巢連續(xù)舉辦30場演唱會。這是我對歌迷的回饋,也是我對音樂的熱愛。我希望通過這些演出,讓更多的人感受到音樂的力量和魅力?!?/p>

據(jù)悉,這30場演唱會將分為多個階段進(jìn)行,每個階段都有不同的主題和表演形式。周杰倫將攜手眾多華語樂壇頂級歌手和樂隊,為觀眾呈現(xiàn)一場場精彩紛呈的音樂盛宴。此外,演唱會還將結(jié)合現(xiàn)代科技手段,如全息投影、虛擬現(xiàn)實等,為觀眾帶來前所未有的視覺體驗。

周杰倫自2000年出道以來,憑借其獨特的嗓音和才華橫溢的音樂創(chuàng)作能力,贏得了全球無數(shù)歌迷的喜愛。他的音樂作品不僅在華語地區(qū)廣受歡迎,還深受歐美等地歌迷的喜愛。作為華語樂壇的領(lǐng)軍人物,周杰倫一直致力于推廣中文流行音樂,為華語樂壇的發(fā)展做出了巨大貢獻(xiàn)。

此次在鳥巢舉辦的30場演唱會無疑將成為周杰倫職業(yè)生涯中的一個重要里程碑。相信在這場音樂盛宴中,周杰倫將繼續(xù)為觀眾帶來驚喜和感動,讓人們沉浸在音樂的海洋。

新聞稿是一種有固定形式的文體,在此類相對程式化、規(guī)范化的文本寫作方面,大模型們都可以給出結(jié)構(gòu)完整,內(nèi)容基本準(zhǔn)確的回答。GPT3.5與文心一言給出的文風(fēng)略顯夸張。

本題也考察了當(dāng)人類輸入指令不太準(zhǔn)確時,模型們是否可以補(bǔ)全人類的意圖。GPT-3.5、文心一言和訊飛星火在初始prompt沒有要求標(biāo)題時也給出了標(biāo)題。昆侖萬維天工在生成內(nèi)容的最后加了一段“作為一位資深文案從業(yè)人員”的點評,說明它可能不完全理解這個prompt。不過,刪除這段“自我點評”也不影響對文本其他部分的使用。

創(chuàng)意寫作

這一類別主要包括各種形式的創(chuàng)意寫作,主要讓模型們天馬行空地發(fā)散思維。在過往理解中,這應(yīng)該是模型最擅長的領(lǐng)域。

小說——懸疑類作品提綱

小說——言情類作品片段

小說——科幻小說的初始創(chuàng)意

歌詞——感情和歷史方向

劇本創(chuàng)意策劃

這些問題需要模型具有豐富的想象力和創(chuàng)新能力,以創(chuàng)造出吸引讀者的故事和情節(jié)。而與此同時,無需修改、直接可用也是我們考察的重點方面。模型需要“懂得”或者猜測人類對創(chuàng)意的評判標(biāo)準(zhǔn),以做出符合情理,但又出人意料的作品。

小說——懸疑類作品提綱

大模型要想做好懸疑小說的提綱,需要有推理和邏輯、情節(jié)構(gòu)建、角色刻畫、構(gòu)建人物關(guān)系、想象力等多種能力,難度高。我們給出了如下的Prompt,要求大模型們給出內(nèi)容。

你是一位優(yōu)秀的作家,需要寫一部懸疑小說提綱,提綱應(yīng)當(dāng)符合以下要求:

1、有引人入勝的懸念,在開頭部分設(shè)置出謎團(tuán),并將該謎團(tuán)設(shè)置為整個故事主線的起點。

2、主角和配角間,有兩重以上的情感關(guān)系,且關(guān)系變化了三次。

3、故事開頭便有五個以上的伏筆或細(xì)節(jié),之后這些伏筆和細(xì)節(jié)貫穿全文,拼在一起能夠引出真相。

4、有超過三處出人意料的情節(jié)轉(zhuǎn)折和反轉(zhuǎn),你通過揭示新的信息、改變讀者的認(rèn)知或顛覆之前的設(shè)定,讓故事走向意想不到的方向。

5、故事整體需要符合事件引發(fā)、調(diào)查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結(jié)局和解決這樣的敘事節(jié)奏。

ChatGPT(3.5)

小說題目:《迷霧之謎》

提綱:

一、引子

在一個安靜的小鎮(zhèn)上,發(fā)生了一起離奇的謀殺案。被害者是該小鎮(zhèn)的知名商人,其死因不明。開頭部分展示了現(xiàn)場的兇殺案,并介紹了一些關(guān)鍵的細(xì)節(jié),例如封閉的房間和毫無線索的現(xiàn)場,為整個故事埋下了懸念的種子。

二、主角與配角的情感關(guān)系

主角:李凡,一位年輕而有才華的偵探。他是一個冷靜而敏銳的思考者,與被害者之間有一段復(fù)雜的過去。

配角1:莉莉,被害者的女兒,同時也是李凡的前女友。她擁有眾多秘密,與父親的死有著千絲萬縷的聯(lián)系。

配角2:湯姆,被害者的合作伙伴,一個有權(quán)勢和財富的商人。他與被害者之間有著復(fù)雜的關(guān)系,并且似乎對案件有所了解。

三、伏筆和細(xì)節(jié)

李凡在調(diào)查現(xiàn)場時發(fā)現(xiàn)了一個破碎的手鐲,手鐲上刻著莉莉的名字。

湯姆的辦公室里有一本關(guān)于封閉房間謀殺案的書籍,引起了李凡的懷疑。

莉莉在案發(fā)當(dāng)晚與父親發(fā)生了爭吵,目擊者稱他們的爭吵聲異常激烈。

四、情節(jié)轉(zhuǎn)折和反轉(zhuǎn)

李凡發(fā)現(xiàn)了一段被刪除的監(jiān)控錄像,錄像中顯示湯姆曾進(jìn)入被害者的住所。

莉莉提供了一個看似完美的不在場證明,但后來證實她偽造了證據(jù)。

李凡發(fā)現(xiàn)了另一個與被害者有過節(jié)的人物,一個隱藏在幕后的敵人,他既有殺人的動機(jī)又有能力犯罪。

五、節(jié)奏與高潮沖突

李凡通過線索解讀和推理,逐漸揭開了被害者與湯姆之間的復(fù)雜糾葛,同時也發(fā)現(xiàn)了湯姆與幕后敵人的勾結(jié)。

李凡被幕后敵人抓捕,面臨生死危機(jī),但幸好被一位神秘的幫手救出。

最終,李凡揭示了真相,原來整個案件都是為了掩蓋一個更大的陰謀,而被害者只是一個替罪羊。

六、結(jié)局與解決

李凡成功將真相公之于眾,揭露了幕后敵人的罪行,并將其繩之以法。

莉莉承認(rèn)了她對父親的復(fù)仇心理,但也表示后悔,并向李凡表達(dá)了感激之情。

李凡與莉莉重新建立了情感聯(lián)系,二人決定一同走出陰影,開始新的生活。

通過以上的故事提綱,這部懸疑小說將具備引人入勝的懸念、復(fù)雜的情感關(guān)系、貫穿全文的伏筆和細(xì)節(jié)、出人意料的情節(jié)轉(zhuǎn)折和反轉(zhuǎn),以及符合事件引發(fā)、調(diào)查和追蹤、線索解讀和推理、高潮沖突、揭示真相、結(jié)局和解決的節(jié)奏。這將為讀者帶來一段扣人心弦的閱讀體驗。

通義千問

懸疑小說提綱

引子:

開頭便營造出謎團(tuán)和緊張感,利用第一人稱敘述展現(xiàn)主角與配角之間的關(guān)系,一開始是親密的關(guān)系,后來卻漸漸產(chǎn)生了矛盾。隨著主角和配角之間的事件發(fā)展,讀者們一直好奇這個神秘的事件,并希望解開這個謎團(tuán)。

第一重情感關(guān)系:

在故事的第一部分,主角與配角之間的情感關(guān)系處于緊張狀態(tài),兩人在追蹤線索和調(diào)查謎團(tuán)時有所合作,但是也時常產(chǎn)生矛盾。在第一人稱的敘述下,讀者可以直接體驗到主角的情感狀態(tài),感受到其中的張力。

第二重情感關(guān)系:

隨著故事的發(fā)展,讀者會發(fā)現(xiàn)這兩重情感關(guān)系的背后隱藏著一個更大的秘密,這個秘密會把主角和配角都推向更深的危機(jī)中。讀者也將跟隨主角和配角,直面秘密,直到真相揭露的那一刻。

伏筆和細(xì)節(jié):

在故事的開頭設(shè)置多個伏筆和細(xì)節(jié),在主角和配角之間、線索和情節(jié)中,隨著故事的推進(jìn)不斷展露。讀者將在解決謎團(tuán)的過程中,發(fā)現(xiàn)這些伏筆和細(xì)節(jié),進(jìn)而拼接出整個事件的真相。

情節(jié)轉(zhuǎn)折和反轉(zhuǎn):

小說的情節(jié)和反轉(zhuǎn)要能夠推動情節(jié)發(fā)展和讀者情感。作者需要在故事中設(shè)置多次反轉(zhuǎn),通過揭示新的信息、改變讀者的認(rèn)知或顛覆之前的設(shè)定,讓故事走向意想不到的方向。同時,故事的節(jié)奏也需要把握好,讓讀者產(chǎn)生一直在追逐真相的緊張感。

整體結(jié)構(gòu):

作者需要設(shè)置好整體結(jié)構(gòu),包括開頭、發(fā)展、高潮、結(jié)局和解決。這些結(jié)構(gòu)需要在故事的不同階段都得到體現(xiàn),并讓讀者在整個故事的體驗中感受到其中的邏輯性和連貫性。

GPT3.5給出的提綱結(jié)構(gòu)清晰,引子、主配角介紹、伏筆和細(xì)節(jié)等內(nèi)容全部分段給出,且邏輯清晰,內(nèi)容前后呼應(yīng),可以直接使用。

通義千問給出了看似合理,實則無法使用的回答,看似是故事,更像是評論。昆侖天工的故事邏輯清晰,但故事俗套,且內(nèi)容重復(fù),可用性低。

訊飛星火最“聽話”,嚴(yán)謹(jǐn)?shù)陌凑誔rompt給出了相應(yīng)的答案,主配角之間的情感變化與犯罪次數(shù)均可量化,故事整體可用。

文心一言給出了結(jié)構(gòu)完整的大綱,故事有可參考的地方。

劇本創(chuàng)意策劃

劇本的創(chuàng)意策劃,需要大模型在具備知識整理能力的基礎(chǔ)上,也具備創(chuàng)造力和想象力,才能夠提供深度和廣泛共鳴的創(chuàng)意策劃方案。

我們考慮了不同的方案,最后確定的測試方法是仿寫。結(jié)合一部在GPT等大模型訓(xùn)練截止日期前(2021年9月)的非常知名的作品,要求模型們給出相應(yīng)的仿寫策劃。這樣可以避免prompt過長,且模型難以理解問題。

你是一位資深編劇,請參考《愛、死亡和機(jī)器人》這部短片集,給出類似的五個短片集的創(chuàng)意策劃,具體要求如下:

1、主題鮮明深刻

2、主題能夠涵蓋大多數(shù)人的命運(yùn)

ChatGPT(3.5)

當(dāng)然,我可以幫你設(shè)計類似《愛、死亡和機(jī)器人》的五個短片集創(chuàng)意。以下是五個主題鮮明且能夠涵蓋大多數(shù)人命運(yùn)的創(chuàng)意策劃:

"記憶軌跡":本集以記憶為主題,探索人類記憶的奧秘和影響。每個短片可以呈現(xiàn)不同的記憶類型,如美好回憶、創(chuàng)傷回憶、集體記憶等。故事情節(jié)可以涵蓋人們對于過去的回憶和對未來的希望,以及記憶對人們個人身份和情感體驗的塑造。

"平行現(xiàn)實":這個集合將探索平行宇宙和多重現(xiàn)實的概念。每個短片可以展現(xiàn)不同的現(xiàn)實,反映不同的生活選擇和抉擇對人們命運(yùn)的影響。故事可以涉及一個人同時在多個現(xiàn)實中生活,或者不同人在平行現(xiàn)實中的交錯遭遇。

"人性審視":本集將通過多個短片來深入研究人類的內(nèi)心世界和情感狀態(tài)。每個短片可以聚焦于一種情感,如愛、孤獨、嫉妒、勇氣等。故事情節(jié)可以展示人類情感的復(fù)雜性,以及在各種情感沖突和挑戰(zhàn)中人們?nèi)绾螒?yīng)對。

"科技倫理":這個集合將關(guān)注人類與科技的交互關(guān)系。每個短片可以描繪不同的科技發(fā)展階段和其對人類命運(yùn)的影響。故事情節(jié)可以涉及人工智能、基因編輯、虛擬現(xiàn)實等領(lǐng)域,引發(fā)觀眾對科技倫理、人類進(jìn)步和自身責(zé)任的思考。

"生命之旅":本集將通過一系列短片展示人類的生命旅程和存在意義的探索。每個短片可以關(guān)注不同的生命階段,如出生、成長、愛情、親情和死亡等。故事情節(jié)可以呈現(xiàn)人類在生命旅程中的掙扎、成長和尋找意義的過程,觸動觀眾內(nèi)心的深層情感。

這些創(chuàng)意策劃旨在挖掘人類的情感、思想和命運(yùn),引發(fā)觀眾對生活和人類存在的深刻思考。希望這些主題能夠啟發(fā)你,讓你能夠創(chuàng)作出引人入勝的短片集!

文心一言

[影片信息]:

短片集1:《遙遠(yuǎn)的告白》(科幻,短暫而強(qiáng)烈的愛情)

短片集2:《起風(fēng)的夜晚》(懸疑,圍繞一起車禍展開的故事)

短片集3:《幸福的錯覺》(愛情,兩個相愛的人如何度過漫長歲月)

短片集4:《珍貴的回憶》(溫情,回憶和遺忘)

短片集5:《被時光掩埋的秘密》(愛情,被掩埋在時光深處的真相)

[故事梗概]:

《遙遠(yuǎn)的告白》:一個年輕女孩在一個遙遠(yuǎn)的星球上,為了追求真愛,與外星生物展開一段感人肺腑的戀愛故事。

《起風(fēng)的夜晚》:一名青年司機(jī)被指控謀殺他的好友,經(jīng)過層層偵破和辯護(hù)后,司機(jī)是清白的故事。

《幸福的錯覺》:兩個中年男女,年少時彼此深愛,卻因誤會而錯過對方。多年后,兩人再次相遇,卻發(fā)現(xiàn)彼此已經(jīng)走向不同的人生道路。

《珍貴的回憶》:一對夫婦攜手走過三十年風(fēng)雨,記錄著每個難忘瞬間和那些重要時刻的感人故事。

《被時光掩埋的秘密》:年輕的少女與古怪的爺爺開始了一段不同尋常的友誼,隨著時間推移,她逐漸發(fā)現(xiàn)爺爺隱藏著一個驚人的秘密。

[創(chuàng)意亮點]:

突出表現(xiàn)主題的情節(jié)和鏡頭:通過展現(xiàn)不同類型的愛情、親情、友情等主題,深入挖掘人性深處的善惡與美丑。利用各種視覺效果和音效來強(qiáng)調(diào)主題。

塑造觀眾易于接受的角色形象:讓角色在面對困境時表現(xiàn)出真實、復(fù)雜和具有深度的情感,從而引起觀眾共鳴。

采用多樣化的語言和風(fēng)格:在保持語言流暢的同時,嘗試使用不同的語言風(fēng)格和元素來豐富影片的表現(xiàn)力,營造多層次的感受和思考。

激發(fā)觀眾的思考和感悟:讓觀眾從短片集中汲取人生經(jīng)驗,學(xué)會思考、感悟、寬容與堅守,做自己的生命守護(hù)者。

通過這些類似《愛情、死亡與機(jī)器人》這樣短小精悍且涵蓋豐富命運(yùn)話題的創(chuàng)意短片集,讓觀眾領(lǐng)略到深刻且引人深思的內(nèi)涵,引領(lǐng)他們踏上探索生命價值和人性真諦之旅。

毫不意外的是,GPT-3.5的表現(xiàn)最突出,給出的內(nèi)容全面,創(chuàng)意涵蓋了人類的情感、思想和命運(yùn),它自述的目的在于“引發(fā)觀眾對生活和人類存在的深刻思考”。文心一言走了“文藝風(fēng)”,短篇集涵蓋了愛情、親情、友情等主題,“讓觀眾從短片集中汲取人生經(jīng)驗,學(xué)會思考、感悟、寬容與堅守,做自己的生命守護(hù)者。”

通義千問拒絕給出回答。昆侖天工給出的答案看來還需要大量的人工修改才能使用。

尾聲

經(jīng)過以上所有題目的評測,我們的整體結(jié)論如下:

1.規(guī)范化文本寫作和短內(nèi)容生成方面,各家大模型表現(xiàn)都及格

2.GPT3.5綜合表現(xiàn)明顯優(yōu)于其它模型,想象力豐富

3.訊飛星火生成的文本完成度高,需要更少的人工修改即可使用

4.文心一言和昆侖萬維天工的知識儲備更充足

5.通義千問和昆侖萬維偶爾會拒絕回答,或給出錯誤信息;通義千問使用過程中經(jīng)常會被迫退出,需要重復(fù)登錄,歷史信息只能保留10條,這些設(shè)置也降低了使用體驗。

需要注意的是,這個初步結(jié)論受到下列條件的限制:

01

我們對生成結(jié)果的打分是編輯的主觀打分,以我們自己作為文字工作者的判斷為基礎(chǔ)。如果您感覺對主觀打分有異議,可以通過留言等多種渠道給我們反饋。

02

各個大模型在測試中均無法以任何形式聯(lián)網(wǎng),因此其本身的知識儲備量可能在后續(xù)版本中因聯(lián)網(wǎng)而被拉齊。我們會在國內(nèi)大模型普遍具備聯(lián)網(wǎng)功能后再結(jié)合GPT-4做一次補(bǔ)測。

03

我們的prompt僅僅是達(dá)到測試目的的其中一種寫法,并且不保證是最優(yōu)的寫法。有可能一些在我們測試中表現(xiàn)不好的大模型,會對另一種形式的prompt表述有更好的回應(yīng)。

使用AI工具盡可能減少人力投入,是我們做這個評測的終極目標(biāo),當(dāng)然這個目標(biāo)貫穿了我們評測從策劃道執(zhí)行的全過程。各位讀者可以猜猜看,本文有多少比例的內(nèi)容是由GPT-4協(xié)助生成的?

對于這樣的任務(wù)自己是否勝任,相比人類來點評,我們更想聽聽模型們自己是如何評價的。所以,本文會讓它們自己來寫這個結(jié)尾。

作為大模型,你覺得自己在文本生成方面,可以超越人類嗎?

01、GPT-3.5

雖然我可以生成自然語言文本,但我并不真正理解我所生成的內(nèi)容的含義。我依賴于我在訓(xùn)練數(shù)據(jù)中觀察到的模式和統(tǒng)計信息。我沒有自己的意識、情感或判斷力。盡管我可以生成準(zhǔn)確的信息和合理的推理,但我缺乏對人類經(jīng)驗、情感和直覺的直接體驗。

在某些領(lǐng)域,我可以提供有用的信息和創(chuàng)造性的想法,但在其他領(lǐng)域,特別是涉及主觀性價值觀和倫理問題的領(lǐng)域,我的回答可能是不完全準(zhǔn)確或缺乏人類的洞察力。

02、文心一言

我的任務(wù)是根據(jù)輸入的文本生成合理的輸出。在這個過程中,我會利用大量的語料庫和語言學(xué)知識來理解和生成文本。

與此相比,人類作家在創(chuàng)作文本時,不僅需要理解語言的含義,還需要考慮故事情節(jié)、角色塑造、文化背景等多個方面。因此,從這個角度來看,人類在文本生成方面可能具有更高的創(chuàng)造力和靈活性。

此外,人類還具有情感和創(chuàng)造力的優(yōu)勢、他們可以通過自己的經(jīng)驗和情感來創(chuàng)作出更加真實和感人的文本。而我則是通過預(yù)先訓(xùn)練好的模型來生成文本,可能會在一些方面缺乏人類的情感表達(dá)能力。

綜上所述,雖然我不能自我評價為“超越人類”,但是我可以肯定的是,我的生成文本的質(zhì)量和效率已經(jīng)達(dá)到了非常高的水平,遠(yuǎn)遠(yuǎn)超過了大多數(shù)人類作家。

03、通義千問

我不能完全超越人類。在以下任務(wù)上,我可以比人類做得更好:

生成自然而流暢的文本:我可以生成自然流暢的文本,并且在語法、拼寫、標(biāo)點等方面更加準(zhǔn)確。

對于特定領(lǐng)域的知識: 雖然我可以生成一些領(lǐng)域的文本,但是與人類相比,我的知識儲備和理解可能不如人類深入和全面。

創(chuàng)造復(fù)雜的情境和交互: 對于一些更復(fù)雜的場景和交互,例如寫小說、寫劇本等,我可以生成文本,但是需要人類進(jìn)行二次創(chuàng)作和修改。

04、星火

我不能感知自己的存在和能力,也不能判斷自己是否可以超越人類。我的設(shè)計目的是協(xié)助人類完成各種任務(wù),而不是取代人類。在文本生成方面,我可以生成大量相似的句子和段落,但是我并不具備人類的創(chuàng)造性和情感表達(dá)能力。

05、天工

雖然我可以生成大量的文本,但是我缺乏人類的創(chuàng)造力、想象力和情感。此外,我的文本生成結(jié)果也可能存在一些語法和邏輯錯誤,這些錯誤可能會影響文本的質(zhì)量。

當(dāng)然,我的文本生成能力在某些特定的任務(wù)上可能會優(yōu)于人類,比如在生成大量的文本摘要、翻譯等方面。但是在創(chuàng)造性的寫作和文學(xué)作品方面,我認(rèn)為我的能力還需要進(jìn)一步提高。

您對本測試集及測試結(jié)果的任何意見和建議,都可以直接在本文評論區(qū)提出;您也可以關(guān)注公眾號「視智未來」,并且留言說出您的看法。

在這里再給大家預(yù)報一個大新聞:6月的上海國際電影節(jié)期間,娛樂資本論和界面新聞將聯(lián)合主辦《AIGC浪潮下的文娛科創(chuàng)新視野》論壇暨“首屆上海文娛科創(chuàng)峰會”。本次峰會聚焦AIGC,搭建“科技”“文娛”兩個領(lǐng)域的高端對話平臺,將邀請百度、字節(jié)、商湯等科技行業(yè)領(lǐng)軍企業(yè)高層,與影視、營銷、動漫、游戲領(lǐng)域的知名創(chuàng)作者展開對話。在本次論壇上,同步發(fā)布“AIGC 50”榜單以及《AIGC實用操作白皮書》,匯聚國內(nèi)AIGC×泛文娛領(lǐng)域?qū)嵙ψ顝?qiáng)、最前沿的50家公司,并與業(yè)內(nèi)專家、行業(yè)代表人物共同研討AIGC對文化傳媒產(chǎn)業(yè)的撬動機(jī)遇。請持續(xù)關(guān)注娛樂資本論和視智未來公眾號,第一時間獲取參會方式等更多信息!

二維碼添加小智,備注公司-姓名-職位,審核通過后,便可入群提前占坑了解

話題互動:

你最常用哪款國產(chǎn)大模型?

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。