文|新莓daybreak 史圣園
編輯|翟文婷
百度高調(diào)發(fā)布文心大模型4.0,再次將人們的目光聚焦在生成式AI。
李彥宏的說(shuō)法是,與GPT4相比,文心 4.0的綜合水平已經(jīng)毫不遜色,理解、生成、邏輯和記憶四大能力,都有明顯提升。
基礎(chǔ)模型的能力決定著AI 原生應(yīng)用的可能性。
AI 時(shí)代,搭建應(yīng)用的技術(shù)成本顯著降低,最重要的還是找到「場(chǎng)景」。未來(lái)將有大量的大模型應(yīng)用井噴,已成為行業(yè)內(nèi)、投資圈的共識(shí)。問(wèn)題在于,什么時(shí)候才能產(chǎn)生真正意義上的AI爆款應(yīng)用?
百度的解題方法是,一方面押注自己,將既有產(chǎn)品線用 AI重構(gòu);另一方面也將籌碼均勻分布到「生態(tài)」。百度智能云應(yīng)用商店、靈境插件平臺(tái),試圖搭建 AI 時(shí)代的 App Store,擴(kuò)大命中「殺手級(jí)應(yīng)用」的概率。
問(wèn)題是,百度如何才能避免讓這種熱情淪為一廂情愿呢?
畢竟現(xiàn)實(shí)是,C端用戶使用AI應(yīng)用的頻次并不高,找不到打開(kāi)AI的正確方式;B端客戶采買的決策鏈路復(fù)雜漫長(zhǎng),同時(shí)擔(dān)心數(shù)據(jù)安全。這個(gè)行業(yè)癥結(jié),百度是否有正確解法?
喊話 GPT 4
學(xué)界普遍認(rèn)為,參數(shù)規(guī)模越大,模型的通用能力越強(qiáng)。
此次發(fā)布會(huì)上,李彥宏沒(méi)有提及文心大模型 4.0 的參數(shù)規(guī)模,而是著重展現(xiàn)了貼合生活場(chǎng)景的模型能力。據(jù)《晚點(diǎn) LatePost》報(bào)道,該版本參數(shù)規(guī)?;蜻_(dá)到萬(wàn)億級(jí)別。
李彥宏依次展示了文心大模型的四大能力:
·理解能力,他用公積金異地貸款為例,展示文心 4.0 對(duì)于前后亂序、表述模糊、潛臺(tái)詞洞察的能力。
·生成能力,讓大模型根據(jù)需求,生成一整套汽車的營(yíng)銷素材,包括文案、海報(bào)、視頻等多模態(tài)內(nèi)容。
·邏輯能力,舉例的場(chǎng)景是家長(zhǎng)輔導(dǎo)功課,文心一言給孩子講解數(shù)學(xué)題,包括解題思路、計(jì)算過(guò)程,以及知識(shí)點(diǎn)的延伸。
·記憶能力則是通過(guò)小說(shuō)創(chuàng)作的案例,不斷補(bǔ)充人物關(guān)系、戲劇沖突等細(xì)節(jié),展示大模型在多輪對(duì)話中的記憶力。
值得一提的是,這四個(gè)場(chǎng)景均跟生活和工作中的「生產(chǎn)力」相關(guān),強(qiáng)調(diào)切實(shí)的信息價(jià)值,弱化了休閑娛樂(lè)場(chǎng)景的陪伴、互動(dòng)能力??雌饋?lái),文心一言的定位更像是一個(gè)「萬(wàn)金油」助手。
主動(dòng)發(fā)出這樣的信號(hào),或許說(shuō)明百度對(duì)模型能力有著更高的要求,想要積累更多的高質(zhì)量用戶數(shù)據(jù)。大模型的幻覺(jué)、行業(yè)知識(shí)的缺乏,是其廣泛落地的最大障礙。
娛樂(lè)場(chǎng)景的閑聊,雖然門檻低、有趣、易傳播,更容易積累大量的語(yǔ)料,單個(gè)用戶就能在一天中聊幾百個(gè)來(lái)回,但這些數(shù)據(jù)對(duì)底層模型的知識(shí)提升較為有限。而行業(yè)用戶所提出的問(wèn)題、給出的反饋,才能真的讓大模型更懂業(yè)務(wù)場(chǎng)景。
新莓 daybreak 選取了一個(gè)注冊(cè)會(huì)計(jì)師考試題目,來(lái)實(shí)際測(cè)試文心 4.0和 GPT-4 目前的能力。該題目的計(jì)算過(guò)程,涉及 4 個(gè)解題步驟。
很遺憾,中外兩款大模型都未能正確回答,但均給出了解題思路。目前線上版本的文心一言依靠文心3.5模型,在第一步就出現(xiàn)了計(jì)算錯(cuò)誤;而文心 4.0 和GPT-4 均是在第三步出現(xiàn)了計(jì)算錯(cuò)誤。由此看來(lái),各家大模型的推理能力均有待加強(qiáng)。
CPA考題,各家大模型均計(jì)算錯(cuò)誤
當(dāng)我們提示「計(jì)算步驟中是否出現(xiàn)數(shù)據(jù)錯(cuò)誤」時(shí),GPT-4 修正了數(shù)據(jù)錯(cuò)誤,并給出了正確回答;而文心3.5、4.0 均開(kāi)啟了另一個(gè)話題,試圖說(shuō)明「數(shù)據(jù)計(jì)算出現(xiàn)錯(cuò)誤」是什么原因,雖然文心4.0的解釋更翔實(shí),但它并未能理解這句指示的真正意圖。GPT-4的上下文記憶和理解能力,目前略勝一籌。
GPT4 在用戶提示下修正了錯(cuò)誤
以上測(cè)試,均是在未經(jīng)微調(diào)的通用應(yīng)用上進(jìn)行的測(cè)試。在實(shí)際應(yīng)用時(shí),往往需要用業(yè)務(wù)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào);然而,通用大模型在某個(gè)特定任務(wù)上的能力上升,可能會(huì)伴隨著其他場(chǎng)景上的能力下降。因此,針對(duì)不同的領(lǐng)域任務(wù),推出不同的微調(diào)接口,對(duì)于實(shí)際應(yīng)用尤為重要。
一些企業(yè)客戶已經(jīng)開(kāi)始接入文心4.0體驗(yàn)測(cè)試,某金融機(jī)構(gòu)的IT部門告訴新莓daybreak,4.0版本的知識(shí)問(wèn)答能力比之前有較大的提升。
AI重構(gòu)應(yīng)用
「沒(méi)有構(gòu)建于基礎(chǔ)模型之上的豐富的 AI 原生應(yīng)用,大模型就一文不值?!估顝┖暾f(shuō)。他認(rèn)為,AI 原生應(yīng)用就是基于大模型的理解、生成、邏輯和記憶能力開(kāi)發(fā)出來(lái)的應(yīng)用。
此前,李彥宏曾從更感性的角度給出 AI 原生應(yīng)用的定義。除了以上四點(diǎn)技術(shù)能力外,還需要滿足兩個(gè)條件:能用自然語(yǔ)言交互、每個(gè)功能不超過(guò)兩級(jí)菜單。
換言之,AI 原生應(yīng)用,應(yīng)該是簡(jiǎn)單、直覺(jué)、輕量的。
改革先從自家的產(chǎn)品做起,百度搜索、網(wǎng)盤、文庫(kù)、地圖、智能辦公(如流)、輸入法等全線產(chǎn)品,都進(jìn)行了 AI 化改造。
先來(lái)看搜索。百度曾靠搜索起家,后來(lái)知乎、微博、小紅書(shū)、B站,紛紛搶占了用戶的搜索時(shí)間。
早在2年前,抖音的搜索月活達(dá)5.5億次+,快手搜索月活達(dá)3億次+,單日視頻搜索量達(dá)2.5億次+;截至2023年2月,小紅書(shū)日均搜索查詢量達(dá)3億次。比起各類社交媒體上的專業(yè)領(lǐng)域KOL,百家號(hào)、貼吧構(gòu)筑的內(nèi)容池,顯得吸引力不足。另一方面,僅能命中文本關(guān)鍵詞的搜索形式,無(wú)法很好地搜索圖片、視頻等內(nèi)容,已經(jīng)無(wú)法滿足多元的搜索需求。
這一次,百度搜索想借助 AI 變得更懂用戶。李彥宏介紹,「新搜索不再是給你一堆鏈接,而是通過(guò)大模型去理解,生成一個(gè)最好的答案?!顾麑⑿滤阉鞯奶攸c(diǎn)歸納為「極致滿足、推薦激發(fā)、多輪交互」。
用大白話說(shuō),搜索引擎不再只是按照你輸入的關(guān)鍵詞搜內(nèi)容,而是跟你聊天,并將結(jié)果整理成更易懂、易用的通俗語(yǔ)言。如果「對(duì)話」是搜索未來(lái)的產(chǎn)品形態(tài),那么被顛覆的不僅是用戶體驗(yàn),還有搜索引擎的商業(yè)模式。
AI 搜索,不再是搬運(yùn)內(nèi)容,而是在創(chuàng)造內(nèi)容。
如果當(dāng) AI 的創(chuàng)造包含廣告的成分,且不加以區(qū)分,那么用戶將無(wú)法信任搜索的結(jié)果。如果限制商業(yè)行為對(duì)AI回復(fù)的干擾,那么競(jìng)價(jià)排名的廣告收入勢(shì)必會(huì)受影響。目前,線上使用的百度搜索仍然是老版本,只是多了一個(gè)喚起 AI 助手的入口。
百度文庫(kù)、百度網(wǎng)盤也紛紛在各自的界面上加入了 AI 助手。網(wǎng)盤助手和文庫(kù)助手都可以幫助用戶總結(jié)內(nèi)容、提煉要點(diǎn)。功能都是好功能,但放在一起,不免讓人覺(jué)得,各條產(chǎn)品線的 AI 助手大同小異。
讓人眼前一亮的是 AI 版輸入法。百度輸入法的 AI 功能叫「超會(huì)寫」,主打「讓你社交溝通不再精神內(nèi)耗」,洞察到了一個(gè)剛需、高頻、且對(duì)生成文案容錯(cuò)率較高的場(chǎng)景。但目前,點(diǎn)擊輸入欄的按鈕喚起AI的交互,還是略顯刻意。AI功能和輸入法的融合,微信輸入法更潤(rùn)物細(xì)無(wú)聲,將輸入本身變成召喚術(shù):在輸入文字后,自動(dòng)聯(lián)想到優(yōu)化表達(dá)、喚起音樂(lè)等貼合場(chǎng)景的需求。
微信輸入法的AI喚醒方式更加自然
百度 AI 原生應(yīng)用商店也一并上線,截止 10 月 22 日,共有 55 款應(yīng)用。生態(tài)中的智能應(yīng)用,集中在智能客服、AI輔助寫作、專業(yè)知識(shí)問(wèn)答等幾個(gè)場(chǎng)景,和百度自有產(chǎn)品線的應(yīng)用場(chǎng)景高度重合,但多了一些行業(yè)屬性。
如何先用起來(lái)
阻礙 B 端用戶應(yīng)用大模型的,主要是成本和預(yù)期的問(wèn)題。無(wú)論規(guī)模,企業(yè)們都非??粗?cái)?shù)據(jù)的私密性。
Cathy 是一家大模型公司的解決方案工程師,她說(shuō),即使是云端私有化的方式,一些客戶還是感到不安。「客戶最開(kāi)始試驗(yàn)的,都是一些對(duì)數(shù)據(jù)安全要求不太嚴(yán)格的功能。但如果后續(xù)想要一些深度功能,就紛紛都要求私有化了?!?/p>
但如果要將大模型做私有化部署,價(jià)格往往需要幾千萬(wàn)元,整個(gè)決策鏈路就要被無(wú)限拉長(zhǎng)。
David 所在的創(chuàng)業(yè)科技公司長(zhǎng)期服務(wù)企業(yè)客戶。不僅是他們,客戶公司的部門領(lǐng)導(dǎo)也更喜歡短平快、立竿見(jiàn)影的小項(xiàng)目,讓自己的部門先做起來(lái)?!复笮蜋C(jī)構(gòu)的招投標(biāo),如果從部門上升到整個(gè)公司層面,就會(huì)變得極其復(fù)雜?!?/p>
「客戶的需求都比較理想化,他們都希望用稍微小一點(diǎn)的模型,最好可以私有化部署,然后還能達(dá)到很好的效果?!笵avid 說(shuō),經(jīng)過(guò)他們測(cè)試,如果企業(yè)內(nèi)部的數(shù)據(jù)質(zhì)量足夠高,在 6B、13B 的小參數(shù)模型上進(jìn)行特定任務(wù)訓(xùn)練,也能達(dá)到相對(duì)理想的效果。
David還補(bǔ)充道,「不僅僅是私有化的成本,單次推理的成本也會(huì)更低,速度還會(huì)更快。我的親身體會(huì)是,小參數(shù)的模型,客戶接受起來(lái)更容易一些?!?/p>
而對(duì)于大多數(shù) C 端用戶來(lái)說(shuō),真正使用 AI 的頻次并不高。一些 AI 應(yīng)用的定價(jià)從側(cè)面證實(shí),用戶訂閱 AI 服務(wù)頗有點(diǎn)沖動(dòng)消費(fèi)的意味?!笧?AI 付費(fèi),感覺(jué)像是辦了個(gè)健身房的年卡會(huì)員,是在消費(fèi)一種『我會(huì)更加高效』的感覺(jué)。」
海外用戶量較大的兩款文檔處理類 AI 工具,ChatPDF 和 PDF.ai,都將月度會(huì)員的權(quán)益放大到幾乎「無(wú)限次使用」,再收取十幾美元的價(jià)格。
這兩款產(chǎn)品都出自個(gè)人開(kāi)發(fā)者之手,他們沒(méi)有賠本賺吆喝的必要。從實(shí)際使用情況來(lái)看,很少有用戶高頻使用,十幾美元就足夠覆蓋用戶消耗的成本。用戶使用程度不夠深入,或許也說(shuō)明,AI 現(xiàn)有的能力,并沒(méi)有達(dá)到用戶的期待。
但也不是絕對(duì)的。程序員是為數(shù)不多認(rèn)真在使用 AI 產(chǎn)品的人群。
GitHub Copilot 的售價(jià)也是每月10美元,華爾街日?qǐng)?bào)卻報(bào)道稱,平均每位付費(fèi)用戶每月給微軟帶來(lái)了20 美元的虧損。從另一個(gè)角度看,微軟每月用 20 美元的價(jià)格,雇傭了一個(gè)認(rèn)真的用戶,提供高質(zhì)量的數(shù)據(jù)幫他們訓(xùn)練 AI。
人人都知道下一個(gè)機(jī)會(huì)在應(yīng)用層,可是找準(zhǔn)場(chǎng)景、利用 AI 絲滑地升級(jí)現(xiàn)有產(chǎn)品,又談何容易。
企業(yè)用戶還在擔(dān)心數(shù)據(jù)安全,大量個(gè)人用戶找不到 AI 的正確打開(kāi)方式。大模型想要兌現(xiàn)商業(yè)價(jià)值,似乎長(zhǎng)路漫漫。
而百度的搶跑似乎在告訴我們,快人一步,至少意味著更多空間和可能。