文|獵云網(wǎng) 孫媛
“這不降維battle訊飛嗎?”
昨日,在朋友圈一張通義聽(tīng)悟的專屬口令福利海報(bào)下,一位媒體工作者留言道。
彼時(shí)在粵港灣大灣區(qū)的廣州,阿里云CTO周靖人對(duì)通義聽(tīng)悟給出了如下描述:作為一款工作學(xué)習(xí)AI助手,聽(tīng)悟瞄準(zhǔn)具有高知識(shí)附加值的音視頻內(nèi)容場(chǎng)景,比如開(kāi)會(huì)、上課、訪談、培訓(xùn)、面試、直播、看視頻、聽(tīng)播客等,能通過(guò)大模型等最新AI技術(shù)快速提煉和沉淀知識(shí)。
一言以蔽之,就是聽(tīng)力好、悟性高,可以幫人隨時(shí)隨地高效完成對(duì)音視頻內(nèi)容的轉(zhuǎn)寫(xiě)、檢索、摘要和整理,比如自動(dòng)做筆記、整理訪談、提取PPT等。而這正是訊飛腹地——訊飛聽(tīng)見(jiàn)的主戰(zhàn)場(chǎng)。
有意思的是,此前5月,同樣也在粵港灣大灣區(qū),只不過(guò)在澳門(mén),科大訊飛亮相了其大模型軟件產(chǎn)品“訊飛聽(tīng)見(jiàn)會(huì)寫(xiě)”,就是基于對(duì)音頻文件的內(nèi)容AI分析,自動(dòng)生成會(huì)議紀(jì)要、工作代辦、工作計(jì)劃,并支持基于原文內(nèi)容進(jìn)行AI對(duì)話和內(nèi)容追溯。
簡(jiǎn)單來(lái)看,不僅功能類同,甚至展示的選址都相近。
會(huì)上,阿里云也毫不掩飾自己要挑戰(zhàn)智能語(yǔ)音轉(zhuǎn)寫(xiě)頭部的野心,直接拿出了互聯(lián)網(wǎng)慣用的“補(bǔ)貼換用戶”的攻城略地式營(yíng)銷策略。公測(cè)期間,大量發(fā)放20小時(shí)轉(zhuǎn)寫(xiě)口令碼,甚至權(quán)益可累加達(dá)免費(fèi)時(shí)長(zhǎng)100小時(shí)以上,以訊飛聽(tīng)見(jiàn)App中文/英文機(jī)器快轉(zhuǎn)標(biāo)準(zhǔn)價(jià)格0.33元/分鐘來(lái)計(jì)算,聽(tīng)悟100小時(shí)免費(fèi)時(shí)長(zhǎng)可以說(shuō)是給目標(biāo)用戶節(jié)省1980元的支出。
不管如何,先說(shuō)一句,補(bǔ)貼“真香”。
對(duì)標(biāo)訊飛,聽(tīng)悟有何不同
事實(shí)上,這不是獵云網(wǎng)第一次接觸到聽(tīng)悟。在之前的云棲大會(huì)上,聽(tīng)悟就有內(nèi)測(cè)版本,已經(jīng)有離線語(yǔ)音/視頻轉(zhuǎn)寫(xiě)、實(shí)時(shí)轉(zhuǎn)寫(xiě)、角色分離、分屏記錄等功能。但當(dāng)時(shí),阿里云的低調(diào)內(nèi)測(cè)算是點(diǎn)到為止,好奇者先行。
時(shí)至今日,接入大模型能力的“通義聽(tīng)悟”,作為一個(gè)大模型版的聚焦音視頻內(nèi)容的工作學(xué)習(xí)AI助手,融合了研發(fā)團(tuán)隊(duì)在推理、對(duì)齊和對(duì)話問(wèn)答等方面的研究成果,不僅能完成錄音轉(zhuǎn)寫(xiě),還能一鍵總結(jié)全文及不同發(fā)言人觀點(diǎn),顯然也跟之前版本有較大提升。
根據(jù)周靖人所說(shuō),聽(tīng)悟有兩層含義,首先是“聽(tīng)”,能夠聽(tīng)清內(nèi)容,第二層含義是要“悟”,能夠要理解其中的意思,真正為日常的工作、學(xué)習(xí)提高效能。故而此次獵云網(wǎng)的簡(jiǎn)單測(cè)評(píng)也主要圍繞這兩點(diǎn)展開(kāi)。
首先,要想嘗試此次公測(cè)版本,目前微信小程序端不支持實(shí)時(shí)轉(zhuǎn)寫(xiě),主要還是通過(guò)通義聽(tīng)悟官網(wǎng)進(jìn)行使用,同時(shí)可以關(guān)聯(lián)自己的阿里云盤(pán),進(jìn)行音視頻內(nèi)容導(dǎo)入。語(yǔ)音轉(zhuǎn)換上,可以開(kāi)啟實(shí)時(shí)記錄(實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字)和上傳音視頻(音視頻轉(zhuǎn)文字)兩種方式來(lái)實(shí)現(xiàn)。
在進(jìn)行實(shí)時(shí)記錄并同步翻譯測(cè)試上,獵云網(wǎng)采用了B站上TED官方標(biāo)題為《ChatGPT如此強(qiáng)大,AI的崛起讓人類何去何從?》的視頻語(yǔ)音。在同步翻譯的過(guò)程中,可以發(fā)現(xiàn)比對(duì)中文字幕,聽(tīng)悟的翻譯結(jié)果總體意思理解尚可,但是在語(yǔ)句在翻譯的順序上有所偏差,譬如“在關(guān)于未來(lái)工作真正有用的東西”,聽(tīng)悟的結(jié)果為“有用的關(guān)于工作的未來(lái)”,同時(shí)可能存在部分缺漏的翻譯情況,譬如“他們可能會(huì)搶走我們所有的工作”,關(guān)于“搶走”這個(gè)動(dòng)詞沒(méi)有體現(xiàn)。
來(lái)源:獵云網(wǎng)
在音視頻轉(zhuǎn)文字測(cè)試上,獵云網(wǎng)采用了訊飛聽(tīng)見(jiàn)錄音筆錄制的一段內(nèi)容,通過(guò)上傳阿里云盤(pán),同步到聽(tīng)悟進(jìn)行語(yǔ)音轉(zhuǎn)換,發(fā)現(xiàn)就微弱語(yǔ)音的信息捕捉上,聽(tīng)悟優(yōu)于訊飛聽(tīng)見(jiàn),捕捉了一句訊飛聽(tīng)見(jiàn)未轉(zhuǎn)換的內(nèi)容,而轉(zhuǎn)換的準(zhǔn)確度上,訊飛聽(tīng)見(jiàn)更勝一籌,跟錄音內(nèi)容一致,但聽(tīng)悟會(huì)出現(xiàn)個(gè)別詞的錯(cuò)誤轉(zhuǎn)換。
來(lái)源:獵云網(wǎng)
雖然在聽(tīng)上,聽(tīng)悟從此次測(cè)試比對(duì)上總體看略遜色于訊飛聽(tīng)見(jiàn),但悟的理解及分析能力著實(shí)讓人眼前一亮,就獵云網(wǎng)提供的錄音來(lái)看,聽(tīng)悟在全文概要、章節(jié)速覽以及關(guān)鍵詞提取上除了個(gè)別字眼的錯(cuò)誤外,整體較為準(zhǔn)確,對(duì)于文字工作者來(lái)說(shuō)其增效明顯。
來(lái)源:聽(tīng)悟截圖
從某種程度上來(lái)說(shuō),通義聽(tīng)悟定位為面向工作、學(xué)習(xí)的AI助手,是實(shí)至名歸。通義聽(tīng)悟雖然現(xiàn)在才進(jìn)行公測(cè),但早在阿里巴巴內(nèi)部開(kāi)展使用,并經(jīng)歷了從聽(tīng)到悟的升級(jí)過(guò)程。
據(jù)通義聽(tīng)悟技術(shù)負(fù)責(zé)人鄢志杰透露,過(guò)去很多項(xiàng)目管理的同學(xué)上項(xiàng)目會(huì),例如投資部到外面訪談、盡職調(diào)查,以及人力資源招聘等內(nèi)部場(chǎng)景,聽(tīng)悟更多還是做語(yǔ)音的記錄、簡(jiǎn)單回顧跟整理。但從2019年開(kāi)始,阿里云陸續(xù)在大模型方面進(jìn)行重點(diǎn)研發(fā)跟積累,在基于通義千問(wèn)大模型對(duì)文字和知識(shí)體系的理解+阿里云在音視頻相關(guān)的模型能力,聽(tīng)悟才得以實(shí)現(xiàn)AI能力的場(chǎng)景化。
瞄準(zhǔn)智能語(yǔ)音轉(zhuǎn)寫(xiě),實(shí)則以模型服務(wù)開(kāi)局
正如上文所說(shuō),聽(tīng)悟?qū)?biāo)的是訊飛聽(tīng)見(jiàn),但之所以阿里云先盯上音視頻轉(zhuǎn)寫(xiě)領(lǐng)域,一方面是有著多年語(yǔ)音技術(shù)的積累,另一方面也是瞄準(zhǔn)了科大訊飛在國(guó)內(nèi)智能語(yǔ)音轉(zhuǎn)寫(xiě)市場(chǎng)的核心領(lǐng)地。
自2017年11月訊飛在“用AI為世界賦能”的發(fā)布會(huì)上,“順手”展示了訊飛聽(tīng)見(jiàn)的中英文實(shí)時(shí)字幕,便讓這項(xiàng)堪稱黑科技的產(chǎn)品,讓其在AI 1.0時(shí)代初期,迅速確立了AI龍頭的位置。六年間,訊飛營(yíng)收從2017年的54.45億,一躍增長(zhǎng)至2022年的188.20億,對(duì)應(yīng)28.15%的復(fù)合增速。
其中,訊飛主要提供AI解決方案平臺(tái)、智能硬件(錄音筆)和移動(dòng)互聯(lián)網(wǎng)增值產(chǎn)品(輸入法、訊飛聽(tīng)見(jiàn))的開(kāi)放平臺(tái)及消費(fèi)者業(yè)務(wù),是僅次于教育領(lǐng)域的第二大營(yíng)收來(lái)源。在2020年至2022年,該業(yè)務(wù)的營(yíng)收占比從23.65%增長(zhǎng)至2022年的24.66%。營(yíng)收從30.8億增長(zhǎng)至2022年的46.4億,對(duì)應(yīng)復(fù)合增速為22.74%。
從訊飛的數(shù)據(jù)來(lái)看,智能語(yǔ)音從企業(yè)營(yíng)收以及用戶需求層面是一個(gè)值得切入的好市場(chǎng),除以科大訊飛、搜狗為代表的專業(yè)智能語(yǔ)音企業(yè)外,以阿里云、騰訊云為代表的云服務(wù)廠商,以網(wǎng)易為代表的專業(yè)轉(zhuǎn)寫(xiě)或翻譯廠商等也一直躍躍欲試,頗有三分天下的態(tài)勢(shì)。
這一次,阿里云切入訊飛腹地,也算在意料之中。
只不過(guò)就拿產(chǎn)品和價(jià)格來(lái)說(shuō),目前功能相差不大的情況下,訊飛聽(tīng)見(jiàn)的用戶可能并不一定會(huì)對(duì)聽(tīng)悟太感冒。聽(tīng)悟“補(bǔ)貼”雖香,但不要忘了科大訊飛多年前其憑一招“智能錄音筆用戶享終身免費(fèi)翻錄服務(wù)”,一舉收割了編輯、分析師、律師、HR、學(xué)生等大量市場(chǎng)需求,行業(yè)地位暫時(shí)無(wú)人能及。
據(jù)公開(kāi)資料顯示,科大訊飛的智能錄音筆市場(chǎng)份額在2022年增至44%,在雙十一期間內(nèi)占GMV市場(chǎng)份額的57%,市場(chǎng)份額一直保持第一。
從這個(gè)角度去看,聽(tīng)悟現(xiàn)在高調(diào)殺入智能語(yǔ)音市場(chǎng),為battle訊飛造勢(shì)及免費(fèi)福利派送,更像是阿里云號(hào)召大家來(lái)對(duì)聽(tīng)悟進(jìn)行一次“嘗試”,背后是來(lái)感受通義千問(wèn)大模型的能力。
通義聽(tīng)悟背后依賴通義千問(wèn)大模型,主要基于阿里云一系列技術(shù)投入以及相關(guān)的進(jìn)展,而云和整個(gè)智能化密不可分。
周靖人在4月份有提到過(guò)云智一體等方面內(nèi)容,阿里云從一開(kāi)始設(shè)計(jì)包含云和智能,這是兩個(gè)重要相輔相成的環(huán)節(jié)。他表示,特別是從IaaS、MaaS、PaaS三層的架構(gòu)來(lái)看,所有范疇其實(shí)都是在講云整體的技術(shù),包括通義聽(tīng)悟以及通義千問(wèn),都是云技術(shù)在這個(gè)時(shí)代怎么快速變革、快速應(yīng)對(duì)以及在新時(shí)代浪潮里如何不斷創(chuàng)新。
通義千問(wèn)發(fā)布之后,阿里云就陸續(xù)在全國(guó)推進(jìn)快速部署AI模型的工作,而通義聽(tīng)悟的推出更多像是一種官宣:阿里云不光在算法層面上,還把模型能力提升到產(chǎn)品里面,去服務(wù)到更多開(kāi)發(fā)者或者各行各業(yè)。
也就是說(shuō),在這一波聲勢(shì)之下,阿里云以通義聽(tīng)悟作為MaaS(模型即服務(wù))環(huán)節(jié)下的典型,想讓更多企業(yè)及開(kāi)發(fā)者注意到,通過(guò)把模型訓(xùn)練和模型服務(wù)的成本不斷降低,開(kāi)發(fā)者可以把模型有效使用起來(lái),對(duì)模型進(jìn)行二次開(kāi)發(fā),讓阿里云的AI能力可以集成到他們業(yè)務(wù)中去,進(jìn)行更多云上創(chuàng)新。
有專注大模型研究的投資人表示,語(yǔ)音轉(zhuǎn)文字能力各家其實(shí)差距不大,轉(zhuǎn)寫(xiě)是一般能力,更重要的是能做到丟失重要內(nèi)容的情況下去結(jié)構(gòu)化改寫(xiě)總結(jié)才是突破。
“就通義聽(tīng)悟來(lái)說(shuō),更像是阿里云給通義千問(wèn)大模型找落地場(chǎng)景,以及從數(shù)據(jù)源積累上看也更為合理?!?/p>
卷大模型之爭(zhēng),AI技術(shù)應(yīng)用成焦點(diǎn)
頗有意思的是,這邊通義千問(wèn)降維用通義聽(tīng)悟?qū)?biāo)訊飛聽(tīng)見(jiàn),那邊科大訊飛也以星火大模型飆入國(guó)內(nèi)大語(yǔ)言模型賽道,其CEO劉慶峰還強(qiáng)調(diào)“現(xiàn)在訊飛星火的語(yǔ)言理解能力,不僅在國(guó)內(nèi)是遙遙領(lǐng)先的,跟ChatGPT也僅僅一步之遙”、“我們?cè)诮衲晔路葜熬蜁?huì)超過(guò)(ChatGPT)”。
豪言壯志之下,科大訊飛的一季度財(cái)報(bào)并不好看,營(yíng)業(yè)收入28.88億元,同比減少17.64%;歸屬于上市公司股東的凈利潤(rùn)-5789.53萬(wàn)元,上年同期為盈利1.11億元,營(yíng)收、凈利雙降。當(dāng)然這也部分“歸功”于公司2022年12月15日啟動(dòng)了“1+N認(rèn)知智能大模型專項(xiàng)攻關(guān)”,攻關(guān)項(xiàng)目的新增投入。今年一季度,科大訊飛的研發(fā)投入達(dá)到7.157億,同比增加了近6%。
從聽(tīng)悟PK聽(tīng)見(jiàn),通義千問(wèn)PK星火,不難發(fā)現(xiàn),從這場(chǎng)智能語(yǔ)音的技術(shù)應(yīng)用往上看,實(shí)質(zhì)是大模型的根本較量。
據(jù)不完全統(tǒng)計(jì),2月復(fù)旦大學(xué)發(fā)布MOSS;3月清華大學(xué)發(fā)布ChatGLM-6B、百度發(fā)布文心一言;4月阿里云發(fā)布通義千問(wèn)、知乎發(fā)布知海圖AI;5月,科大訊飛發(fā)布星火、騰訊發(fā)布混元、360發(fā)布360GPT。再到5月31日,百度創(chuàng)始人李彥宏宣布啟動(dòng)“文心杯”創(chuàng)業(yè)大賽,設(shè)立規(guī)模10億元投資基金支持生成式AI領(lǐng)域初創(chuàng)企業(yè),一場(chǎng)從大模型層到應(yīng)用層的AI狂潮正在加速。
從百度智能云在本季度實(shí)現(xiàn)了盈利(non-GAAP)來(lái)看,百度率先吃到了大模型的紅利,而李彥宏也表示計(jì)劃逐步將文心一言融入百度的所有業(yè)務(wù),為產(chǎn)品及服務(wù)賦能,吸引更廣泛的用戶及客戶,圍繞文心一言在新的時(shí)代中建立新生態(tài)。
對(duì)比之下,5月18日阿里云2023財(cái)年?duì)I收增速為3.5%,意味著在生成式AI帶來(lái)了人工智能新模式的變革中,在云之上,阿里云亟需尋求新增量——大模型至關(guān)重要。
在通義聽(tīng)悟發(fā)布前,阿里云就推出了一系列全新的產(chǎn)品和價(jià)格政策,包括AI 大模型通義千問(wèn)的成果展示及行業(yè)探索、推出核心產(chǎn)品降價(jià)和免費(fèi)試用計(jì)劃、大幅提高合作伙伴傭金率等。但萬(wàn)變不離其宗,主要目標(biāo)就是擴(kuò)大阿里云公共云的客戶數(shù)量和用云規(guī)模,并帶動(dòng)各類 AI 模型訓(xùn)練和服務(wù)所需的高性能算力的增長(zhǎng),來(lái)為阿里云的長(zhǎng)遠(yuǎn)發(fā)展構(gòu)建更可持續(xù)的增長(zhǎng)動(dòng)力。
正如周靖人所說(shuō),通義聽(tīng)悟的發(fā)布并不是一個(gè)終點(diǎn),而是一個(gè)新起點(diǎn)。
這場(chǎng)基于大模型的產(chǎn)品和企業(yè)解決方案的較量,序幕已拉開(kāi)。