文|科技新知
過去十年里,技術(shù)的進步可謂翻天覆地,從3G飛躍至5G,再從因特網(wǎng)擴展到萬物互連。與此不同,智能音箱的走勢顯得逆流而上,去年出貨量僅2600萬臺,更有觀點認為這預(yù)示了一場技術(shù)泡沫的破裂。然而,市場轉(zhuǎn)折的跡象似乎已初露頭角。
正如ChatGPT這種先進的生成式AI模型所展現(xiàn)的,它為智能音箱賦予了一種深度的“智慧”,大大提升了用戶交互和內(nèi)容的質(zhì)感,甚至在視覺等領(lǐng)域的多模態(tài)能力,讓其應(yīng)用范圍得到了廣泛拓展。
百度、小米、阿里巴巴等大廠,敏銳地捕捉到這一趨勢并投入資源,寄望于為其智能音箱帶來創(chuàng)新與活力。他們的最新戰(zhàn)略動向,再次確認了對此技術(shù)方向的堅定信念。
不難看出,得益于大模型技術(shù)的嵌入,智能音箱市場的競爭再度激烈。至少在參與者們看來,智能音箱是有望真正轉(zhuǎn)變?yōu)橄乱淮ヂ?lián)網(wǎng)的核心入口,而不只是一個高科技的小玩具。
BAX再度涉足智能音箱競逐
在智能音箱的新故事中,近期小度原CEO景鯤的辭任,成了一個典型的標注。景鯤在2014年進入百度,主管搜索相關(guān)業(yè)務(wù),并自2018年起逐漸成為公眾關(guān)注的焦點。
令人印象深刻的是2018年3月,百度宣布整合三大部門——度秘事業(yè)部、硬件生態(tài)渠道部及智能家居事業(yè)部,組建為智能生活事業(yè)群組。這一重要板塊原為集團總裁陸奇所持,他離職后則由景鯤正式接班。
值得一提的是,同年百度首次推出了帶屏智能音箱“小度在家”,并由李彥宏親自站臺。景鯤也在社交媒體上熱情地分享了這一創(chuàng)新產(chǎn)品的發(fā)布。
在他的帶領(lǐng)之下,小度獲得了不錯的市場響應(yīng),“小度之父”的美譽也實至名歸。2019年5月,成績斐然的景鯤被提升為集團副總裁,并繼續(xù)領(lǐng)導(dǎo)智能生活事業(yè)群組。
直到2020年9月,百度宣布其智能生活事業(yè)群組獨立完成融資,估值高達約200億元,而景鯤在這新的組織架構(gòu)中,走馬上任了首席執(zhí)行官。如今,景鯤的突然辭職引發(fā)關(guān)注。
此前已有消息,他本應(yīng)在10月17日的百度世界大會上,作為小度科技的首席執(zhí)行官發(fā)表題為“大模型時代,小度重塑智能生活”的演講。
許多行業(yè)觀察人士推測,新任領(lǐng)導(dǎo)的履歷意味著在AI的大背景下,小度科技將肩負起更為重要的任務(wù)。
比如,將大模型技術(shù)納入小度的眾多業(yè)務(wù)中助推發(fā)展。事實上,小度早就已經(jīng)公開與文心一言技術(shù)的結(jié)合策略,并宣布創(chuàng)新出專門為智能設(shè)備場景而設(shè)計的AI模型——“小度靈機”。
毫無疑問,大模型技術(shù)會深度塑造小度的智能音箱業(yè)務(wù),使其與百度形成更為緊密的戰(zhàn)略聯(lián)盟。同時,國內(nèi)智能音箱市場的其他兩大巨頭——阿里和小米,也在積極布局大模型技術(shù),抱著和百度同樣的目的。8月末,小米已啟動智能音箱大模型的內(nèi)測計劃,并邀請了部分用戶參與。
目前,第一輪測試已經(jīng)完成,主要針對了小米 Sound 和小米 Sound Pro 兩大產(chǎn)品線。據(jù)小米AI品類商務(wù)總監(jiān)透露,小米在未來將不斷地優(yōu)化智能音箱的功能,尤其是在特定的應(yīng)用場景上,他們希望能為用戶創(chuàng)造更多價值,并探索更多的付費可能性。
與之對比,阿里巴巴的策略更為連續(xù)和明確。4月11日,阿里云峰會上宣布了天貓精靈與通義千問的合作。到了9月,阿里又推出新AI品牌——“未來精靈”。
這實際上是受到大模型浪潮推動,天貓精靈進行的品牌升級。“小靈,小靈”已成為默認的喚醒指令,“天貓精靈”僅作為一個備選喚醒詞。
洛圖科技(RUNTO)7月24日公布的《中國智能音箱零售市場月度追蹤》報告指出,今年上半年中國智能音箱銷量達到1148萬臺,與去年同期相比減少了19%;而銷售額也同樣下滑20%,至33.7億元。
在市場份額方面,百度、小米和天貓精靈分列前三,分別占據(jù)37%、34%和23%的市場,三大品牌共同占據(jù)了市場的94%。不難看出,智能音箱行業(yè)的玩家們似乎正走在一條相似的軌跡上。而隨著先進技術(shù)如AI大模型的加入,預(yù)計這個市場的競爭將變得更加激烈。
智能音箱的困境:為何陷入“玩物”標簽?
智能音箱市場的漣漪,讓人聯(lián)想到昔日的“百箱大戰(zhàn)”。追根溯源繞不開亞馬遜的Echo。2011年,這家國際電商巨頭在其lab126實驗室默默點燃了火種;三年后的2014年11月Echo正式問世,這場革命性的創(chuàng)新不僅定義了智能音箱,也預(yù)示了一個新技術(shù)時代的到來。伴隨著全球的關(guān)注,越來越多的公司開始踏入這片藍海,注入源源不斷的活力。
再過三年,在中國這片科技熱土上,微軟、蘋果、阿里和小米紛紛推出智能音箱,帶來前所未有的市場熱度。又不到一年,百度也揮師而來,使得中國的智能音箱市場猶如火箭般騰空而起,掀起了第一波真正的消費熱潮。
2018年的智能音箱大戰(zhàn)達到了白熱化。阿里巴巴宣布斥資高達30億元推動天貓精靈及周邊生態(tài)的建設(shè)。百度和小米也毫不示弱,加大投資力度展開市場份額爭奪戰(zhàn)?!鞍傧浯髴?zhàn)”,硝煙四起。在這輪浪潮中,中國智能音箱市場呈現(xiàn)出井噴之勢。
2019年,市場出貨量飆升至4589萬臺進入了巔峰階段。進入2020年,中國智能音箱市場呈現(xiàn)出阿里、百度、小米三強鼎立的格局。然而市場的增長勢頭突然放緩,洛圖科技提供的數(shù)據(jù)揭示了這一趨勢。
在達到2020年的銷售高峰后,智能音箱銷量連續(xù)兩年出現(xiàn)下滑,2021年和2022年的銷量分別下跌到3654萬臺和2631萬臺,年降幅達到3.5%和28%。
此外,智能音箱在國內(nèi)市場的整體地位也出現(xiàn)了明顯的滑坡。一個顯而易見的現(xiàn)象是,這類曾經(jīng)的科技新寵,在各大電商平臺上已經(jīng)逐漸被視作其他主打產(chǎn)品的贈品,而非主要銷售對象。到底是哪些因素促成了這樣的局面?
站在事后諸葛的角度,智能音箱面臨的挑戰(zhàn)其實并不難發(fā)現(xiàn)。首先,從交互體驗角度看,智能音箱并不盡如人意。在早期,遠場交互技術(shù)受到了很大限制:遠距離的操作容易導(dǎo)致交互失敗,而背景噪音則經(jīng)常打斷溝通。后期雖然技術(shù)有所進步,但交互能力依然不足,例如缺乏“免喚醒”和“多輪對話”功能。再者,智能音箱在個性化交互方面也表現(xiàn)得不夠強大。
如難以準確識別和響應(yīng)用戶的情緒,或進行有針對性的對話。簡而言之,其交互性仍然顯得過于“呆板”。其次,使用場景過于單一。大部分用戶使用智能音箱的功能僅限于查詢天氣、聽故事、播放音樂等基礎(chǔ)操作,真正的深度應(yīng)用并不多。
最終,用戶對智能音箱的期待被大大降低,很多人僅將其當作一個常規(guī)的音響來使用,而不是一個智能家居的入口或一個有潛力連接商務(wù)的工具。這無疑阻礙了智能音箱市場的進一步擴展。業(yè)界也一直在爭論,智能音箱的價值是不是被過度夸大了,畢竟我們已經(jīng)可以直接用手機來完成眾多的智慧家居服務(wù)?但答案并不簡單。
未來的智能家居生態(tài)并不會依賴于某一個單一的設(shè)備如手機或智能音箱。行業(yè)專家認為,未來的智能硬件將呈現(xiàn)多樣化,不可能一種設(shè)備滿足所有需求。
每種設(shè)備都將有其獨特的角色和用途。雖然手機有能力控制很多事物,但由于其形態(tài)和使用場景的穩(wěn)定性,智能音箱仍然有其獨特的價值,特別是作為智慧家居的核心入口。
大模型:打破僵局的魔法棒?
事實上,我們已經(jīng)有幸體驗了大模型技術(shù)賦能的智能音箱的初步版本。近日OpenAI發(fā)布消息,他們?yōu)镃hatGPT賦予了與用戶進行語音和音頻互動的能力。
ChatGPT可以扮演五種不同的角色來回應(yīng)用戶的問題,使得它的回應(yīng)聽起來比Alexa和Siri這些流行的語音助手更像真實的對話。許多用戶在各大社交媒體平臺上分享了他們對ChatGPT語音交互的驚艷和期待。若在現(xiàn)階段將高級的大模型整合到智能音箱中,可以極大地優(yōu)化音箱的交互體驗及內(nèi)容生成的質(zhì)量。
詳細地說,智能音箱的運作包括三個關(guān)鍵步驟:首先是將用戶的語音轉(zhuǎn)化為文字指令;接著,理解并處理這些指令;最后,將處理結(jié)果轉(zhuǎn)化為語音輸出。這三個步驟分別涉及到自動語音識別(ASR)、自然語言處理(NLP)以及文本到語音(TTS)這三種技術(shù)。
在這三個技術(shù)中,ASR的技術(shù)已經(jīng)相當成熟,NLP正在經(jīng)歷顯著的突破,而TTS雖然早期便開始向成熟邁進,但在情感交互方面仍面臨挑戰(zhàn)。
然而,隨著大模型的出現(xiàn),不僅NLP有巨大的增長潛力,其他技術(shù)也預(yù)期將實現(xiàn)顯著的進步。我們可以大膽預(yù)測,隨著大模型的加持,智能音箱未來不僅可能實現(xiàn)更個性化的服務(wù),還能夠準確捕捉和響應(yīng)用戶的情感,進一步豐富應(yīng)用場景。但采納新技術(shù)也是一個漸進的過程。行業(yè)專家指出,廠商在融合大模型時,需克服諸如算力分布和時延控制等挑戰(zhàn)。
決策比如是否在本地處理情緒識別,還是在后端執(zhí)行?同時,大量API接口的調(diào)用可能會導(dǎo)致更長的時延,進而影響交互質(zhì)感。僅僅接入大模型并不能立即帶來顯著效果或即刻推出新產(chǎn)品。雖然這一技術(shù)能夠顯著提高交互體驗,但也伴隨著相應(yīng)的問題。
其中,與語音交互相關(guān)的問題之一是成本,特別是考慮到用戶可能需要支付API調(diào)用費用。而數(shù)據(jù)安全性也是一個關(guān)鍵問題,一旦涉及用戶數(shù)據(jù),廠商需要嚴格遵守國家法規(guī)。
因此,近期的變革將取決于市場參與者——無論是軟件還是硬件的創(chuàng)新方向和技術(shù)演進。那么,大模型是否真的能夠重塑智能音箱市場呢?可能性是存在的,但并不絕對。
盡管技術(shù)進步為智能音箱開辟了新途徑,要想真正取得成功,還需擁有可行的商業(yè)策略。簡而言之,智能音箱的發(fā)展前景依然存在許多未知數(shù)。
但大模型的涌現(xiàn)為其注入了新的活力。我們必須認識到,技術(shù)的演進往往不是單調(diào)上升,而可能是起伏不定的。智能音箱目前似乎正試圖從某個低點中躍遷。