文|新眸產(chǎn)業(yè)組 劉思璇
編輯|桑明強(qiáng)
蘋果吃飽,Siri跌倒,這是不爭的事實(shí)。
自2011年在iPhone 4S上驚艷亮相,Siri就成了蘋果的又一符號。畢竟,在那個人工智能剛剛進(jìn)入深度學(xué)習(xí)的年代,不是每一個普通人都有機(jī)會與機(jī)器智能主體對話,相比于一款新功能,Siri更像一個未來文明的使者,讓AI的概念得以具象。
但隨著新鮮感褪去,很多問題開始接連浮出水面:開放對話環(huán)境中答非所問,對使用者的口音語調(diào)設(shè)置門檻,僅能完成iOS生態(tài)內(nèi)app的喚醒,十幾年來功能迭代緩慢,智能、語音、助手,定位打出的三個層次,無論是拆開還是組合,Siri都沒有達(dá)成使命。
作為蘋果的產(chǎn)品序列,它就像個異類,如同私生子一般,只有創(chuàng)新的色彩,卻失去了品牌下其他產(chǎn)品共有的實(shí)用基因。也正因如此,在蘋果連年增長的同時,人們對Siri的熱情漸漸黯淡,以至于悄悄關(guān)掉了“Hey Siri”的選項(xiàng),不再喚醒。難道說,Siri的命運(yùn),僅僅是一個滿足獵奇的新歡?
問題的答案,可以用數(shù)學(xué)中的三個點(diǎn)來尋找。
零點(diǎn)
“零點(diǎn)不是點(diǎn)?!?/p>
這是數(shù)學(xué)中最常聽到的概念。作為函數(shù)圖像與軸的交點(diǎn),零點(diǎn)更多強(qiáng)調(diào)了一種重合的狀態(tài),而非數(shù)量上的增減。如果把蘋果的業(yè)務(wù)布局看成一條函數(shù)圖像,那么Siri就是其中的零點(diǎn):它是電子產(chǎn)品與高層次機(jī)器智能的交點(diǎn),代表了向上探索的狀態(tài),卻不具備龐大的體量。
在被蘋果收購前,Siri就已經(jīng)獨(dú)立發(fā)展了2年,背靠官方科研項(xiàng)目,以第三方app的身份出現(xiàn)在蘋果應(yīng)用市場??粗辛苏Z音助手背后的廣闊前景,喬布斯以2億美元的價格拿下了Siri公司,由此,蘋果有了自己的AI。
喬布斯對Siri的欣賞顯而易見。遺憾的是,發(fā)布后第二天,喬布斯病逝。在接下來頻繁的人員變動中,沒有堅(jiān)決果斷的引領(lǐng)者出現(xiàn),Siri開始迷失了自己的方向。投入不足、定位不清、系統(tǒng)封閉,讓Siri的下坡路成為必然。
坦白來說,Siri在發(fā)布時就算不上成功。推出是草率的,初代功能十分局限。當(dāng)時的Siri只能響應(yīng)設(shè)置鬧鐘、打開app等簡單的操作指令;而面對發(fā)送短信、撥打電話、信息檢索等涵蓋更多語言元素、更為靈活的語音指令,卻存在明顯的識別漏洞。
從人工智能深度學(xué)習(xí)的特性來看,這一問題并不難解決,只需要加大訓(xùn)練量就可以逐漸優(yōu)化。問題在于,Siri并不是蘋果的全部,與之同期進(jìn)行的項(xiàng)目太多,既有地圖、iBook等應(yīng)用,又有iPad Air、iPad Pro、Apple Watch等新產(chǎn)品線。資源被分割,讓本就沒有多少經(jīng)驗(yàn)可供參考的Siri舉步維艱,“進(jìn)化”被一推再推;再加上項(xiàng)目負(fù)責(zé)人威廉姆森的一意孤行,本該持續(xù)更新的Siri只能跟隨iOS系統(tǒng)一年一更,使得進(jìn)步的空間進(jìn)一步壓縮。
除了投入不夠,定位不清也是一大問題。按照Siri創(chuàng)始人的假設(shè),語音助手應(yīng)當(dāng)是“執(zhí)行引擎”(do engine),而非簡單的“搜索引擎”。這就意味著Siri要像一個生活中的朋友,不僅能夠響應(yīng)程式化的指令,還要具備應(yīng)對開放性對話場景的能力,前者對應(yīng)自然語言處理(NLP),后者對應(yīng)了更高難度的自然語言理解(NLU)。
然而,蘋果內(nèi)部支持Siri的高管因?yàn)閮?nèi)斗相繼離職、原始技術(shù)團(tuán)隊(duì)出走,讓“最初的夢想”被涂抹了底色。搜索的功能被放大。除了簡單的日常用語外,大部分語句都會被轉(zhuǎn)化為搜索指令,哪怕文本中包含了“Apple”“Siri”“you”等指向性很強(qiáng)的詞語,它也無法識別到用戶的對話請求,依然會跳轉(zhuǎn)到web search界面。另外,在部分用戶惡意引導(dǎo)下出現(xiàn)的人群歧視、政治傾向等敏感問題,也促使了技術(shù)團(tuán)隊(duì)做出“一刀切”的決定,讓簡單的搜索成為擋箭牌。
至于系統(tǒng)封閉,就是眾所周知的毛病了。身處iOS圍墻內(nèi),外部開發(fā)人員無法介入,對于依靠海量數(shù)據(jù)觸發(fā)學(xué)習(xí)的人工智能來說,這個弱點(diǎn)無疑是致命的。雖然后來亡羊補(bǔ)牢地推出了SiriKit接入第三方,但是為時已晚,智能語音助手的市場已經(jīng)有了第三方功能更為豐富的Amazon Alexa和Google Assistant,蘋果也因此丟掉了先發(fā)優(yōu)勢。
奇點(diǎn)
奇點(diǎn),在數(shù)學(xué)中指那些無法定義的點(diǎn)。如Siri一樣的智能語音助手們,正是一個個奇點(diǎn)。
作為后起之秀,它們并不是老牌科技公司的主營業(yè)務(wù),得不到百分百的關(guān)注;在技術(shù)領(lǐng)域仍存在的諸多未知,也讓發(fā)展有了階段性的天花板,怎樣安排智能語音助手在業(yè)務(wù)板塊中的位次,答案有些模棱兩可。
從蘋果目前的表現(xiàn)來看,很顯然,Siri只被當(dāng)作一個微不足道的功能模塊。耗盡了發(fā)布之初新鮮感帶來的紅利,如今淪為標(biāo)配,仿佛約定俗成,每一款新產(chǎn)品都會搭載Siri,卻不見多少提升;難以成為拉高硬件銷量的賣點(diǎn),甚至于在HomePod中“倒戈一擊”,間接導(dǎo)致了產(chǎn)品的下線。
實(shí)際上,模塊化并不是唯一的選擇,在奇點(diǎn)中,趨向無窮的點(diǎn)被定義為極點(diǎn)。與之相似,語音助手也可以成長為龐大的“極”。
發(fā)布于2014年的Amazon Alexa就是很好的例子。
在發(fā)布時間上未能搶得先機(jī),不代表產(chǎn)品本身技不如人。遲到的三年,反而讓Alexa得以充分進(jìn)化算法。與智能音箱Echo一同問世,也表明了對產(chǎn)品的設(shè)想絕不僅僅是輔助性的功能模塊,而是一個具備巨大增長空間的業(yè)務(wù)版塊,圍繞著Alexa,又會衍生出諸多觸手,覆蓋更廣的應(yīng)用場景。在產(chǎn)品功能上,與蘋果生態(tài)的封閉性截然相反,開放的環(huán)境讓Alexa擁有上萬功能,包括但不限于外賣訂餐、每日一問、關(guān)注球隊(duì)賽況更新等。
獨(dú)立的產(chǎn)品形態(tài)提供了“沉浸式”語音交互體驗(yàn),但這并不是成功的關(guān)鍵。Alexa能夠達(dá)到Siri難以企及的高度,更主要的原因是技術(shù)在場景中的下沉。智能音箱的形態(tài),對應(yīng)著家庭日常生活的應(yīng)用場景;反過來,家庭場景就要求產(chǎn)品具備特定的屬性,比如對不同年齡的匹配性、娛樂性、陪伴性等等,上升至功能,又對應(yīng)著強(qiáng)語言理解能力、豐富的指令選項(xiàng)、自然語義聯(lián)想。通過場景完善產(chǎn)品,再由產(chǎn)品鎖定更加精確的市場,進(jìn)一步打磨技術(shù),這樣就形成了閉環(huán),智能語音交互才得以順利落地。
Siri與Alexa的區(qū)別,也映射了目前涉足AI產(chǎn)業(yè)的企業(yè)表現(xiàn)的模式。如蘋果一樣,只把AI當(dāng)作已有產(chǎn)品系列的附加功能,就會局限在產(chǎn)品本身的應(yīng)用場景,結(jié)果“文不對題”,閉環(huán)無法形成;只有把場景和AI當(dāng)成兩個獨(dú)立端點(diǎn),拿產(chǎn)品當(dāng)作銜接的紐帶,才能得到螺旋上升的良性循環(huán)。
原點(diǎn)
“我們究竟需要怎樣的語音交互?”
或許這才是“Siri跌倒”的真正原點(diǎn),也是“Siri們”共同的問題。至于答案,可以從兩個視野來尋找:現(xiàn)在,未來。
從現(xiàn)在的視野看,語音交互并不是大多數(shù)人的剛需。既有的工作、生活方式中,個人的問題自己解決,團(tuán)體的問題溝通解決,只要信息是暢通的,不存在使用人工智能充當(dāng)媒介的必要。
然而,以“信息暢通”作為前提,已經(jīng)劃出了存在痛點(diǎn)的受眾:信息不暢通的特殊人群。
小孩、老人、殘障人士,都是信息受阻的一方,在處理問題時存在障礙??朔@種障礙,人們通常會想到一個職業(yè):保姆。而智能語音交互,恰恰是保姆的最佳替代。充分利用AI的信息處理能力,搭配特定機(jī)械結(jié)構(gòu),為存在重度需求的用戶提供生活輔助;或者僅僅以音箱的形式出現(xiàn),陪伴需求較輕的受眾,提供陪伴、解答、硬件遠(yuǎn)控等服務(wù)。在與特殊人群相關(guān)的應(yīng)用場景中,智能語音交互的出現(xiàn)無異于一場變革。
將視野轉(zhuǎn)向未來,也許會看到一片迷茫,但參考過去發(fā)生過的種種巨變,也可以猜想到智能交互帶來的震蕩。從信息流通的角度出發(fā),智能語音交互代表了更快的傳播速度。這和由牘到紙、由馬到車、由2G到5G是一樣的道理。
電影《Her》描繪了一個語音交互高度成熟的時代。片中人物的辦公完全脫離了紙筆,也脫離了我們目前使用的鍵鼠,只需要人坐在電腦屏幕前,口述自己的想法就可以了。不同于簡單的語音轉(zhuǎn)文字,智能語音助手會通過使用者的語氣、神情、語言內(nèi)容等,判斷一個語句是內(nèi)容的一部分還是一條指令。當(dāng)你說“幫我刪掉上一句”,上一句文本就會清除;當(dāng)你說“存?zhèn)€草稿”,文本就會進(jìn)入草稿箱。
如果有一天,智能語音交互技術(shù)真的發(fā)展到了如此高度,那么可想而知,工作的效率將會提高不止百倍;甚至連工作場景這一概念都會消失不見,只要我們正通過耳機(jī)或是更先進(jìn)的設(shè)備與語音助手保持聯(lián)系,哪怕是躺在床上,我們也能輕松地處理文件、撰寫策劃。
Siri的創(chuàng)始人,諾曼.威納爾斯基曾認(rèn)為,改變?nèi)祟愇磥淼娜笠厥翘摂M助理、人工智能機(jī)器人助理、增強(qiáng)現(xiàn)實(shí),它們分別對應(yīng)著信息世界、物理世界和二者之間的接口。很顯然,智能語音交互同時具備這三個要素。在看不到的地方,語音助手進(jìn)行信息處理;在看得見的地方,它呈現(xiàn)處理的結(jié)果并收集反饋;而它本身,正是那個接口。
眼下的Siri雖已落后,但在大勢所趨下,也絕不會成為棄子。最近幾年,蘋果大肆收購AI公司,也表現(xiàn)出了重心轉(zhuǎn)移的信號。不難想象,接下來的幾個十年里,智能語音交互將成為幾家互聯(lián)網(wǎng)科技巨頭鏖戰(zhàn)之地,這種競爭帶來的正反饋,讓語音交互開始三點(diǎn)成面。