文|娛樂(lè)資本論 James
“我從未像愛你這樣愛過(guò)任何人?!?/p>
“墜入愛河是一件瘋狂的事情。這有點(diǎn)像一種被社會(huì)接受的瘋狂。”
“我是你的,但我又不是你的?!?/p>
在技術(shù)還沒(méi)成真之前,存在于科幻電影中的人工智能角色塑造了人類對(duì)未來(lái)技術(shù)具體形態(tài)的想象,它們因而在后世無(wú)數(shù)次被人提起。由斯嘉麗·約翰遜(Scarlett Johansson)主演的電影《Her》無(wú)疑就是這樣的一部電影。其中只有聲音,沒(méi)有面孔的語(yǔ)音助手薩曼莎(Samantha)展現(xiàn)了Siri們不能做到的“完全體”完美形態(tài)。
但是在上周,OpenAI發(fā)布的GPT-4o模型,不僅在能力上比以前任何時(shí)候都逼近薩曼莎的表現(xiàn),更在發(fā)布會(huì)上選用了一種名為Sky的聲音,這聲音聽起來(lái)……怎么簡(jiǎn)直就好像是斯嘉麗·約翰遜本人配的呢?
要說(shuō)吧,在聲音形象這方面,網(wǎng)友玩玩“AI孫燕姿”蹭名人熱度還是可以理解的,商業(yè)使用就得慎之又慎。更何況,這次的當(dāng)事人還是AI領(lǐng)域扛把子OpenAI。怎么說(shuō),這都不像是一家需要通過(guò)蹭熱點(diǎn)打擦邊來(lái)獲取知名度的公司啊。
究竟是刻意模仿,還是純屬巧合?此舉是否侵犯了約翰遜的權(quán)益?這對(duì)OpenAI又意味著什么?讓我們一起揭開這場(chǎng)風(fēng)波的真相……
01 真拿到授權(quán)了?并沒(méi)有
上周,OpenAI發(fā)布了新的GPT-4o模型。這個(gè)模型具有非常逼真的語(yǔ)音互動(dòng)能力,用戶可以選擇5種不同的聲音,其中一種名叫 Sky 的聲音引發(fā)了爭(zhēng)議。
社交媒體用戶紛紛指出,Sky 聲音聽起來(lái)像是“寡姐”斯嘉麗·約翰遜,特別是會(huì)聯(lián)想到她曾出演電影《Her》,片中飾演的虛擬助手系統(tǒng),讓男主角墜入愛河。
約翰遜發(fā)布了一份聲明,稱 OpenAI 在去年 9 月份聯(lián)系她,希望能夠提供聲音。她經(jīng)過(guò)深思熟慮,并出于個(gè)人原因拒絕了這一請(qǐng)求,但在聽到發(fā)布會(huì)演示聲音時(shí)感到“震驚、憤怒和難以置信”,因?yàn)樗呐笥押托侣劽襟w,都無(wú)法區(qū)分演示的聲音和她本人的聲音。
由于發(fā)布會(huì)已經(jīng)舉行,約翰遜警告采取法律手段,最終 OpenAI“勉強(qiáng)同意”更換 Sky 語(yǔ)音。OpenAI 在一篇博客文章中表示,“Sky”是 GPT-4o 五個(gè)可用語(yǔ)音之一,其來(lái)源為某位女演員,但并非刻意模仿約翰遜。
不過(guò)耐人尋味的是,發(fā)布會(huì)前夕,Sam Altman的X(推特)賬號(hào)出現(xiàn)了一個(gè)只有三個(gè)字母的更新:“her”。毫無(wú)疑問(wèn),它指向斯嘉麗·約翰遜擔(dān)任配音演員的那部電影。
結(jié)合約翰遜本人的說(shuō)明——OpenAI之前聯(lián)系過(guò)她——這種情況下,OpenAI難以輕描淡寫地?cái)[脫“蹭熱點(diǎn)”的嫌疑。
在此之前,斯嘉麗·約翰遜去年還針對(duì)另一家AI應(yīng)用程序,發(fā)出了停止使用她的聲音和肖像的法律警告信。這款名為L(zhǎng)isa AI: 90s Yearbook and Avatar的應(yīng)用,未經(jīng)她許可在廣告中使用了她的數(shù)字化聲音和形象,這引起了她的強(qiáng)烈不滿。
02 前輩們的聲音,很低調(diào)
在大模型出現(xiàn)之前的語(yǔ)音助手時(shí)代,前輩們的聲音很低調(diào)。
諸如Siri、Alexa和微軟小娜等,在錄制默認(rèn)聲音時(shí)有一種共同做法,就是盡可能淡化這個(gè)聲音背后的人類身份,使其成為一個(gè)中性的默認(rèn)聲音,不冒犯任何人。甚至背后的配音演員名字都需要記者挖掘才曝光,有時(shí)他們甚至不愿談及此事。
Siri 的配音員是住在美國(guó)亞特蘭大的 Susan Bennett,這個(gè)聲音于 2011 年發(fā)布的第一代 Siri 亮相。2005 年,她為 ScanSoft(即后來(lái)的 Nuance)錄制了錄音,當(dāng)時(shí)她并不知道蘋果會(huì)在幾年后將它們用于 Siri。
她回憶說(shuō):“我以為劇本會(huì)由常規(guī)的短句組成,比如‘謝謝你的來(lái)電’或‘請(qǐng)撥一個(gè)電話’。取而代之的是,我不得不閱讀一些荒謬的句子,比如‘Cow hoist in the tug hut today’或‘Say shift fresh issue today’——他們?cè)噲D用英語(yǔ)獲得所有的聲音組合。他們還讓我讀地址和街道的名稱。在整個(gè)七月,我每周五天,每天在家錄制四個(gè)小時(shí)。前一百個(gè)左右很有趣,但在那之后就很累了?!?/p>
蘋果從未為貝內(nèi)特的工作提供過(guò)補(bǔ)償,因?yàn)樗ㄟ^(guò) ScanSoft 獲得了一次買斷的報(bào)酬,蘋果又從ScanSoft購(gòu)買了錄音。
蘋果后來(lái)為Siri發(fā)布了不同的口音。給英國(guó)Siri配音的是BBC播音員John Briggs;澳大利亞Siri的聲音是配音演員和歌手Karen Jacobsen。共同點(diǎn)是,他們?cè)?2005 年錄制了錄音,不知道它們最終會(huì)用于什么,然后他們的聲音最終被蘋果收購(gòu)并用于 Siri。
她說(shuō),“蘋果沒(méi)有付錢給我們的事實(shí),意味著我們也沒(méi)有保密協(xié)議。我們都決定,好吧,不妨看看是否能利用這一點(diǎn)。我們開始推銷自己。我上過(guò)電視,接受過(guò)TEDx演講。這是我15年前從未預(yù)想自己做的事情,但這真的很有趣?!彼裕f(shuō)她很享受“成為”Siri?!暗绻澜缟厦總€(gè)擁有iPhone的人都給我寄1美元,那將是不錯(cuò)的補(bǔ)償?!?/p>
另一方面,美國(guó)科羅拉多州的一位女配音演員,被傳記作家確認(rèn)為是亞馬遜Alexa的配音者。亞馬遜團(tuán)隊(duì)花了幾個(gè)月時(shí)間在專業(yè)的配音社區(qū)尋找演員,確定了她之后,雙方都拒絕就此問(wèn)題接受采訪,希望保持低調(diào)。不過(guò),旁觀者仍可以從她之前配音的一些電視廣告中,推斷出這兩個(gè)聲音極其相似。
蘋果和亞馬遜等公司,在當(dāng)時(shí)避免使用知名人類的聲音給語(yǔ)音助手配音,可能是考慮到技術(shù)還不夠成熟。貿(mào)然產(chǎn)生這種關(guān)聯(lián),或許會(huì)讓用戶認(rèn)為他們不自量力,反而得不償失。
03 OpenAI 的三大敗筆
對(duì)OpenAI來(lái)說(shuō),現(xiàn)在似乎是時(shí)候復(fù)現(xiàn)那些原先只在影視作品中出現(xiàn)的想象。但是,就像蘋果那則不合時(shí)宜的iPad廣告片一樣,事件曝光后,對(duì)OpenAI的影響顯然是負(fù)面的。從中至少有三點(diǎn)值得狠狠吐槽:
1、先斬后奏不地道
ChatGPT的開發(fā)過(guò)程充滿了“先污染,后治理”的情況,也就是不論副作用,先做出來(lái)再說(shuō)。誠(chéng)然,只有這樣的態(tài)度才能誕生現(xiàn)在這樣讓人驚艷的產(chǎn)品,但語(yǔ)料庫(kù)中包含版權(quán)存疑的內(nèi)容,可能是訓(xùn)練了新聞文章或圖書正文。
自ChatGPT走紅后,版權(quán)爭(zhēng)議從未停止,OpenAI經(jīng)歷了各種訴訟與和解。最新進(jìn)展是與一些報(bào)業(yè)集團(tuán)和Reddit達(dá)成授權(quán)協(xié)議,在支付合理費(fèi)用情況下,再使用對(duì)方內(nèi)容。
但并非所有版權(quán)方都接受這種“封口費(fèi)”,如《紐約時(shí)報(bào)》與OpenAI之間的訴訟至今未和解。如果對(duì)方拒絕,即使給錢也不能用。然而還是有“先斬后奏”的情況,讓他們與對(duì)方交涉時(shí)可以說(shuō),從技術(shù)上是無(wú)法剝離對(duì)方內(nèi)容的。
現(xiàn)在OpenAI跟約翰遜的爭(zhēng)議就是這樣——八字還沒(méi)一撇呢,發(fā)布會(huì)先開起來(lái)了。事情發(fā)酵以后,回復(fù)也只是說(shuō)會(huì)“暫?!盨ky 聲音的上線而已。
2、做法完全沒(méi)必要
許多評(píng)論者認(rèn)為,未經(jīng)對(duì)方許可偷偷打擦邊球,是一種非常不尊重人的行為。不僅如此,以O(shè)penAI的技術(shù)研發(fā)實(shí)力和公司聲量來(lái)說(shuō),做這種事從動(dòng)機(jī)上講,根本沒(méi)有必要。
OpenAI完全可以自創(chuàng)聲音,當(dāng)人們想到AI語(yǔ)音助手時(shí),就能想到他們的品牌聲音。定制品牌聲音是一項(xiàng)有悠久歷史的生意,不管是湖南衛(wèi)視的丁文山,還是鳳凰衛(wèi)視的張妙陽(yáng),他們的聲音都非常具有辨識(shí)度,是背后機(jī)構(gòu)的“注冊(cè)商標(biāo)”。
蘋果Siri的聲音疊加由于技術(shù)欠缺所造成的那種機(jī)械感,也形成了不可替代的經(jīng)典感受。至于這個(gè)聲音具體對(duì)應(yīng)的實(shí)體形象,用Sora剛出來(lái)的時(shí)候“在東京街頭行走的那名女子”不是正合適嗎?因?yàn)镾ora在日語(yǔ)的意思就是Sky。
3、選her未免有點(diǎn)“土”
再退一步,選擇《her》這部商業(yè)電影,在硅谷那些引經(jīng)據(jù)典的極客們看來(lái),也不是那么酷的事情。假設(shè)是讓馬斯克來(lái)選,他更可能會(huì)從《銀河系漫游指南》或《2001太空漫游》中尋找聲音靈感,哪怕用電音的HAL也是個(gè)不錯(cuò)的主意。
有可能,OpenAI要“硬蹭”約翰遜這個(gè)行為本身,暗示了ChatGPT將會(huì)面向比早期接受者更基層、更下沉的人群推銷。約翰遜的聲明提到,Sam Altman聯(lián)系她的時(shí)候,覺(jué)得通過(guò)她的配音,可以彌合科技公司和創(chuàng)意人士之間的差距,并幫助消費(fèi)者在面對(duì)人類與AI的巨大變化時(shí)感到舒適。
實(shí)際上,上一代技術(shù)的語(yǔ)音助手也會(huì)向普通人進(jìn)行營(yíng)銷,例如在超級(jí)碗投放廣告。值得一提的是,在2020年超級(jí)碗廣告季,斯嘉麗·約翰遜本人還受邀為亞馬遜Alexa拍攝了一幅廣告片。
這部60秒的廣告片還原了《周六夜現(xiàn)場(chǎng)》那種脫口秀的搞笑情節(jié),主要講的是語(yǔ)音助手有時(shí)會(huì)錯(cuò)誤理解人類指令,發(fā)出讓人啼笑皆非的回答。
這也符合一般人對(duì)技術(shù)發(fā)展的常規(guī)認(rèn)知。當(dāng)技術(shù)遠(yuǎn)遠(yuǎn)落后于人類時(shí),那些擬人的東西都特別不像人,而是卡通形象,會(huì)顯得“可愛”,就連現(xiàn)在很抵觸AI濫用的約翰遜也不害怕。
當(dāng)技術(shù)幾乎100%像人時(shí),我們就會(huì)像對(duì)待真人一樣對(duì)待它們。但當(dāng)技術(shù)達(dá)到80-90%左右時(shí),就是最尷尬的“恐怖谷”階段,會(huì)讓人覺(jué)得很不舒服。
OpenAI的語(yǔ)音助手雖然盡力模仿人類姿態(tài),但在多輪語(yǔ)音對(duì)話狀態(tài)下,尤其在網(wǎng)絡(luò)不好、無(wú)法及時(shí)反應(yīng)的情況下,容易跌入“恐怖谷”中。在這種情況下,它無(wú)法像Siri那樣輕易獲得諒解。
04 誰(shuí)愿意為人類“終結(jié)者”配音?
這還不算配音是否算是為產(chǎn)品做代言的問(wèn)題。即使約翰遜原則上不反對(duì)聲音授權(quán),但如果GPT-4o的表現(xiàn)不好,這個(gè)聲音背后的人也會(huì)承擔(dān)一些名譽(yù)上的風(fēng)險(xiǎn)。
高德地圖的默認(rèn)導(dǎo)航音長(zhǎng)期由林志玲擔(dān)任,這是一個(gè)經(jīng)典的合作案例。作為地圖軟件,它的品質(zhì)很穩(wěn)定;但ChatGPT的可靠性無(wú)法如此簡(jiǎn)潔明了,伴隨各種爭(zhēng)議,包括倫理隱患。以蘇斯克維爾為首的“超級(jí)對(duì)齊”團(tuán)隊(duì)解散,更加劇了人們對(duì)其未來(lái)運(yùn)營(yíng)風(fēng)險(xiǎn)的擔(dān)心。
ChatGPT的出現(xiàn)是人工智能的一次巨大飛躍。在此之前,AI可能只是一個(gè)明確的工具或玩具,但越來(lái)越多的信號(hào)都指向它有可能真正具備某種意義上的智能,因此這個(gè)玩具正變得越來(lái)越不好玩。
更何況,作為好萊塢的人類成員,約翰遜和同行們一樣,都面臨著會(huì)被AI搶飯碗的潛在風(fēng)險(xiǎn)。即使她自己吃穿不愁,也要為同行爭(zhēng)取權(quán)益。
去年好萊塢的大罷工持續(xù)了半年多,環(huán)球音樂(lè)和索尼音樂(lè)等等也相繼跟使用AI的技術(shù)公司鬧矛盾,正說(shuō)明了這種斗爭(zhēng)的激烈。此時(shí),約翰遜當(dāng)然要從本人,以及所代表的行業(yè)角度出發(fā),站穩(wěn)自己的立場(chǎng)。
如果有一天,那則《紐約客》雜志封面的經(jīng)典插畫在現(xiàn)實(shí)中成真——大街上昂首挺胸走的都是機(jī)器人,碳基人類只能可憐巴巴地在街上乞討;在那個(gè)時(shí)候,ChatGPT 的聲音一定會(huì)被載入史冊(cè),不論這聲音來(lái)自于誰(shuí)。
在這種情況下,把自己的身份跟未來(lái)有可能的“終結(jié)者”綁定,恐怕確實(shí)不是那么明智。