正在閱讀:

震動(dòng)的藝術(shù):AI音樂(lè)大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕

掃一掃下載界面新聞APP

震動(dòng)的藝術(shù):AI音樂(lè)大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕

AI音樂(lè)動(dòng)了誰(shuí)的蛋糕?

文|硅谷101 陳茜

音樂(lè),對(duì)你來(lái)說(shuō),是什么?

音樂(lè)對(duì)于我們中的許多人來(lái)說(shuō),是生活中不可或缺的一部分。它不僅僅是娛樂(lè),更是一種情感的表達(dá)和交流方式。音樂(lè)是一種語(yǔ)言,可以用來(lái)表達(dá)感受,描繪作曲家想要傳達(dá)的某種情緒或感覺(jué),同時(shí)每個(gè)人也會(huì)對(duì)原始樂(lè)譜進(jìn)行自己的解讀。

但在2024年,我聽(tīng)到了一個(gè)截然不同的答案。Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人:音樂(lè)的本質(zhì)是我們稱(chēng)為 organized sound(有組織的聲音)。它的在微小的單元上看,它就是空氣的震動(dòng),不同的頻率、不同的幅度,它再這么排列組合,就組合出了一些美妙的音樂(lè)。

如果以“微小單元空氣震動(dòng)的排列組合”來(lái)定義音樂(lè),這簡(jiǎn)直太符合這一輪生成式人工智能的能力覆蓋范圍了。

果不其然,在2024年,以Suno為首的眾多AI音樂(lè)模型和產(chǎn)品爆火,這些用簡(jiǎn)單提示詞、幾十秒就能生成的AI作詞、作曲、演唱曲目,效果好到讓人大為震撼。

音樂(lè)AI模型是怎么發(fā)展起來(lái)的?中間的技術(shù)細(xì)節(jié)是如何實(shí)現(xiàn)的?AI音樂(lè)目前能否替代人類(lèi)歌手或音樂(lè)家呢?以及AI浪潮將會(huì)如何影響整個(gè)音樂(lè)產(chǎn)業(yè)市場(chǎng)?

硅谷101采訪(fǎng)了AI音樂(lè)模型從業(yè)者、打擊樂(lè)教授、樂(lè)隊(duì)和各種樂(lè)器的演奏者,和大家一起來(lái)共同探索AI音樂(lè)的顛覆與技術(shù)邊界。

01 Suno AI的風(fēng)靡與爭(zhēng)議

2024年5月末,總部位于波士頓的AI音樂(lè)公司Suno在社交媒體X上宣布成功完成了1.25億美元的 B輪融資,投后估值達(dá)到5億美元,用戶(hù)數(shù)量快速增長(zhǎng)至超過(guò)1000萬(wàn)。微軟等科技巨頭更是將 Suno的AI音樂(lè)創(chuàng)作功能直接整合到了旗下的Copilot產(chǎn)品中。

像這輪AI浪潮中的眾多明星項(xiàng)目一樣,Suno的創(chuàng)立時(shí)間很短,2022年才成立,在B輪融資之前公司僅有12人。

在2024年3月,Suno突然爆火。Text to music,文生音樂(lè)的能力巨大提升,讓大家驚呼:AI音樂(lè)的ChatGPT時(shí)刻,就這么到來(lái)了。

乍一聽(tīng),真的覺(jué)得AI作曲已經(jīng)非常好聽(tīng)了,不管是曲調(diào),還是歌詞,還是歌手唱腔,作為一個(gè)音樂(lè)小白和唱歌經(jīng)常走調(diào)的人,我覺(jué)得這些歌已經(jīng)非常好聽(tīng),遠(yuǎn)超現(xiàn)在的一些十八線(xiàn)歌手的網(wǎng)絡(luò)口水歌。而這會(huì)不會(huì)掀起音樂(lè)市場(chǎng)和唱片公司這些資本方的腥風(fēng)血雨呢?

2024年6月底,根據(jù)美國(guó)唱片業(yè)協(xié)會(huì)(Recording Industry Association of America, RIAA)的官方通告,包括索尼、環(huán)球和華納在內(nèi)的三大唱片公司及旗下廠(chǎng)牌集體向Suno和另外一家AI音樂(lè)應(yīng)用Udio發(fā)起訴訟。起訴狀中提供了旋律雷同的例子和細(xì)節(jié)對(duì)比分析,而原告要求每一首侵權(quán)作品需賠償15萬(wàn)美元。

這個(gè)官司打出結(jié)果可能還需要一段時(shí)間,不過(guò)我其實(shí)對(duì)這起訴訟也并不感到意外。首先,AI音樂(lè)的出現(xiàn)勢(shì)必會(huì)動(dòng)到傳統(tǒng)音樂(lè)資本的市場(chǎng)蛋糕,肯定會(huì)引發(fā)抵觸,這個(gè)市場(chǎng)蛋糕是具體哪一塊我們稍后會(huì)分析。

其次,在Suno剛火起來(lái)的時(shí)候,有AI模型的業(yè)內(nèi)人士就對(duì)我們表達(dá)過(guò)懷疑,他們認(rèn)為,Suno的效果這么好,可能是因?yàn)橛昧擞邪鏅?quán)的音樂(lè)做訓(xùn)練。

我們?cè)谶@里不作任何的結(jié)論,只是單純的傳達(dá)出業(yè)內(nèi)人士的困惑:他們認(rèn)為,AI音樂(lè)這個(gè)產(chǎn)品很多科技公司,如果說(shuō)谷歌和Meta都在做,但效果都不如Suno AI,難點(diǎn)都不在模型本身,難點(diǎn)是在于可以用來(lái)訓(xùn)練的參數(shù),也就是沒(méi)有版權(quán)問(wèn)題的歌曲。

比如說(shuō):一線(xiàn)歌手的流行音樂(lè)不能用,有版權(quán);影視作品音樂(lè)不能用,有版權(quán);就連已經(jīng)算作public domain(公有領(lǐng)域)的交響樂(lè),只有曲譜是沒(méi)有版權(quán)問(wèn)題的,而被各大樂(lè)團(tuán)演奏出來(lái)的版本依然是有版權(quán)限制的,也是不能拿去做AI訓(xùn)練的。

也就是說(shuō),可能人類(lèi)目前最頂尖的音樂(lè)作品,很大一部分都是無(wú)法擺脫版權(quán)問(wèn)題而拿去給AI訓(xùn)練的。那么谷歌和Meta怎么解決這個(gè)問(wèn)題呢?

作為科技巨頭,他們花了天價(jià),去雇一群音樂(lè)創(chuàng)作人,專(zhuān)門(mén)給他們自己創(chuàng)作不同類(lèi)型的音樂(lè),然后用這些沒(méi)有版權(quán)顧慮的音樂(lè)去訓(xùn)練自己的AI音樂(lè)模型。這個(gè)成本,顯然是Suno等小創(chuàng)業(yè)公司無(wú)法去負(fù)擔(dān)的。

這場(chǎng)官司會(huì)如何發(fā)展,Suno到底有沒(méi)有用有版權(quán)的音樂(lè)訓(xùn)練模型,我們也會(huì)繼續(xù)關(guān)注事態(tài)的發(fā)展。

不過(guò),我們來(lái)繼續(xù)聊點(diǎn)好玩的,這期節(jié)目我們也邀請(qǐng)到了Meta的Music Tech Lead(AI音樂(lè)技術(shù)主管)Roger Chen,來(lái)跟我們一起詳細(xì)聊一下AI音樂(lè)模型的細(xì)節(jié)。

02 AI音樂(lè)模型拆解Chapter 2.1 第一層壓縮及碼本

Roger就告訴我們,用機(jī)器學(xué)習(xí)做音樂(lè)這件事情已經(jīng)做了好幾年了。在業(yè)界大家已經(jīng)意識(shí)到,如果“音樂(lè)的定義”可以被理解成,聲音在空氣中的震動(dòng)產(chǎn)生不同的頻率和幅度,那我們可以把聲音標(biāo)記成電信號(hào)。

我們知道,在如今基于Transformer架構(gòu)的大語(yǔ)言模型中,token代表模型可以理解和生成的最小意義單位,是模型的基礎(chǔ)單位。

而在A(yíng)I音樂(lè)中,各種音樂(lè)維度都可以表達(dá)成token序列,包括:節(jié)奏、速度、和聲、調(diào)性、段落、旋律、歌詞還有唱腔音色等等,一切皆可token化。

但是,這里的技術(shù)難題是:音頻中的信息太豐富了。舉個(gè)例子:音樂(lè)被錄制下來(lái)之后,如果用離散的數(shù)字來(lái)表示,每秒鐘通常是有44100個(gè)采樣。如果大家仔細(xì)看之前買(mǎi)的CD,上面會(huì)標(biāo)注44.1kHz的字樣。

如果1秒有44100個(gè)采樣,那么3分鐘的一首歌,就有3×60×44100=7938000這么多個(gè)采樣。如果把每個(gè)采樣都對(duì)應(yīng)一個(gè)token,那么對(duì)于模型訓(xùn)練來(lái)說(shuō)是一個(gè)天文數(shù)字。

如何將音頻token化,這成為了AI在音樂(lè)模型上發(fā)展的難題。直到幾年前,Meta和谷歌在音頻采樣壓縮技術(shù)上出現(xiàn)了技術(shù)突破,能實(shí)現(xiàn)將音頻采樣轉(zhuǎn)化為更少量的token,其中的壓縮幅度達(dá)到幾十幾百倍,因此,AI音樂(lè)的發(fā)展才開(kāi)始提速。

Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人Google那邊叫做SoundStream,Meta這邊叫做EnCodec,然后最近還有更好一點(diǎn)叫做Descripts??傊际亲鲱?lèi)似的事情,就是他們都能夠把音頻轉(zhuǎn)換成token, token又能夠還原成音頻,現(xiàn)在就是做到基本人耳聽(tīng)不出來(lái)有任何的失真了。

它可以把音頻壓縮很多很多倍。另外一項(xiàng)技術(shù)就是怎么樣把各種各樣被稱(chēng)為modelity(模態(tài)),比如說(shuō)像這個(gè)文本,像這個(gè)音樂(lè)里面各種的維度,比如說(shuō)像這個(gè)節(jié)拍是四四拍還是四三拍?它的速度 BPM 是120 還是90?或者說(shuō)它的和弦進(jìn)行這個(gè) c major a minor 這樣的進(jìn)行調(diào)性。還有比如說(shuō)它的這情感、流派、用的樂(lè)器,歌詞音高,它的長(zhǎng)度,還有歌手的風(fēng)格都能夠轉(zhuǎn)成token。

剛才說(shuō)的這些各種各樣的模態(tài),可能有十幾種、二十幾種,你都可以把轉(zhuǎn)成token 之后,然后用一個(gè)統(tǒng)一的大語(yǔ)言模型框架,讓大語(yǔ)言模型學(xué)會(huì)某一些模態(tài)跟音頻的 token的對(duì)應(yīng)關(guān)系,那么這個(gè)框架就非常強(qiáng)大。

Google的SoundStream,以及Meta的EnCodec技術(shù),能讓3分鐘音樂(lè)的7938000采樣,被大幅度壓縮到以幾毫秒甚至幾十毫秒的長(zhǎng)度來(lái)計(jì)算的token序 列。每一個(gè)token,都可以用一個(gè)數(shù)字對(duì)應(yīng)表示。

Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人20毫秒對(duì)于人來(lái)講根本聽(tīng)不出來(lái)什么東西,就是Pia,Pia,Pia,可能全都是那樣的聲音,但是你把組合起來(lái)就是一個(gè)完整的音樂(lè)。每20毫秒我們都用一個(gè)數(shù)字來(lái)表示,像這20毫秒可能它是一個(gè)稍微安靜一點(diǎn)的這種鋼琴的聲音,它的這個(gè)表示的數(shù)字就和一個(gè)比較吵的電吉拉聲音會(huì)不一樣,但是如果很相似的鋼琴聲音,它可能就用同一個(gè)數(shù)字表示。

用數(shù)字表現(xiàn)音頻,這被稱(chēng)為codebook(碼本)。在實(shí)際操作中,人們發(fā)現(xiàn),當(dāng)把音樂(lè)轉(zhuǎn)換成一串?dāng)?shù)字的時(shí)候,它會(huì)有一定的程度的失真。也就是說(shuō),碼本的大小會(huì)決定音頻的質(zhì)量。

Roger Chen

Meta音樂(lè)技術(shù)負(fù)責(zé)人

假如說(shuō)我們一共只用1000個(gè)數(shù)字來(lái)表示天底下所有的音頻的話(huà),那么它失真會(huì)非常嚴(yán)重,但是我們用100萬(wàn)個(gè),那可能失真就不那么嚴(yán)重了。

然而,雖然從事AI音樂(lè)的研究員們意識(shí)到大語(yǔ)言模型理解和生成token的方式是一種新的生成音樂(lè)的方式,但難點(diǎn)是,音樂(lè)的序列很長(zhǎng)。比如每個(gè)token代表5毫秒,3分鐘的歌曲就有36000個(gè)token。

即使谷歌和Meta的壓縮技術(shù)已經(jīng)將三分鐘音頻的7938000個(gè)采樣的信息量壓縮到了36000個(gè)token,已經(jīng)縮小了這么多倍,但依然,這樣的token量對(duì)于大語(yǔ)言模型來(lái)說(shuō),還是太大了。

這就形成了一個(gè)悖論:碼本小,失真嚴(yán)重,效果不好;碼本大,效果好,但token量太大而沒(méi)法拿去GPT生成。

Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人那就是一個(gè)比較天真的想法,但是最早人們可能會(huì)常做這樣的嘗試,但發(fā)現(xiàn)像用這種GPT這樣的模型去做生成的時(shí)候,它的上下文是不能無(wú)限的長(zhǎng)的。這對(duì)大語(yǔ)言模型的壓力是非常巨大的,就是你需要去考慮到36000個(gè)過(guò)去發(fā)生的事件,來(lái)決定下個(gè)5毫秒生成一個(gè)什么樣的token。這是一個(gè)非常有挑戰(zhàn)的,而且如果你要訓(xùn)練這樣的模型,你需要這個(gè)可能幾個(gè)billion(幾十億)參數(shù),就是很大的模型了,那么訓(xùn)練起來(lái)你肯定需要花那么幾百萬(wàn)美金才能訓(xùn)練這樣的模型,也不實(shí)用。由于這么大的token量無(wú)法用GPT模型來(lái)完成,在A(yíng)I音樂(lè)的前幾年,效果一直沒(méi)那么驚艷。

當(dāng)時(shí),AI生成音樂(lè)的普遍做法是把音頻先轉(zhuǎn)換成頻譜frequency spectrum,就是這種圖,然后再用圖片的方式從擴(kuò)散模型diffusion model去生成。擴(kuò)散模型的AI生成原理我們?cè)谥爸vSora視頻生成的時(shí)候詳細(xì)講過(guò),感興趣的小伙伴可以去往回翻去看看那期。

但是,用擴(kuò)散模型生成出來(lái)的音頻效果非常不好,因?yàn)槟B(tài)轉(zhuǎn)換期間,會(huì)有很多細(xì)節(jié)信息丟失,導(dǎo)致生成成品的失真。而如果要用GPT模型的話(huà),必須要解決音樂(lè)序列長(zhǎng)、token太多的問(wèn)題。這個(gè)時(shí)候,又一個(gè)重要的技術(shù)出現(xiàn)了突破:第二層音頻壓縮技術(shù)。Chapter 2.2 第二層音頻壓縮技術(shù)簡(jiǎn)單來(lái)說(shuō),在基本無(wú)損音頻信息的情況下,人們發(fā)現(xiàn),音頻token還能被繼續(xù)壓縮。首先,研究員們發(fā)現(xiàn),音頻的token可以進(jìn)行分層壓縮及解碼,來(lái)減小大模型中Transformer架構(gòu)的上下文壓力。我們剛才說(shuō)3分鐘的音樂(lè)有36000個(gè)token,如果將這些token序列三個(gè)分為一組,先將它們打包,在這一層做一個(gè)小小的壓縮,36000個(gè)token就被壓縮到12000個(gè)token了,然后放進(jìn)Global Transformer大語(yǔ)言模型,等模型輸出了12000個(gè)token之后,再把每個(gè)token通過(guò)Local Transformer展開(kāi)成三個(gè)原來(lái)的token數(shù)量。

所以,這樣將Token先壓縮分層,再展開(kāi)的方式讓大模型的上下文壓力減小,也能讓生成的時(shí)間變得更快。從最開(kāi)始的三分鐘音樂(lè)的7938000個(gè)采樣,到如今的12000個(gè)token,這么多倍的壓縮。才有了AI音樂(lè)大模型的風(fēng)靡全球。而我們不排除以后有技術(shù)可以把音頻token量壓縮得更小,讓音樂(lè)生成更快、更順滑、有更多的細(xì)節(jié)和信息。我們來(lái)總結(jié)一下:先是將音樂(lè)token化的技術(shù),加上近年音頻壓縮技術(shù)的出現(xiàn)和發(fā)展,伴隨著GPT這樣的大語(yǔ)言模型能力的增強(qiáng),還有text to speech(文生語(yǔ)音)模型的進(jìn)步,使得AI音樂(lè)的能力得到了飛速提升,無(wú)論在作曲、作詞還是演唱上,都越來(lái)越逼真、越來(lái)越擬人。這也就造就了Suno AI的爆火。從Roger跟我們的分析來(lái)看,只要AI學(xué)了足夠多的參數(shù)和曲目,就可以生成任何風(fēng)格的作品。Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人我們把這些token把它給串起來(lái),然后告訴這個(gè)大語(yǔ)言模型,當(dāng)你看到這樣的token的時(shí)候,你需要輸出這樣子的音樂(lè)。只要這個(gè)大語(yǔ)言模型能夠接收到這樣子的四對(duì)一(歌詞,時(shí)間同步,音高,音色)的對(duì)應(yīng)關(guān)系,它就能夠在聽(tīng)了足夠多的音樂(lè)之后,它就能夠去生成出你想要的這種歌手演唱的這種效果。

所以,如果你是一個(gè)音樂(lè)從業(yè)者的話(huà),面對(duì)如今AI音樂(lè)的能力,你是否擔(dān)心自己的工作不保呢?AI音樂(lè)會(huì)對(duì)我們的娛樂(lè)產(chǎn)業(yè)造成顛覆性的影響嗎?音樂(lè)家和歌手們的飯碗還能保得住嗎?我們跟一眾音樂(lè)家們聊了聊,但好像,大家并沒(méi)有太擔(dān)心被取代這件事情。那么,AI取代的會(huì)是誰(shuí)呢?

03、AI音樂(lè)帶來(lái)的顛覆

Chapter 3.1 AI能替代人類(lèi)音樂(lè)家嗎?在做Suno和AI音樂(lè)這個(gè)選題的前后這么幾個(gè)月的時(shí)間,我自己也在嘗試不同的作曲,試試各種的prompt詞和調(diào)里面的變量,還是挺好玩的,我也會(huì)去聽(tīng)聽(tīng)Suno或者其它AI音樂(lè)平臺(tái)的榜單,聽(tīng)一下別人用AI創(chuàng)作的歌,真的很不錯(cuò)。我也建議大家都去玩玩看。

但是聽(tīng)久了我發(fā)現(xiàn)一個(gè)問(wèn)題:AI創(chuàng)作出來(lái)的歌曲雖然乍一聽(tīng)還不錯(cuò),但不會(huì)有那種讓我一遍又一遍很上頭的音樂(lè),不會(huì)讓我特別有感情上的共鳴,風(fēng)格也慢慢變得很雷同??赡苁怯?xùn)練參數(shù)的匱乏,讓AI音樂(lè)很難創(chuàng)造出人類(lèi)頂級(jí)水平的歌曲,因此我很難想象,這些AI音樂(lè)會(huì)在五年或者十年之后,有任何一首能經(jīng)得起時(shí)間的檢驗(yàn),還能在人們之中口口相傳。

那么,Suno在專(zhuān)業(yè)音樂(lè)人眼中是如何的存在呢?能掀起什么風(fēng)浪呢?我們采訪(fǎng)了知名音樂(lè)博主“叨叨馮”,也是我自己很喜歡看的一個(gè)頻道。叨叨原名是馮建鵬,是美國(guó)Hartford大學(xué)音樂(lè)學(xué)院打擊樂(lè)講師,也是紐約百老匯全職演奏家。他認(rèn)為,AI目前可以達(dá)到音樂(lè)屆的平均水平,但這樣的平均水平,不足以在這個(gè)行業(yè)中出挑。

馮建鵬(叨叨馮)

美國(guó)Hartford大學(xué)音樂(lè)學(xué)院打擊樂(lè)講師

很多音樂(lè)或者說(shuō)之所以經(jīng)典的音樂(lè)它可以流傳下來(lái),其實(shí)更多的是因?yàn)樗休d的人文和它體現(xiàn)的態(tài)度所帶給的所有人的共鳴。那么我們覺(jué)得我們可以帶入到這個(gè)歌的情緒里面,所以有一萬(wàn)首搖滾的歌,可能有那三首就成了傳世的佳作。

但是目前 AI至少咱們測(cè)試出來(lái)的結(jié)果,它缺乏的是最終的那個(gè),讓我們能感覺(jué)到共鳴的那個(gè)態(tài)度,所以它可能能夠?qū)懗鰜?lái),但是很難在行業(yè)里面出類(lèi)拔萃,因此在這個(gè)程度上來(lái)說(shuō),它還沒(méi)有完全的能夠代替人類(lèi)作曲家的這種情感。

馮建鵬在自己的頻道上也做了多期用AI作曲的視頻,嘗試了各種曲風(fēng),包括更細(xì)節(jié)嚴(yán)謹(jǐn)?shù)膒rompt來(lái)控制樂(lè)器、節(jié)奏、音樂(lè)風(fēng)格等等,結(jié)論是AI作曲還有非常多的缺陷,包括Suno無(wú)法理解鋼琴的賦格,特定樂(lè)器的要求也沒(méi)有達(dá)到,生成復(fù)雜一點(diǎn)的音樂(lè)形式,比如說(shuō)交響曲,效果非常差。他認(rèn)為,之后AI模型的能力肯定會(huì)越來(lái)越強(qiáng),但距離替代音樂(lè)人還早,但如今音樂(lè)從業(yè)者也不用抗拒AI,反倒是可以利用AI來(lái)作為更好的創(chuàng)作工具。

馮建鵬(叨叨馮)

美國(guó)Hartford大學(xué)音樂(lè)學(xué)院打擊樂(lè)講師

我自己整體的態(tài)度是謹(jǐn)慎樂(lè)觀(guān),我覺(jué)得第一我們沒(méi)法抗拒這個(gè)洪流,就是歷史發(fā)展就是必然,它的工業(yè)化的這種程度是一定能夠解放人類(lèi)的生產(chǎn)力的。我現(xiàn)在寫(xiě)一首曲子,我可能需要有一個(gè)很好的主意,然后我需要花很長(zhǎng)的時(shí)間把它寫(xiě)成一首曲子出來(lái),然后再花很長(zhǎng)的時(shí)間去錄出來(lái),然后這個(gè)項(xiàng)目才能完成。那么現(xiàn)在有了這個(gè) AI以后,可能可以迅速的提高我的速度,那么作曲家能有更多的時(shí)間真的去想創(chuàng)作曲子,而不用擔(dān)心那些細(xì)枝末節(jié)的東西,所以等等就包括一些低成本的這些音樂(lè)制作,我覺(jué)得它真的是可以的,非常好的,就是很有發(fā)展前景。

但是同時(shí)我對(duì)這個(gè)事也不是特別的恐慌,就是人類(lèi)還是有一些自己獨(dú)特的一些特性,目前AI至少說(shuō)它的這個(gè)模型、這個(gè)算法可能暫時(shí)還做不到。很多的音樂(lè)其實(shí)它是有很?chē)?yán)謹(jǐn)?shù)拿鞔_的邏輯在里面的,如果我不能從這個(gè)方式去思考的話(huà),那我只能是去模仿一個(gè)形似。但是人類(lèi)的真正的這個(gè)思考的能力,以及我們2000年來(lái)攢下來(lái)的這些有跡可循的文化上的積淀,人類(lèi)也是在這個(gè)程度上持續(xù)在發(fā)展的,那么還是有一定的優(yōu)勢(shì)的。

所以除非人工智能真的發(fā)展出了智能,他有自己的意識(shí),他有創(chuàng)作的原因,他有情緒,有創(chuàng)作的動(dòng)力,那么人類(lèi)可能才會(huì)真正的受到威脅,作為一個(gè)整個(gè)行業(yè),當(dāng)然已經(jīng)有人會(huì)受到威脅了,這個(gè)我認(rèn)為是的。但是整個(gè)行業(yè)說(shuō)取代人類(lèi)的話(huà),我覺(jué)得我不擔(dān)心。所以我對(duì)他是保持謹(jǐn)慎的樂(lè)觀(guān),我覺(jué)得他是一定會(huì)對(duì)我們是有幫助的,我們沒(méi)法抗拒,但是距離對(duì)我們有足夠的威脅,完全取代我們那個(gè)路非常非常的長(zhǎng)。

而馮建鵬屢次提到的音樂(lè)“態(tài)度”和“情緒”,也是我們?cè)诟姸嘁魳?lè)演奏者們聊天的時(shí)候他們提到的最多的關(guān)鍵詞。他們認(rèn)為,這是人類(lèi)在演奏樂(lè)器或演唱的時(shí)候,最重要的元素。就如同,同樣的一個(gè)曲譜,不同演奏者會(huì)有不同的解讀和表現(xiàn)方式,而就算是同一首曲子同一個(gè)演奏者,他的每一次表演都是不同的,都是獨(dú)一無(wú)二的。而情感的共鳴,是對(duì)于接受音樂(lè)欣賞音樂(lè)的作為觀(guān)眾的我們來(lái)說(shuō),最珍貴的部分。

Kevin Yu大提琴家我曾看過(guò)AI演奏大提琴,也見(jiàn)過(guò)機(jī)器人演奏大提琴。我認(rèn)為它們目前只能以某種方式演奏。然而每把大提琴都有些許不同,每場(chǎng)演出也各不相同,每位演奏者也不同。因此,我認(rèn)為AI還沒(méi)有能力做到古典音樂(lè)演奏中我們所需要的某些方面,比如即興演奏及表達(dá)。我可以演奏巴赫大提琴組曲的第一種方式是,我可以拉的很寬廣,很慢,很深沉;或是帶有更多動(dòng)感的,更空靈的聲音,那樣就更有流暢感,更輕盈的聲音。我敢說(shuō)我很長(zhǎng)時(shí)間不會(huì)失業(yè)。

建議大家可以去視頻里聽(tīng)聽(tīng)Kevin演奏的不同風(fēng)格的曲子。Chapter 3.2 版權(quán)音樂(lè)和口水歌將受沖擊我想了想,我會(huì)買(mǎi)高價(jià)票去看朗朗或者王羽佳的演奏會(huì),但我估計(jì)不會(huì)買(mǎi)票去聽(tīng)機(jī)器人彈鋼琴。那么問(wèn)題來(lái)了,AI音樂(lè),如果以現(xiàn)在的能力來(lái)看,它沖擊的是什么市場(chǎng)呢?Meta Music and copyrights團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人Huang Hao告訴我們,版權(quán)庫(kù)音樂(lè)和口水歌市場(chǎng)將會(huì)是受到?jīng)_擊的市場(chǎng)蛋糕。

Hao Huang

Meta音樂(lè)及版權(quán)負(fù)責(zé)人

我覺(jué)得會(huì)替代一個(gè)專(zhuān)門(mén)的市場(chǎng)叫Stock music 或者叫Production music,就是專(zhuān)門(mén)有這些公司提供Royalty-free的音樂(lè),然后你跟他付訂閱費(fèi),或者是付版權(quán)使用費(fèi),然后你可以用他們的歌做任何事情。這個(gè)market 大概有個(gè)幾個(gè)billion(幾十億美元)這個(gè)樣子,就這部分的market我覺(jué)得完全可以被AI取代。它相對(duì)于A(yíng)I音樂(lè),既沒(méi)有質(zhì)量上的優(yōu)勢(shì),又沒(méi)有在發(fā)現(xiàn)新音樂(lè)上的優(yōu)勢(shì),AI音樂(lè)能夠讓你很輕易的就是拿一個(gè)prompt,就輸入幾句話(huà)能夠生成想要的歌,這個(gè)優(yōu)勢(shì)是完全沒(méi)法去打敗它的。

第二階段我覺(jué)得做口水歌的這些網(wǎng)紅歌手可能就沒(méi)了。其實(shí)在國(guó)內(nèi)抖音上面幾乎被這種非常低質(zhì)量的口水歌完全占據(jù)了,這些歌你拿來(lái)做視頻是非常有意思,因?yàn)樗墓?jié)奏一般都很歡快,然后它的旋律實(shí)際上是大眾都已經(jīng)熟知的那些和旋。我覺(jué)得這些網(wǎng)紅歌、口水歌可能會(huì)很快的被替代掉。

那什么是沒(méi)法或者說(shuō)很難去替代呢?就是很強(qiáng)的音樂(lè)人,比如說(shuō)周杰倫,Taylor Swift、Billie Eilish這種,Coplay這些我覺(jué)得都很難(被替代)。所以非常有創(chuàng)意的這些音樂(lè),我覺(jué)得還是有它存在的價(jià)值,但是可以看得到其實(shí)對(duì)音樂(lè)人,對(duì)整個(gè)市場(chǎng),我覺(jué)得還是有很大的擠壓的。

因?yàn)橐魳?lè)是一個(gè)非常頭部的市場(chǎng),可能就是頂級(jí)的音樂(lè)人,占了可能99%點(diǎn)幾的份額,剩下的都是一大堆的這種long tail(長(zhǎng)尾)的一些音樂(lè)人,那我覺(jué)得其實(shí)對(duì)這些長(zhǎng)尾音樂(lè)人可能是一個(gè)很大的挑戰(zhàn)。

對(duì)于音樂(lè)創(chuàng)作者和演奏者來(lái)說(shuō),音樂(lè)的功能性和商品性也許慢慢會(huì)被AI替代,但音樂(lè)的精神共鳴層面永遠(yuǎn)處于個(gè)人。

Ziki D

Party Sucks及Dminished 5th樂(lè)隊(duì)主唱

音樂(lè)就相當(dāng)于是更高級(jí)的一個(gè)交流語(yǔ)言,所以它沒(méi)有辦法像一個(gè)商品一樣,或者是什么東西把它生成出來(lái)。它更多的是兩方面,一方面是音樂(lè)人自己,他有一個(gè)表達(dá)的訴求,這部分是AI百分之百?zèng)]有取代的可能性的。但另一方面如果你把它作為一個(gè)商品來(lái)講的話(huà),那我覺(jué)得AI做的已經(jīng)相當(dāng)好了,它已經(jīng)在一個(gè)非常好的道路上,它在慢慢的向前走,我覺(jué)得是非常有可能取代很多商業(yè)音樂(lè)的。

陳茜

那音樂(lè)人的訴求是什么?

Ziki D

Party Sucks及Dminished 5th樂(lè)隊(duì)主唱

音樂(lè)人的訴求更多的是自己的一種發(fā)泄與表達(dá),因?yàn)樗窍裎艺f(shuō)的建立在可能語(yǔ)言之上的一種表達(dá)方式,你可以不止跟人類(lèi)交流,可以跟你心里的各種各樣的不一樣的生靈和一些你心里創(chuàng)造的生物在交流的那種感覺(jué),所以就是很抽象的很不一樣的表達(dá)方式。

那我們現(xiàn)在清楚了在音樂(lè)創(chuàng)作上和市場(chǎng)沖擊上,AI音樂(lè)技術(shù)的邊界。而在立法上,大公司們以及政策制定者們也正在行動(dòng),而這將更加規(guī)范AI音樂(lè)的未來(lái)發(fā)展。

04 訴訟、立法、零樣本訓(xùn)練與AI音樂(lè)的未來(lái)

在2024年7月12日,美國(guó)參議院的三位國(guó)會(huì)議員提出了一個(gè)針對(duì)AI版權(quán)的新法案COPIED Act,全稱(chēng)是The Content Origin Protection and Integrity from Edited and Deepfaked Media Act,直譯過(guò)來(lái)是“內(nèi)容來(lái)源保護(hù)和完整性防止編輯和深度偽造媒體法案”。

這個(gè)法案的目的,主要是制定完善的規(guī)則來(lái)標(biāo)記、驗(yàn)證和檢測(cè)生成式AI產(chǎn)品,包括文字、圖片、音頻和視頻,提升生成內(nèi)容的透明度防止被非法亂用以及保護(hù)公眾的個(gè)人數(shù)據(jù)和隱私。同時(shí)保護(hù)記者、音樂(lè)人、演員和其他藝術(shù)、商業(yè)群體的利益,并保留對(duì)非法使用數(shù)據(jù)訓(xùn)練AI大模型的法律追究權(quán)益。

比如說(shuō),法案規(guī)定,任何商業(yè)生成式AI產(chǎn)品必須讓用戶(hù)知道這是AI生成的,比如說(shuō)ChatGPT生成的廣告文案或社交媒體帖子,一旦是商用范疇,就必須要明確標(biāo)注是由AI生成,并且禁止任何人故意移除或篡改AI生成的標(biāo)注信息。

另外這個(gè)法案重要的一點(diǎn)是給出了明確的賠償機(jī)制,明確禁止AI廠(chǎng)商在未經(jīng)明確、知情同意的情況下,使用具有受版權(quán)保護(hù)作品的數(shù)字內(nèi)容來(lái)訓(xùn)練AI大模型和算法。如果侵犯便需要進(jìn)行賠償。

這個(gè)法案一出,是受到了各種工會(huì)、唱片協(xié)會(huì)、新聞聯(lián)盟等等組織的大聲叫好。

所以,我們?cè)陂_(kāi)頭提到的Suno被三大唱片公司起訴的官司可能會(huì)根據(jù)這個(gè)最新的法案來(lái)宣判指導(dǎo),我們也會(huì)為大家繼續(xù)關(guān)注這方面的法律進(jìn)展。

但毫無(wú)疑問(wèn)的是,技術(shù)和法律的關(guān)系,有時(shí)候,總是很模糊,經(jīng)常是上有政策下有對(duì)策。

比如說(shuō),我最近學(xué)習(xí)到,AI音頻上還有一個(gè)技術(shù)被稱(chēng)為“零樣本訓(xùn)練”(Zero-shot learning)。

在學(xué)術(shù)上的解釋是:訓(xùn)練AI模型來(lái)識(shí)別和分類(lèi)對(duì)象或概念,而無(wú)需事先見(jiàn)過(guò)這些類(lèi)別或概念的任何示例。

簡(jiǎn)單一點(diǎn)來(lái)說(shuō),就是把“數(shù)據(jù)”和“大模型的學(xué)習(xí)方式”給解耦合,比如說(shuō)你告訴大模型我要生成一個(gè)跟某位歌手很像的聲音,或者是一段這個(gè)樂(lè)器音色很像的曲子,那么通過(guò)“零樣本訓(xùn)練”,大模型雖然沒(méi)有見(jiàn)過(guò)或者通過(guò)特定樣本訓(xùn)練,但它也可以模仿進(jìn)行輸出。

“零樣本訓(xùn)練”目前在音樂(lè)生成上還沒(méi)有被廣泛應(yīng)用,但在語(yǔ)音合成上已經(jīng)很成熟了,所以我們可以預(yù)見(jiàn),以后如果用戶(hù)拿著幾秒種的音頻文件作為例子,大模型就可以迅速?gòu)?fù)制例子音色,這樣的技術(shù)對(duì)產(chǎn)權(quán)保護(hù)更難監(jiān)管。

突然想到,前段時(shí)間OpenAI在發(fā)布產(chǎn)品GPT-4o的時(shí)候,語(yǔ)音的音色被認(rèn)為很像電影《Her》的配音演員斯嘉麗·約翰遜。而約翰遜爆料說(shuō),之前OpenAI CEO Sam Altman確實(shí)找過(guò)她希望用她的聲音給4o配音,但她拒絕了。

但4o出來(lái)的語(yǔ)音模式,有一說(shuō)一,確實(shí)很像寡姐在Her中的聲音。

在GPT4o發(fā)布之后,約翰遜大為震驚和惱怒,雖然沒(méi)有正式去OpenAI提起訴訟,但已經(jīng)組織好了律師團(tuán)隊(duì)來(lái)準(zhǔn)備下一步的法律動(dòng)作。OpenAI這邊是否認(rèn)了使用約翰遜的聲音作為訓(xùn)練樣本,而是使用的另外一位配音演員。

我也不知道OpenAI是否使用了零樣本訓(xùn)練的技術(shù),但我相信,隨著各種生成式AI技術(shù)和產(chǎn)品能力的提升,法律、商業(yè)以及社會(huì)都需要一些新的共識(shí)。

05 新的共識(shí)與不完美的人類(lèi)

但我想,不變的,依然是人類(lèi)對(duì)音樂(lè)的需要,無(wú)論是聽(tīng)眾還是演奏者,無(wú)論是大師還是我這樣主要為了自嗨的業(yè)余小白。

人類(lèi)的創(chuàng)作是充滿(mǎn)不確定性的,有激進(jìn),有感性,有隨心所欲,有噴薄而出的情感,有為了追求完美的一萬(wàn)小時(shí)定律,也有為了追求與眾不同的鋌而走險(xiǎn)。

人類(lèi)是會(huì)犯錯(cuò)的,但正是因?yàn)橛羞@些錯(cuò)誤,才讓完美更加難能可貴。而當(dāng)完美唾手可得,那藝術(shù)也不再是眾人的信仰了。

AI的能力會(huì)持續(xù)進(jìn)步,但人類(lèi)的音樂(lè)追求也會(huì)持續(xù)進(jìn)步。頂級(jí)的創(chuàng)造力,將不會(huì)被替代。

最后,我用Suno寫(xiě)了一首歌,prompt詞大概是我們硅谷101從事科技與商業(yè)內(nèi)容制作的愿景。很短的prompt,用幾十秒就生成出來(lái)了,歡迎大家鑒賞、留言告訴我們,你們對(duì)AI生成音樂(lè)的看法。

【創(chuàng)作團(tuán)隊(duì)】監(jiān)制|泓君 陳茜主持|陳茜

攝像|陳茜后期|Jacob 陳茜運(yùn)營(yíng)|王梓沁 Emily

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

震動(dòng)的藝術(shù):AI音樂(lè)大模型背后的技術(shù)突破、版權(quán)訴訟和資本蛋糕

AI音樂(lè)動(dòng)了誰(shuí)的蛋糕?

文|硅谷101 陳茜

音樂(lè),對(duì)你來(lái)說(shuō),是什么?

音樂(lè)對(duì)于我們中的許多人來(lái)說(shuō),是生活中不可或缺的一部分。它不僅僅是娛樂(lè),更是一種情感的表達(dá)和交流方式。音樂(lè)是一種語(yǔ)言,可以用來(lái)表達(dá)感受,描繪作曲家想要傳達(dá)的某種情緒或感覺(jué),同時(shí)每個(gè)人也會(huì)對(duì)原始樂(lè)譜進(jìn)行自己的解讀。

但在2024年,我聽(tīng)到了一個(gè)截然不同的答案。Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人:音樂(lè)的本質(zhì)是我們稱(chēng)為 organized sound(有組織的聲音)。它的在微小的單元上看,它就是空氣的震動(dòng),不同的頻率、不同的幅度,它再這么排列組合,就組合出了一些美妙的音樂(lè)。

如果以“微小單元空氣震動(dòng)的排列組合”來(lái)定義音樂(lè),這簡(jiǎn)直太符合這一輪生成式人工智能的能力覆蓋范圍了。

果不其然,在2024年,以Suno為首的眾多AI音樂(lè)模型和產(chǎn)品爆火,這些用簡(jiǎn)單提示詞、幾十秒就能生成的AI作詞、作曲、演唱曲目,效果好到讓人大為震撼。

音樂(lè)AI模型是怎么發(fā)展起來(lái)的?中間的技術(shù)細(xì)節(jié)是如何實(shí)現(xiàn)的?AI音樂(lè)目前能否替代人類(lèi)歌手或音樂(lè)家呢?以及AI浪潮將會(huì)如何影響整個(gè)音樂(lè)產(chǎn)業(yè)市場(chǎng)?

硅谷101采訪(fǎng)了AI音樂(lè)模型從業(yè)者、打擊樂(lè)教授、樂(lè)隊(duì)和各種樂(lè)器的演奏者,和大家一起來(lái)共同探索AI音樂(lè)的顛覆與技術(shù)邊界。

01 Suno AI的風(fēng)靡與爭(zhēng)議

2024年5月末,總部位于波士頓的AI音樂(lè)公司Suno在社交媒體X上宣布成功完成了1.25億美元的 B輪融資,投后估值達(dá)到5億美元,用戶(hù)數(shù)量快速增長(zhǎng)至超過(guò)1000萬(wàn)。微軟等科技巨頭更是將 Suno的AI音樂(lè)創(chuàng)作功能直接整合到了旗下的Copilot產(chǎn)品中。

像這輪AI浪潮中的眾多明星項(xiàng)目一樣,Suno的創(chuàng)立時(shí)間很短,2022年才成立,在B輪融資之前公司僅有12人。

在2024年3月,Suno突然爆火。Text to music,文生音樂(lè)的能力巨大提升,讓大家驚呼:AI音樂(lè)的ChatGPT時(shí)刻,就這么到來(lái)了。

乍一聽(tīng),真的覺(jué)得AI作曲已經(jīng)非常好聽(tīng)了,不管是曲調(diào),還是歌詞,還是歌手唱腔,作為一個(gè)音樂(lè)小白和唱歌經(jīng)常走調(diào)的人,我覺(jué)得這些歌已經(jīng)非常好聽(tīng),遠(yuǎn)超現(xiàn)在的一些十八線(xiàn)歌手的網(wǎng)絡(luò)口水歌。而這會(huì)不會(huì)掀起音樂(lè)市場(chǎng)和唱片公司這些資本方的腥風(fēng)血雨呢?

2024年6月底,根據(jù)美國(guó)唱片業(yè)協(xié)會(huì)(Recording Industry Association of America, RIAA)的官方通告,包括索尼、環(huán)球和華納在內(nèi)的三大唱片公司及旗下廠(chǎng)牌集體向Suno和另外一家AI音樂(lè)應(yīng)用Udio發(fā)起訴訟。起訴狀中提供了旋律雷同的例子和細(xì)節(jié)對(duì)比分析,而原告要求每一首侵權(quán)作品需賠償15萬(wàn)美元。

這個(gè)官司打出結(jié)果可能還需要一段時(shí)間,不過(guò)我其實(shí)對(duì)這起訴訟也并不感到意外。首先,AI音樂(lè)的出現(xiàn)勢(shì)必會(huì)動(dòng)到傳統(tǒng)音樂(lè)資本的市場(chǎng)蛋糕,肯定會(huì)引發(fā)抵觸,這個(gè)市場(chǎng)蛋糕是具體哪一塊我們稍后會(huì)分析。

其次,在Suno剛火起來(lái)的時(shí)候,有AI模型的業(yè)內(nèi)人士就對(duì)我們表達(dá)過(guò)懷疑,他們認(rèn)為,Suno的效果這么好,可能是因?yàn)橛昧擞邪鏅?quán)的音樂(lè)做訓(xùn)練。

我們?cè)谶@里不作任何的結(jié)論,只是單純的傳達(dá)出業(yè)內(nèi)人士的困惑:他們認(rèn)為,AI音樂(lè)這個(gè)產(chǎn)品很多科技公司,如果說(shuō)谷歌和Meta都在做,但效果都不如Suno AI,難點(diǎn)都不在模型本身,難點(diǎn)是在于可以用來(lái)訓(xùn)練的參數(shù),也就是沒(méi)有版權(quán)問(wèn)題的歌曲。

比如說(shuō):一線(xiàn)歌手的流行音樂(lè)不能用,有版權(quán);影視作品音樂(lè)不能用,有版權(quán);就連已經(jīng)算作public domain(公有領(lǐng)域)的交響樂(lè),只有曲譜是沒(méi)有版權(quán)問(wèn)題的,而被各大樂(lè)團(tuán)演奏出來(lái)的版本依然是有版權(quán)限制的,也是不能拿去做AI訓(xùn)練的。

也就是說(shuō),可能人類(lèi)目前最頂尖的音樂(lè)作品,很大一部分都是無(wú)法擺脫版權(quán)問(wèn)題而拿去給AI訓(xùn)練的。那么谷歌和Meta怎么解決這個(gè)問(wèn)題呢?

作為科技巨頭,他們花了天價(jià),去雇一群音樂(lè)創(chuàng)作人,專(zhuān)門(mén)給他們自己創(chuàng)作不同類(lèi)型的音樂(lè),然后用這些沒(méi)有版權(quán)顧慮的音樂(lè)去訓(xùn)練自己的AI音樂(lè)模型。這個(gè)成本,顯然是Suno等小創(chuàng)業(yè)公司無(wú)法去負(fù)擔(dān)的。

這場(chǎng)官司會(huì)如何發(fā)展,Suno到底有沒(méi)有用有版權(quán)的音樂(lè)訓(xùn)練模型,我們也會(huì)繼續(xù)關(guān)注事態(tài)的發(fā)展。

不過(guò),我們來(lái)繼續(xù)聊點(diǎn)好玩的,這期節(jié)目我們也邀請(qǐng)到了Meta的Music Tech Lead(AI音樂(lè)技術(shù)主管)Roger Chen,來(lái)跟我們一起詳細(xì)聊一下AI音樂(lè)模型的細(xì)節(jié)。

02 AI音樂(lè)模型拆解Chapter 2.1 第一層壓縮及碼本

Roger就告訴我們,用機(jī)器學(xué)習(xí)做音樂(lè)這件事情已經(jīng)做了好幾年了。在業(yè)界大家已經(jīng)意識(shí)到,如果“音樂(lè)的定義”可以被理解成,聲音在空氣中的震動(dòng)產(chǎn)生不同的頻率和幅度,那我們可以把聲音標(biāo)記成電信號(hào)。

我們知道,在如今基于Transformer架構(gòu)的大語(yǔ)言模型中,token代表模型可以理解和生成的最小意義單位,是模型的基礎(chǔ)單位。

而在A(yíng)I音樂(lè)中,各種音樂(lè)維度都可以表達(dá)成token序列,包括:節(jié)奏、速度、和聲、調(diào)性、段落、旋律、歌詞還有唱腔音色等等,一切皆可token化。

但是,這里的技術(shù)難題是:音頻中的信息太豐富了。舉個(gè)例子:音樂(lè)被錄制下來(lái)之后,如果用離散的數(shù)字來(lái)表示,每秒鐘通常是有44100個(gè)采樣。如果大家仔細(xì)看之前買(mǎi)的CD,上面會(huì)標(biāo)注44.1kHz的字樣。

如果1秒有44100個(gè)采樣,那么3分鐘的一首歌,就有3×60×44100=7938000這么多個(gè)采樣。如果把每個(gè)采樣都對(duì)應(yīng)一個(gè)token,那么對(duì)于模型訓(xùn)練來(lái)說(shuō)是一個(gè)天文數(shù)字。

如何將音頻token化,這成為了AI在音樂(lè)模型上發(fā)展的難題。直到幾年前,Meta和谷歌在音頻采樣壓縮技術(shù)上出現(xiàn)了技術(shù)突破,能實(shí)現(xiàn)將音頻采樣轉(zhuǎn)化為更少量的token,其中的壓縮幅度達(dá)到幾十幾百倍,因此,AI音樂(lè)的發(fā)展才開(kāi)始提速。

Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人Google那邊叫做SoundStream,Meta這邊叫做EnCodec,然后最近還有更好一點(diǎn)叫做Descripts??傊际亲鲱?lèi)似的事情,就是他們都能夠把音頻轉(zhuǎn)換成token, token又能夠還原成音頻,現(xiàn)在就是做到基本人耳聽(tīng)不出來(lái)有任何的失真了。

它可以把音頻壓縮很多很多倍。另外一項(xiàng)技術(shù)就是怎么樣把各種各樣被稱(chēng)為modelity(模態(tài)),比如說(shuō)像這個(gè)文本,像這個(gè)音樂(lè)里面各種的維度,比如說(shuō)像這個(gè)節(jié)拍是四四拍還是四三拍?它的速度 BPM 是120 還是90?或者說(shuō)它的和弦進(jìn)行這個(gè) c major a minor 這樣的進(jìn)行調(diào)性。還有比如說(shuō)它的這情感、流派、用的樂(lè)器,歌詞音高,它的長(zhǎng)度,還有歌手的風(fēng)格都能夠轉(zhuǎn)成token。

剛才說(shuō)的這些各種各樣的模態(tài),可能有十幾種、二十幾種,你都可以把轉(zhuǎn)成token 之后,然后用一個(gè)統(tǒng)一的大語(yǔ)言模型框架,讓大語(yǔ)言模型學(xué)會(huì)某一些模態(tài)跟音頻的 token的對(duì)應(yīng)關(guān)系,那么這個(gè)框架就非常強(qiáng)大。

Google的SoundStream,以及Meta的EnCodec技術(shù),能讓3分鐘音樂(lè)的7938000采樣,被大幅度壓縮到以幾毫秒甚至幾十毫秒的長(zhǎng)度來(lái)計(jì)算的token序 列。每一個(gè)token,都可以用一個(gè)數(shù)字對(duì)應(yīng)表示。

Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人20毫秒對(duì)于人來(lái)講根本聽(tīng)不出來(lái)什么東西,就是Pia,Pia,Pia,可能全都是那樣的聲音,但是你把組合起來(lái)就是一個(gè)完整的音樂(lè)。每20毫秒我們都用一個(gè)數(shù)字來(lái)表示,像這20毫秒可能它是一個(gè)稍微安靜一點(diǎn)的這種鋼琴的聲音,它的這個(gè)表示的數(shù)字就和一個(gè)比較吵的電吉拉聲音會(huì)不一樣,但是如果很相似的鋼琴聲音,它可能就用同一個(gè)數(shù)字表示。

用數(shù)字表現(xiàn)音頻,這被稱(chēng)為codebook(碼本)。在實(shí)際操作中,人們發(fā)現(xiàn),當(dāng)把音樂(lè)轉(zhuǎn)換成一串?dāng)?shù)字的時(shí)候,它會(huì)有一定的程度的失真。也就是說(shuō),碼本的大小會(huì)決定音頻的質(zhì)量。

Roger Chen

Meta音樂(lè)技術(shù)負(fù)責(zé)人

假如說(shuō)我們一共只用1000個(gè)數(shù)字來(lái)表示天底下所有的音頻的話(huà),那么它失真會(huì)非常嚴(yán)重,但是我們用100萬(wàn)個(gè),那可能失真就不那么嚴(yán)重了。

然而,雖然從事AI音樂(lè)的研究員們意識(shí)到大語(yǔ)言模型理解和生成token的方式是一種新的生成音樂(lè)的方式,但難點(diǎn)是,音樂(lè)的序列很長(zhǎng)。比如每個(gè)token代表5毫秒,3分鐘的歌曲就有36000個(gè)token。

即使谷歌和Meta的壓縮技術(shù)已經(jīng)將三分鐘音頻的7938000個(gè)采樣的信息量壓縮到了36000個(gè)token,已經(jīng)縮小了這么多倍,但依然,這樣的token量對(duì)于大語(yǔ)言模型來(lái)說(shuō),還是太大了。

這就形成了一個(gè)悖論:碼本小,失真嚴(yán)重,效果不好;碼本大,效果好,但token量太大而沒(méi)法拿去GPT生成。

Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人那就是一個(gè)比較天真的想法,但是最早人們可能會(huì)常做這樣的嘗試,但發(fā)現(xiàn)像用這種GPT這樣的模型去做生成的時(shí)候,它的上下文是不能無(wú)限的長(zhǎng)的。這對(duì)大語(yǔ)言模型的壓力是非常巨大的,就是你需要去考慮到36000個(gè)過(guò)去發(fā)生的事件,來(lái)決定下個(gè)5毫秒生成一個(gè)什么樣的token。這是一個(gè)非常有挑戰(zhàn)的,而且如果你要訓(xùn)練這樣的模型,你需要這個(gè)可能幾個(gè)billion(幾十億)參數(shù),就是很大的模型了,那么訓(xùn)練起來(lái)你肯定需要花那么幾百萬(wàn)美金才能訓(xùn)練這樣的模型,也不實(shí)用。由于這么大的token量無(wú)法用GPT模型來(lái)完成,在A(yíng)I音樂(lè)的前幾年,效果一直沒(méi)那么驚艷。

當(dāng)時(shí),AI生成音樂(lè)的普遍做法是把音頻先轉(zhuǎn)換成頻譜frequency spectrum,就是這種圖,然后再用圖片的方式從擴(kuò)散模型diffusion model去生成。擴(kuò)散模型的AI生成原理我們?cè)谥爸vSora視頻生成的時(shí)候詳細(xì)講過(guò),感興趣的小伙伴可以去往回翻去看看那期。

但是,用擴(kuò)散模型生成出來(lái)的音頻效果非常不好,因?yàn)槟B(tài)轉(zhuǎn)換期間,會(huì)有很多細(xì)節(jié)信息丟失,導(dǎo)致生成成品的失真。而如果要用GPT模型的話(huà),必須要解決音樂(lè)序列長(zhǎng)、token太多的問(wèn)題。這個(gè)時(shí)候,又一個(gè)重要的技術(shù)出現(xiàn)了突破:第二層音頻壓縮技術(shù)。Chapter 2.2 第二層音頻壓縮技術(shù)簡(jiǎn)單來(lái)說(shuō),在基本無(wú)損音頻信息的情況下,人們發(fā)現(xiàn),音頻token還能被繼續(xù)壓縮。首先,研究員們發(fā)現(xiàn),音頻的token可以進(jìn)行分層壓縮及解碼,來(lái)減小大模型中Transformer架構(gòu)的上下文壓力。我們剛才說(shuō)3分鐘的音樂(lè)有36000個(gè)token,如果將這些token序列三個(gè)分為一組,先將它們打包,在這一層做一個(gè)小小的壓縮,36000個(gè)token就被壓縮到12000個(gè)token了,然后放進(jìn)Global Transformer大語(yǔ)言模型,等模型輸出了12000個(gè)token之后,再把每個(gè)token通過(guò)Local Transformer展開(kāi)成三個(gè)原來(lái)的token數(shù)量。

所以,這樣將Token先壓縮分層,再展開(kāi)的方式讓大模型的上下文壓力減小,也能讓生成的時(shí)間變得更快。從最開(kāi)始的三分鐘音樂(lè)的7938000個(gè)采樣,到如今的12000個(gè)token,這么多倍的壓縮。才有了AI音樂(lè)大模型的風(fēng)靡全球。而我們不排除以后有技術(shù)可以把音頻token量壓縮得更小,讓音樂(lè)生成更快、更順滑、有更多的細(xì)節(jié)和信息。我們來(lái)總結(jié)一下:先是將音樂(lè)token化的技術(shù),加上近年音頻壓縮技術(shù)的出現(xiàn)和發(fā)展,伴隨著GPT這樣的大語(yǔ)言模型能力的增強(qiáng),還有text to speech(文生語(yǔ)音)模型的進(jìn)步,使得AI音樂(lè)的能力得到了飛速提升,無(wú)論在作曲、作詞還是演唱上,都越來(lái)越逼真、越來(lái)越擬人。這也就造就了Suno AI的爆火。從Roger跟我們的分析來(lái)看,只要AI學(xué)了足夠多的參數(shù)和曲目,就可以生成任何風(fēng)格的作品。Roger ChenMeta音樂(lè)技術(shù)負(fù)責(zé)人我們把這些token把它給串起來(lái),然后告訴這個(gè)大語(yǔ)言模型,當(dāng)你看到這樣的token的時(shí)候,你需要輸出這樣子的音樂(lè)。只要這個(gè)大語(yǔ)言模型能夠接收到這樣子的四對(duì)一(歌詞,時(shí)間同步,音高,音色)的對(duì)應(yīng)關(guān)系,它就能夠在聽(tīng)了足夠多的音樂(lè)之后,它就能夠去生成出你想要的這種歌手演唱的這種效果。

所以,如果你是一個(gè)音樂(lè)從業(yè)者的話(huà),面對(duì)如今AI音樂(lè)的能力,你是否擔(dān)心自己的工作不保呢?AI音樂(lè)會(huì)對(duì)我們的娛樂(lè)產(chǎn)業(yè)造成顛覆性的影響嗎?音樂(lè)家和歌手們的飯碗還能保得住嗎?我們跟一眾音樂(lè)家們聊了聊,但好像,大家并沒(méi)有太擔(dān)心被取代這件事情。那么,AI取代的會(huì)是誰(shuí)呢?

03、AI音樂(lè)帶來(lái)的顛覆

Chapter 3.1 AI能替代人類(lèi)音樂(lè)家嗎?在做Suno和AI音樂(lè)這個(gè)選題的前后這么幾個(gè)月的時(shí)間,我自己也在嘗試不同的作曲,試試各種的prompt詞和調(diào)里面的變量,還是挺好玩的,我也會(huì)去聽(tīng)聽(tīng)Suno或者其它AI音樂(lè)平臺(tái)的榜單,聽(tīng)一下別人用AI創(chuàng)作的歌,真的很不錯(cuò)。我也建議大家都去玩玩看。

但是聽(tīng)久了我發(fā)現(xiàn)一個(gè)問(wèn)題:AI創(chuàng)作出來(lái)的歌曲雖然乍一聽(tīng)還不錯(cuò),但不會(huì)有那種讓我一遍又一遍很上頭的音樂(lè),不會(huì)讓我特別有感情上的共鳴,風(fēng)格也慢慢變得很雷同。可能是訓(xùn)練參數(shù)的匱乏,讓AI音樂(lè)很難創(chuàng)造出人類(lèi)頂級(jí)水平的歌曲,因此我很難想象,這些AI音樂(lè)會(huì)在五年或者十年之后,有任何一首能經(jīng)得起時(shí)間的檢驗(yàn),還能在人們之中口口相傳。

那么,Suno在專(zhuān)業(yè)音樂(lè)人眼中是如何的存在呢?能掀起什么風(fēng)浪呢?我們采訪(fǎng)了知名音樂(lè)博主“叨叨馮”,也是我自己很喜歡看的一個(gè)頻道。叨叨原名是馮建鵬,是美國(guó)Hartford大學(xué)音樂(lè)學(xué)院打擊樂(lè)講師,也是紐約百老匯全職演奏家。他認(rèn)為,AI目前可以達(dá)到音樂(lè)屆的平均水平,但這樣的平均水平,不足以在這個(gè)行業(yè)中出挑。

馮建鵬(叨叨馮)

美國(guó)Hartford大學(xué)音樂(lè)學(xué)院打擊樂(lè)講師

很多音樂(lè)或者說(shuō)之所以經(jīng)典的音樂(lè)它可以流傳下來(lái),其實(shí)更多的是因?yàn)樗休d的人文和它體現(xiàn)的態(tài)度所帶給的所有人的共鳴。那么我們覺(jué)得我們可以帶入到這個(gè)歌的情緒里面,所以有一萬(wàn)首搖滾的歌,可能有那三首就成了傳世的佳作。

但是目前 AI至少咱們測(cè)試出來(lái)的結(jié)果,它缺乏的是最終的那個(gè),讓我們能感覺(jué)到共鳴的那個(gè)態(tài)度,所以它可能能夠?qū)懗鰜?lái),但是很難在行業(yè)里面出類(lèi)拔萃,因此在這個(gè)程度上來(lái)說(shuō),它還沒(méi)有完全的能夠代替人類(lèi)作曲家的這種情感。

馮建鵬在自己的頻道上也做了多期用AI作曲的視頻,嘗試了各種曲風(fēng),包括更細(xì)節(jié)嚴(yán)謹(jǐn)?shù)膒rompt來(lái)控制樂(lè)器、節(jié)奏、音樂(lè)風(fēng)格等等,結(jié)論是AI作曲還有非常多的缺陷,包括Suno無(wú)法理解鋼琴的賦格,特定樂(lè)器的要求也沒(méi)有達(dá)到,生成復(fù)雜一點(diǎn)的音樂(lè)形式,比如說(shuō)交響曲,效果非常差。他認(rèn)為,之后AI模型的能力肯定會(huì)越來(lái)越強(qiáng),但距離替代音樂(lè)人還早,但如今音樂(lè)從業(yè)者也不用抗拒AI,反倒是可以利用AI來(lái)作為更好的創(chuàng)作工具。

馮建鵬(叨叨馮)

美國(guó)Hartford大學(xué)音樂(lè)學(xué)院打擊樂(lè)講師

我自己整體的態(tài)度是謹(jǐn)慎樂(lè)觀(guān),我覺(jué)得第一我們沒(méi)法抗拒這個(gè)洪流,就是歷史發(fā)展就是必然,它的工業(yè)化的這種程度是一定能夠解放人類(lèi)的生產(chǎn)力的。我現(xiàn)在寫(xiě)一首曲子,我可能需要有一個(gè)很好的主意,然后我需要花很長(zhǎng)的時(shí)間把它寫(xiě)成一首曲子出來(lái),然后再花很長(zhǎng)的時(shí)間去錄出來(lái),然后這個(gè)項(xiàng)目才能完成。那么現(xiàn)在有了這個(gè) AI以后,可能可以迅速的提高我的速度,那么作曲家能有更多的時(shí)間真的去想創(chuàng)作曲子,而不用擔(dān)心那些細(xì)枝末節(jié)的東西,所以等等就包括一些低成本的這些音樂(lè)制作,我覺(jué)得它真的是可以的,非常好的,就是很有發(fā)展前景。

但是同時(shí)我對(duì)這個(gè)事也不是特別的恐慌,就是人類(lèi)還是有一些自己獨(dú)特的一些特性,目前AI至少說(shuō)它的這個(gè)模型、這個(gè)算法可能暫時(shí)還做不到。很多的音樂(lè)其實(shí)它是有很?chē)?yán)謹(jǐn)?shù)拿鞔_的邏輯在里面的,如果我不能從這個(gè)方式去思考的話(huà),那我只能是去模仿一個(gè)形似。但是人類(lèi)的真正的這個(gè)思考的能力,以及我們2000年來(lái)攢下來(lái)的這些有跡可循的文化上的積淀,人類(lèi)也是在這個(gè)程度上持續(xù)在發(fā)展的,那么還是有一定的優(yōu)勢(shì)的。

所以除非人工智能真的發(fā)展出了智能,他有自己的意識(shí),他有創(chuàng)作的原因,他有情緒,有創(chuàng)作的動(dòng)力,那么人類(lèi)可能才會(huì)真正的受到威脅,作為一個(gè)整個(gè)行業(yè),當(dāng)然已經(jīng)有人會(huì)受到威脅了,這個(gè)我認(rèn)為是的。但是整個(gè)行業(yè)說(shuō)取代人類(lèi)的話(huà),我覺(jué)得我不擔(dān)心。所以我對(duì)他是保持謹(jǐn)慎的樂(lè)觀(guān),我覺(jué)得他是一定會(huì)對(duì)我們是有幫助的,我們沒(méi)法抗拒,但是距離對(duì)我們有足夠的威脅,完全取代我們那個(gè)路非常非常的長(zhǎng)。

而馮建鵬屢次提到的音樂(lè)“態(tài)度”和“情緒”,也是我們?cè)诟姸嘁魳?lè)演奏者們聊天的時(shí)候他們提到的最多的關(guān)鍵詞。他們認(rèn)為,這是人類(lèi)在演奏樂(lè)器或演唱的時(shí)候,最重要的元素。就如同,同樣的一個(gè)曲譜,不同演奏者會(huì)有不同的解讀和表現(xiàn)方式,而就算是同一首曲子同一個(gè)演奏者,他的每一次表演都是不同的,都是獨(dú)一無(wú)二的。而情感的共鳴,是對(duì)于接受音樂(lè)欣賞音樂(lè)的作為觀(guān)眾的我們來(lái)說(shuō),最珍貴的部分。

Kevin Yu大提琴家我曾看過(guò)AI演奏大提琴,也見(jiàn)過(guò)機(jī)器人演奏大提琴。我認(rèn)為它們目前只能以某種方式演奏。然而每把大提琴都有些許不同,每場(chǎng)演出也各不相同,每位演奏者也不同。因此,我認(rèn)為AI還沒(méi)有能力做到古典音樂(lè)演奏中我們所需要的某些方面,比如即興演奏及表達(dá)。我可以演奏巴赫大提琴組曲的第一種方式是,我可以拉的很寬廣,很慢,很深沉;或是帶有更多動(dòng)感的,更空靈的聲音,那樣就更有流暢感,更輕盈的聲音。我敢說(shuō)我很長(zhǎng)時(shí)間不會(huì)失業(yè)。

建議大家可以去視頻里聽(tīng)聽(tīng)Kevin演奏的不同風(fēng)格的曲子。Chapter 3.2 版權(quán)音樂(lè)和口水歌將受沖擊我想了想,我會(huì)買(mǎi)高價(jià)票去看朗朗或者王羽佳的演奏會(huì),但我估計(jì)不會(huì)買(mǎi)票去聽(tīng)機(jī)器人彈鋼琴。那么問(wèn)題來(lái)了,AI音樂(lè),如果以現(xiàn)在的能力來(lái)看,它沖擊的是什么市場(chǎng)呢?Meta Music and copyrights團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人Huang Hao告訴我們,版權(quán)庫(kù)音樂(lè)和口水歌市場(chǎng)將會(huì)是受到?jīng)_擊的市場(chǎng)蛋糕。

Hao Huang

Meta音樂(lè)及版權(quán)負(fù)責(zé)人

我覺(jué)得會(huì)替代一個(gè)專(zhuān)門(mén)的市場(chǎng)叫Stock music 或者叫Production music,就是專(zhuān)門(mén)有這些公司提供Royalty-free的音樂(lè),然后你跟他付訂閱費(fèi),或者是付版權(quán)使用費(fèi),然后你可以用他們的歌做任何事情。這個(gè)market 大概有個(gè)幾個(gè)billion(幾十億美元)這個(gè)樣子,就這部分的market我覺(jué)得完全可以被AI取代。它相對(duì)于A(yíng)I音樂(lè),既沒(méi)有質(zhì)量上的優(yōu)勢(shì),又沒(méi)有在發(fā)現(xiàn)新音樂(lè)上的優(yōu)勢(shì),AI音樂(lè)能夠讓你很輕易的就是拿一個(gè)prompt,就輸入幾句話(huà)能夠生成想要的歌,這個(gè)優(yōu)勢(shì)是完全沒(méi)法去打敗它的。

第二階段我覺(jué)得做口水歌的這些網(wǎng)紅歌手可能就沒(méi)了。其實(shí)在國(guó)內(nèi)抖音上面幾乎被這種非常低質(zhì)量的口水歌完全占據(jù)了,這些歌你拿來(lái)做視頻是非常有意思,因?yàn)樗墓?jié)奏一般都很歡快,然后它的旋律實(shí)際上是大眾都已經(jīng)熟知的那些和旋。我覺(jué)得這些網(wǎng)紅歌、口水歌可能會(huì)很快的被替代掉。

那什么是沒(méi)法或者說(shuō)很難去替代呢?就是很強(qiáng)的音樂(lè)人,比如說(shuō)周杰倫,Taylor Swift、Billie Eilish這種,Coplay這些我覺(jué)得都很難(被替代)。所以非常有創(chuàng)意的這些音樂(lè),我覺(jué)得還是有它存在的價(jià)值,但是可以看得到其實(shí)對(duì)音樂(lè)人,對(duì)整個(gè)市場(chǎng),我覺(jué)得還是有很大的擠壓的。

因?yàn)橐魳?lè)是一個(gè)非常頭部的市場(chǎng),可能就是頂級(jí)的音樂(lè)人,占了可能99%點(diǎn)幾的份額,剩下的都是一大堆的這種long tail(長(zhǎng)尾)的一些音樂(lè)人,那我覺(jué)得其實(shí)對(duì)這些長(zhǎng)尾音樂(lè)人可能是一個(gè)很大的挑戰(zhàn)。

對(duì)于音樂(lè)創(chuàng)作者和演奏者來(lái)說(shuō),音樂(lè)的功能性和商品性也許慢慢會(huì)被AI替代,但音樂(lè)的精神共鳴層面永遠(yuǎn)處于個(gè)人。

Ziki D

Party Sucks及Dminished 5th樂(lè)隊(duì)主唱

音樂(lè)就相當(dāng)于是更高級(jí)的一個(gè)交流語(yǔ)言,所以它沒(méi)有辦法像一個(gè)商品一樣,或者是什么東西把它生成出來(lái)。它更多的是兩方面,一方面是音樂(lè)人自己,他有一個(gè)表達(dá)的訴求,這部分是AI百分之百?zèng)]有取代的可能性的。但另一方面如果你把它作為一個(gè)商品來(lái)講的話(huà),那我覺(jué)得AI做的已經(jīng)相當(dāng)好了,它已經(jīng)在一個(gè)非常好的道路上,它在慢慢的向前走,我覺(jué)得是非常有可能取代很多商業(yè)音樂(lè)的。

陳茜

那音樂(lè)人的訴求是什么?

Ziki D

Party Sucks及Dminished 5th樂(lè)隊(duì)主唱

音樂(lè)人的訴求更多的是自己的一種發(fā)泄與表達(dá),因?yàn)樗窍裎艺f(shuō)的建立在可能語(yǔ)言之上的一種表達(dá)方式,你可以不止跟人類(lèi)交流,可以跟你心里的各種各樣的不一樣的生靈和一些你心里創(chuàng)造的生物在交流的那種感覺(jué),所以就是很抽象的很不一樣的表達(dá)方式。

那我們現(xiàn)在清楚了在音樂(lè)創(chuàng)作上和市場(chǎng)沖擊上,AI音樂(lè)技術(shù)的邊界。而在立法上,大公司們以及政策制定者們也正在行動(dòng),而這將更加規(guī)范AI音樂(lè)的未來(lái)發(fā)展。

04 訴訟、立法、零樣本訓(xùn)練與AI音樂(lè)的未來(lái)

在2024年7月12日,美國(guó)參議院的三位國(guó)會(huì)議員提出了一個(gè)針對(duì)AI版權(quán)的新法案COPIED Act,全稱(chēng)是The Content Origin Protection and Integrity from Edited and Deepfaked Media Act,直譯過(guò)來(lái)是“內(nèi)容來(lái)源保護(hù)和完整性防止編輯和深度偽造媒體法案”。

這個(gè)法案的目的,主要是制定完善的規(guī)則來(lái)標(biāo)記、驗(yàn)證和檢測(cè)生成式AI產(chǎn)品,包括文字、圖片、音頻和視頻,提升生成內(nèi)容的透明度防止被非法亂用以及保護(hù)公眾的個(gè)人數(shù)據(jù)和隱私。同時(shí)保護(hù)記者、音樂(lè)人、演員和其他藝術(shù)、商業(yè)群體的利益,并保留對(duì)非法使用數(shù)據(jù)訓(xùn)練AI大模型的法律追究權(quán)益。

比如說(shuō),法案規(guī)定,任何商業(yè)生成式AI產(chǎn)品必須讓用戶(hù)知道這是AI生成的,比如說(shuō)ChatGPT生成的廣告文案或社交媒體帖子,一旦是商用范疇,就必須要明確標(biāo)注是由AI生成,并且禁止任何人故意移除或篡改AI生成的標(biāo)注信息。

另外這個(gè)法案重要的一點(diǎn)是給出了明確的賠償機(jī)制,明確禁止AI廠(chǎng)商在未經(jīng)明確、知情同意的情況下,使用具有受版權(quán)保護(hù)作品的數(shù)字內(nèi)容來(lái)訓(xùn)練AI大模型和算法。如果侵犯便需要進(jìn)行賠償。

這個(gè)法案一出,是受到了各種工會(huì)、唱片協(xié)會(huì)、新聞聯(lián)盟等等組織的大聲叫好。

所以,我們?cè)陂_(kāi)頭提到的Suno被三大唱片公司起訴的官司可能會(huì)根據(jù)這個(gè)最新的法案來(lái)宣判指導(dǎo),我們也會(huì)為大家繼續(xù)關(guān)注這方面的法律進(jìn)展。

但毫無(wú)疑問(wèn)的是,技術(shù)和法律的關(guān)系,有時(shí)候,總是很模糊,經(jīng)常是上有政策下有對(duì)策。

比如說(shuō),我最近學(xué)習(xí)到,AI音頻上還有一個(gè)技術(shù)被稱(chēng)為“零樣本訓(xùn)練”(Zero-shot learning)。

在學(xué)術(shù)上的解釋是:訓(xùn)練AI模型來(lái)識(shí)別和分類(lèi)對(duì)象或概念,而無(wú)需事先見(jiàn)過(guò)這些類(lèi)別或概念的任何示例。

簡(jiǎn)單一點(diǎn)來(lái)說(shuō),就是把“數(shù)據(jù)”和“大模型的學(xué)習(xí)方式”給解耦合,比如說(shuō)你告訴大模型我要生成一個(gè)跟某位歌手很像的聲音,或者是一段這個(gè)樂(lè)器音色很像的曲子,那么通過(guò)“零樣本訓(xùn)練”,大模型雖然沒(méi)有見(jiàn)過(guò)或者通過(guò)特定樣本訓(xùn)練,但它也可以模仿進(jìn)行輸出。

“零樣本訓(xùn)練”目前在音樂(lè)生成上還沒(méi)有被廣泛應(yīng)用,但在語(yǔ)音合成上已經(jīng)很成熟了,所以我們可以預(yù)見(jiàn),以后如果用戶(hù)拿著幾秒種的音頻文件作為例子,大模型就可以迅速?gòu)?fù)制例子音色,這樣的技術(shù)對(duì)產(chǎn)權(quán)保護(hù)更難監(jiān)管。

突然想到,前段時(shí)間OpenAI在發(fā)布產(chǎn)品GPT-4o的時(shí)候,語(yǔ)音的音色被認(rèn)為很像電影《Her》的配音演員斯嘉麗·約翰遜。而約翰遜爆料說(shuō),之前OpenAI CEO Sam Altman確實(shí)找過(guò)她希望用她的聲音給4o配音,但她拒絕了。

但4o出來(lái)的語(yǔ)音模式,有一說(shuō)一,確實(shí)很像寡姐在Her中的聲音。

在GPT4o發(fā)布之后,約翰遜大為震驚和惱怒,雖然沒(méi)有正式去OpenAI提起訴訟,但已經(jīng)組織好了律師團(tuán)隊(duì)來(lái)準(zhǔn)備下一步的法律動(dòng)作。OpenAI這邊是否認(rèn)了使用約翰遜的聲音作為訓(xùn)練樣本,而是使用的另外一位配音演員。

我也不知道OpenAI是否使用了零樣本訓(xùn)練的技術(shù),但我相信,隨著各種生成式AI技術(shù)和產(chǎn)品能力的提升,法律、商業(yè)以及社會(huì)都需要一些新的共識(shí)。

05 新的共識(shí)與不完美的人類(lèi)

但我想,不變的,依然是人類(lèi)對(duì)音樂(lè)的需要,無(wú)論是聽(tīng)眾還是演奏者,無(wú)論是大師還是我這樣主要為了自嗨的業(yè)余小白。

人類(lèi)的創(chuàng)作是充滿(mǎn)不確定性的,有激進(jìn),有感性,有隨心所欲,有噴薄而出的情感,有為了追求完美的一萬(wàn)小時(shí)定律,也有為了追求與眾不同的鋌而走險(xiǎn)。

人類(lèi)是會(huì)犯錯(cuò)的,但正是因?yàn)橛羞@些錯(cuò)誤,才讓完美更加難能可貴。而當(dāng)完美唾手可得,那藝術(shù)也不再是眾人的信仰了。

AI的能力會(huì)持續(xù)進(jìn)步,但人類(lèi)的音樂(lè)追求也會(huì)持續(xù)進(jìn)步。頂級(jí)的創(chuàng)造力,將不會(huì)被替代。

最后,我用Suno寫(xiě)了一首歌,prompt詞大概是我們硅谷101從事科技與商業(yè)內(nèi)容制作的愿景。很短的prompt,用幾十秒就生成出來(lái)了,歡迎大家鑒賞、留言告訴我們,你們對(duì)AI生成音樂(lè)的看法。

【創(chuàng)作團(tuán)隊(duì)】監(jiān)制|泓君 陳茜主持|陳茜

攝像|陳茜后期|Jacob 陳茜運(yùn)營(yíng)|王梓沁 Emily

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。