正在閱讀:

擊敗OpenAI:谷歌公布20億參數(shù)通用語(yǔ)音模型,支持100+語(yǔ)種檢測(cè)翻譯

掃一掃下載界面新聞APP

擊敗OpenAI:谷歌公布20億參數(shù)通用語(yǔ)音模型,支持100+語(yǔ)種檢測(cè)翻譯

根據(jù)谷歌博客,與OpenAI的大型通用語(yǔ)音模型Whisper相比,USM的數(shù)據(jù)訓(xùn)練時(shí)長(zhǎng)更短,錯(cuò)誤率更低。

攝影:界面新聞 匡達(dá)

編譯 | 吳菲凝

編輯 | 李水青

根據(jù)谷歌官網(wǎng),谷歌的通用語(yǔ)音模型USM目前已實(shí)現(xiàn)升級(jí),支持100多個(gè)語(yǔ)種內(nèi)容的自動(dòng)識(shí)別檢測(cè)。

去年11月,谷歌曾計(jì)劃創(chuàng)建一個(gè)支持1000個(gè)語(yǔ)種的AI模型USM。谷歌將其描述為“最先進(jìn)的通用語(yǔ)音模型”,擁有20億個(gè)參數(shù),經(jīng)過(guò)涵蓋1200萬(wàn)小時(shí)的語(yǔ)音、280億個(gè)句子和300多個(gè)語(yǔ)種數(shù)據(jù)集的預(yù)訓(xùn)練。

USM的強(qiáng)大效果目前已在Youtube的字幕生成中展現(xiàn)出來(lái),可自動(dòng)翻譯和檢測(cè)如英語(yǔ)、漢語(yǔ)等主流語(yǔ)種,還能識(shí)別出阿薩姆語(yǔ)這種小眾語(yǔ)種,可以說(shuō)“精通方言”。

根據(jù)谷歌博客,與OpenAI的大型通用語(yǔ)音模型Whisper相比,USM的數(shù)據(jù)訓(xùn)練時(shí)長(zhǎng)更短,錯(cuò)誤率更低。

01.可自動(dòng)檢測(cè)翻譯100+語(yǔ)種USM面臨兩大挑戰(zhàn)

當(dāng)微軟和谷歌還在為誰(shuí)家的AI聊天機(jī)器人更智能而爭(zhēng)論不休時(shí),我們需要清楚,語(yǔ)音模型的用途遠(yuǎn)不止于此。

外媒The Verge的記者稱,除了相傳將在今年的I/O開(kāi)發(fā)者大會(huì)中展示的20多款A(yù)I驅(qū)動(dòng)產(chǎn)品之外,谷歌目前還在朝著更高目標(biāo)邁進(jìn)——構(gòu)建一個(gè)支持1000種語(yǔ)種的機(jī)器學(xué)習(xí)模型。

在周一發(fā)布的更新中,谷歌分享了更多有關(guān)USM的信息,谷歌稱,這是構(gòu)建支持1000種語(yǔ)言的通用語(yǔ)音模型的“關(guān)鍵第一步”。

USM已被YouTube用于生成字幕,它還支持自動(dòng)語(yǔ)音識(shí)別(ASR),可自動(dòng)檢測(cè)和翻譯語(yǔ)言,不僅包括普通話、英語(yǔ)等廣泛使用的語(yǔ)言,還包括阿姆哈拉語(yǔ)、宿務(wù)語(yǔ)、阿薩姆語(yǔ)等冷門(mén)語(yǔ)言。

目前,谷歌稱USM可支持檢測(cè)100多個(gè)語(yǔ)種,并將作為構(gòu)建更大的系統(tǒng)的“基礎(chǔ)”。不過(guò),這項(xiàng)技術(shù)似乎還有些遙遠(yuǎn),谷歌在I/O開(kāi)發(fā)者大會(huì)期間對(duì)阿拉伯語(yǔ)的錯(cuò)誤表述就已證明。

谷歌研究院科學(xué)家張宇(Yu Zhang)和軟件工程師詹姆斯·秦(James Qin)在谷歌博客上發(fā)文稱,為了實(shí)現(xiàn)USM這個(gè)雄心勃勃的目標(biāo),他們目前需要解決ASR面臨的兩個(gè)重大挑戰(zhàn)。

一是傳統(tǒng)的學(xué)習(xí)方法的缺乏可擴(kuò)展性。語(yǔ)音技術(shù)擴(kuò)展到多語(yǔ)種的一個(gè)基本挑戰(zhàn)是需要足夠的數(shù)據(jù)來(lái)訓(xùn)練高質(zhì)量的模型,使用傳統(tǒng)方法時(shí),需要手動(dòng)將音頻數(shù)據(jù)進(jìn)行標(biāo)記,既耗時(shí)又價(jià)格高昂,對(duì)于那些小眾冷門(mén)的語(yǔ)種而言,也更難找到預(yù)先存在的來(lái)源收集。因此,研究院后續(xù)準(zhǔn)備將傳統(tǒng)學(xué)習(xí)方法轉(zhuǎn)變?yōu)樽晕冶O(jiān)督學(xué)習(xí),利用純音頻來(lái)收集數(shù)據(jù)。

二是在擴(kuò)大語(yǔ)言覆蓋范圍和質(zhì)量的同時(shí),模型必須以計(jì)算效率更高的方法來(lái)改進(jìn)。這就要求學(xué)習(xí)算法更加靈活、高效、泛化。這些算法需要使用來(lái)源廣泛的數(shù)據(jù),并在不用完全訓(xùn)練的情況下更新模型,再推廣到新的語(yǔ)言中。

02.三個(gè)步驟降低識(shí)別錯(cuò)誤率擊敗OpenAI

據(jù)該團(tuán)隊(duì)發(fā)表的論文稱,USM使用的是標(biāo)準(zhǔn)的編碼器-解碼器架構(gòu),其中解碼器是CTC、RNN-T和LAS,編碼器使用的是Conformer或卷積增強(qiáng)變換器。其中,Conformer使用的關(guān)鍵組件是Conformer塊,由注意力模塊、前饋模塊和卷積模塊組成,應(yīng)用一系列Conformer塊和投影層以最終嵌入。

據(jù)論文顯示,對(duì)于USM的訓(xùn)練共分為三個(gè)步驟。

第一步是使用BEST-RQ來(lái)對(duì)涵蓋數(shù)百種語(yǔ)種的語(yǔ)音音頻進(jìn)行自我監(jiān)督學(xué)習(xí),已經(jīng)在多語(yǔ)言任務(wù)上展示了最先進(jìn)的結(jié)果,在使用了大量的無(wú)監(jiān)督音頻數(shù)據(jù)后的證明結(jié)果是有效的。

第二步需要使用多目標(biāo)監(jiān)督預(yù)訓(xùn)練來(lái)整合來(lái)自于其他文本數(shù)據(jù)的信息。該模型引入了一個(gè)額外的編碼器模塊來(lái)輸入文本,并引入額外層來(lái)組合語(yǔ)音編碼器和文本編碼器的輸出,并在未標(biāo)記語(yǔ)音、標(biāo)記語(yǔ)音和文本數(shù)據(jù)上聯(lián)合訓(xùn)練模型。

最后一步需要USM對(duì)下游任務(wù)進(jìn)行微調(diào),包括ASR(自動(dòng)語(yǔ)音識(shí)別)和AST(自動(dòng)語(yǔ)音翻譯)。

▲USM的整體培訓(xùn)渠道

對(duì)于USM的有效性,團(tuán)隊(duì)通過(guò)Youtube Caption的多語(yǔ)言語(yǔ)音數(shù)據(jù)進(jìn)行微調(diào)來(lái)驗(yàn)證。

受監(jiān)督的Youtube數(shù)據(jù)包括有73種語(yǔ)種,每個(gè)語(yǔ)種的數(shù)據(jù)不到3000小時(shí)。盡管監(jiān)督的數(shù)據(jù)有限,但USM在73個(gè)語(yǔ)種當(dāng)中實(shí)現(xiàn)了平均低于30%的單詞容錯(cuò)率(WER),與當(dāng)前內(nèi)部最先進(jìn)的模型相比降低了6%。與進(jìn)行了近40萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練的大型模型Whisper相比,USM的錯(cuò)誤率更低,它在18個(gè)語(yǔ)種中的解碼錯(cuò)誤率僅有32.7%,而Whisper有40%。

▲在WER低于40%的情況下,USM在其支持的語(yǔ)言上優(yōu)于Whisper

在公開(kāi)可用的數(shù)據(jù)上,與Whisper相比,USM在CORAAL(非裔美國(guó)人使用的英語(yǔ))、SpeechStew和FLEURS這三個(gè)語(yǔ)言數(shù)據(jù)集上都顯示出了更低的單詞容錯(cuò)率。

▲在ASR基準(zhǔn)上比較USM(有或沒(méi)有域內(nèi)數(shù)據(jù))和Whisper的結(jié)果。

對(duì)于語(yǔ)音翻譯,團(tuán)隊(duì)在CoVoST數(shù)據(jù)集上微調(diào)USM,在有限的監(jiān)督數(shù)據(jù)上實(shí)現(xiàn)了最好的性能。為了評(píng)估模型性能的廣度,他們根據(jù)資源可用性將CoVoST數(shù)據(jù)集中的語(yǔ)言分為高、中、低三類,并計(jì)算每個(gè)部分中的BLEU分?jǐn)?shù)(機(jī)器翻譯評(píng)價(jià)指標(biāo)),根據(jù)最終展示出的結(jié)果,USM在所有細(xì)分市場(chǎng)上的表現(xiàn)都優(yōu)于Whisper。

他們認(rèn)為,谷歌若想實(shí)現(xiàn)連接全球信息并使每個(gè)人都能自由訪問(wèn)的愿景,USM的開(kāi)發(fā)將會(huì)是關(guān)鍵的一步,USM的基礎(chǔ)模型框架和訓(xùn)練通道已經(jīng)打下了一個(gè)基礎(chǔ),他們要做的就是在此基礎(chǔ)上將語(yǔ)音模型擴(kuò)展至1000種語(yǔ)言。

03.結(jié)語(yǔ):AI突破語(yǔ)言障礙 助全球打破信息繭房

目前,USM已支持100多個(gè)語(yǔ)種,未來(lái)將持續(xù)擴(kuò)展到1000多個(gè),屆時(shí)將會(huì)吸引到更大一部分用戶進(jìn)行體驗(yàn),真正實(shí)現(xiàn)將信息分發(fā)到全球各個(gè)角落。

信息時(shí)代,科技進(jìn)步將會(huì)進(jìn)一步幫助各個(gè)國(guó)家地區(qū)的語(yǔ)言和文化突破地域的限制,很大程度上解決信息繭房帶來(lái)的困擾。

來(lái)源:The Verge、谷歌博客

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

谷歌

6k
  • 俄羅斯法院對(duì)谷歌處以35位數(shù)字罰款
  • 谷歌美股盤(pán)前漲近6%

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

擊敗OpenAI:谷歌公布20億參數(shù)通用語(yǔ)音模型,支持100+語(yǔ)種檢測(cè)翻譯

根據(jù)谷歌博客,與OpenAI的大型通用語(yǔ)音模型Whisper相比,USM的數(shù)據(jù)訓(xùn)練時(shí)長(zhǎng)更短,錯(cuò)誤率更低。

攝影:界面新聞 匡達(dá)

編譯 | 吳菲凝

編輯 | 李水青

根據(jù)谷歌官網(wǎng),谷歌的通用語(yǔ)音模型USM目前已實(shí)現(xiàn)升級(jí),支持100多個(gè)語(yǔ)種內(nèi)容的自動(dòng)識(shí)別檢測(cè)。

去年11月,谷歌曾計(jì)劃創(chuàng)建一個(gè)支持1000個(gè)語(yǔ)種的AI模型USM。谷歌將其描述為“最先進(jìn)的通用語(yǔ)音模型”,擁有20億個(gè)參數(shù),經(jīng)過(guò)涵蓋1200萬(wàn)小時(shí)的語(yǔ)音、280億個(gè)句子和300多個(gè)語(yǔ)種數(shù)據(jù)集的預(yù)訓(xùn)練。

USM的強(qiáng)大效果目前已在Youtube的字幕生成中展現(xiàn)出來(lái),可自動(dòng)翻譯和檢測(cè)如英語(yǔ)、漢語(yǔ)等主流語(yǔ)種,還能識(shí)別出阿薩姆語(yǔ)這種小眾語(yǔ)種,可以說(shuō)“精通方言”。

根據(jù)谷歌博客,與OpenAI的大型通用語(yǔ)音模型Whisper相比,USM的數(shù)據(jù)訓(xùn)練時(shí)長(zhǎng)更短,錯(cuò)誤率更低。

01.可自動(dòng)檢測(cè)翻譯100+語(yǔ)種USM面臨兩大挑戰(zhàn)

當(dāng)微軟和谷歌還在為誰(shuí)家的AI聊天機(jī)器人更智能而爭(zhēng)論不休時(shí),我們需要清楚,語(yǔ)音模型的用途遠(yuǎn)不止于此。

外媒The Verge的記者稱,除了相傳將在今年的I/O開(kāi)發(fā)者大會(huì)中展示的20多款A(yù)I驅(qū)動(dòng)產(chǎn)品之外,谷歌目前還在朝著更高目標(biāo)邁進(jìn)——構(gòu)建一個(gè)支持1000種語(yǔ)種的機(jī)器學(xué)習(xí)模型。

在周一發(fā)布的更新中,谷歌分享了更多有關(guān)USM的信息,谷歌稱,這是構(gòu)建支持1000種語(yǔ)言的通用語(yǔ)音模型的“關(guān)鍵第一步”。

USM已被YouTube用于生成字幕,它還支持自動(dòng)語(yǔ)音識(shí)別(ASR),可自動(dòng)檢測(cè)和翻譯語(yǔ)言,不僅包括普通話、英語(yǔ)等廣泛使用的語(yǔ)言,還包括阿姆哈拉語(yǔ)、宿務(wù)語(yǔ)、阿薩姆語(yǔ)等冷門(mén)語(yǔ)言。

目前,谷歌稱USM可支持檢測(cè)100多個(gè)語(yǔ)種,并將作為構(gòu)建更大的系統(tǒng)的“基礎(chǔ)”。不過(guò),這項(xiàng)技術(shù)似乎還有些遙遠(yuǎn),谷歌在I/O開(kāi)發(fā)者大會(huì)期間對(duì)阿拉伯語(yǔ)的錯(cuò)誤表述就已證明。

谷歌研究院科學(xué)家張宇(Yu Zhang)和軟件工程師詹姆斯·秦(James Qin)在谷歌博客上發(fā)文稱,為了實(shí)現(xiàn)USM這個(gè)雄心勃勃的目標(biāo),他們目前需要解決ASR面臨的兩個(gè)重大挑戰(zhàn)。

一是傳統(tǒng)的學(xué)習(xí)方法的缺乏可擴(kuò)展性。語(yǔ)音技術(shù)擴(kuò)展到多語(yǔ)種的一個(gè)基本挑戰(zhàn)是需要足夠的數(shù)據(jù)來(lái)訓(xùn)練高質(zhì)量的模型,使用傳統(tǒng)方法時(shí),需要手動(dòng)將音頻數(shù)據(jù)進(jìn)行標(biāo)記,既耗時(shí)又價(jià)格高昂,對(duì)于那些小眾冷門(mén)的語(yǔ)種而言,也更難找到預(yù)先存在的來(lái)源收集。因此,研究院后續(xù)準(zhǔn)備將傳統(tǒng)學(xué)習(xí)方法轉(zhuǎn)變?yōu)樽晕冶O(jiān)督學(xué)習(xí),利用純音頻來(lái)收集數(shù)據(jù)。

二是在擴(kuò)大語(yǔ)言覆蓋范圍和質(zhì)量的同時(shí),模型必須以計(jì)算效率更高的方法來(lái)改進(jìn)。這就要求學(xué)習(xí)算法更加靈活、高效、泛化。這些算法需要使用來(lái)源廣泛的數(shù)據(jù),并在不用完全訓(xùn)練的情況下更新模型,再推廣到新的語(yǔ)言中。

02.三個(gè)步驟降低識(shí)別錯(cuò)誤率擊敗OpenAI

據(jù)該團(tuán)隊(duì)發(fā)表的論文稱,USM使用的是標(biāo)準(zhǔn)的編碼器-解碼器架構(gòu),其中解碼器是CTC、RNN-T和LAS,編碼器使用的是Conformer或卷積增強(qiáng)變換器。其中,Conformer使用的關(guān)鍵組件是Conformer塊,由注意力模塊、前饋模塊和卷積模塊組成,應(yīng)用一系列Conformer塊和投影層以最終嵌入。

據(jù)論文顯示,對(duì)于USM的訓(xùn)練共分為三個(gè)步驟。

第一步是使用BEST-RQ來(lái)對(duì)涵蓋數(shù)百種語(yǔ)種的語(yǔ)音音頻進(jìn)行自我監(jiān)督學(xué)習(xí),已經(jīng)在多語(yǔ)言任務(wù)上展示了最先進(jìn)的結(jié)果,在使用了大量的無(wú)監(jiān)督音頻數(shù)據(jù)后的證明結(jié)果是有效的。

第二步需要使用多目標(biāo)監(jiān)督預(yù)訓(xùn)練來(lái)整合來(lái)自于其他文本數(shù)據(jù)的信息。該模型引入了一個(gè)額外的編碼器模塊來(lái)輸入文本,并引入額外層來(lái)組合語(yǔ)音編碼器和文本編碼器的輸出,并在未標(biāo)記語(yǔ)音、標(biāo)記語(yǔ)音和文本數(shù)據(jù)上聯(lián)合訓(xùn)練模型。

最后一步需要USM對(duì)下游任務(wù)進(jìn)行微調(diào),包括ASR(自動(dòng)語(yǔ)音識(shí)別)和AST(自動(dòng)語(yǔ)音翻譯)。

▲USM的整體培訓(xùn)渠道

對(duì)于USM的有效性,團(tuán)隊(duì)通過(guò)Youtube Caption的多語(yǔ)言語(yǔ)音數(shù)據(jù)進(jìn)行微調(diào)來(lái)驗(yàn)證。

受監(jiān)督的Youtube數(shù)據(jù)包括有73種語(yǔ)種,每個(gè)語(yǔ)種的數(shù)據(jù)不到3000小時(shí)。盡管監(jiān)督的數(shù)據(jù)有限,但USM在73個(gè)語(yǔ)種當(dāng)中實(shí)現(xiàn)了平均低于30%的單詞容錯(cuò)率(WER),與當(dāng)前內(nèi)部最先進(jìn)的模型相比降低了6%。與進(jìn)行了近40萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練的大型模型Whisper相比,USM的錯(cuò)誤率更低,它在18個(gè)語(yǔ)種中的解碼錯(cuò)誤率僅有32.7%,而Whisper有40%。

▲在WER低于40%的情況下,USM在其支持的語(yǔ)言上優(yōu)于Whisper

在公開(kāi)可用的數(shù)據(jù)上,與Whisper相比,USM在CORAAL(非裔美國(guó)人使用的英語(yǔ))、SpeechStew和FLEURS這三個(gè)語(yǔ)言數(shù)據(jù)集上都顯示出了更低的單詞容錯(cuò)率。

▲在ASR基準(zhǔn)上比較USM(有或沒(méi)有域內(nèi)數(shù)據(jù))和Whisper的結(jié)果。

對(duì)于語(yǔ)音翻譯,團(tuán)隊(duì)在CoVoST數(shù)據(jù)集上微調(diào)USM,在有限的監(jiān)督數(shù)據(jù)上實(shí)現(xiàn)了最好的性能。為了評(píng)估模型性能的廣度,他們根據(jù)資源可用性將CoVoST數(shù)據(jù)集中的語(yǔ)言分為高、中、低三類,并計(jì)算每個(gè)部分中的BLEU分?jǐn)?shù)(機(jī)器翻譯評(píng)價(jià)指標(biāo)),根據(jù)最終展示出的結(jié)果,USM在所有細(xì)分市場(chǎng)上的表現(xiàn)都優(yōu)于Whisper。

他們認(rèn)為,谷歌若想實(shí)現(xiàn)連接全球信息并使每個(gè)人都能自由訪問(wèn)的愿景,USM的開(kāi)發(fā)將會(huì)是關(guān)鍵的一步,USM的基礎(chǔ)模型框架和訓(xùn)練通道已經(jīng)打下了一個(gè)基礎(chǔ),他們要做的就是在此基礎(chǔ)上將語(yǔ)音模型擴(kuò)展至1000種語(yǔ)言。

03.結(jié)語(yǔ):AI突破語(yǔ)言障礙 助全球打破信息繭房

目前,USM已支持100多個(gè)語(yǔ)種,未來(lái)將持續(xù)擴(kuò)展到1000多個(gè),屆時(shí)將會(huì)吸引到更大一部分用戶進(jìn)行體驗(yàn),真正實(shí)現(xiàn)將信息分發(fā)到全球各個(gè)角落。

信息時(shí)代,科技進(jìn)步將會(huì)進(jìn)一步幫助各個(gè)國(guó)家地區(qū)的語(yǔ)言和文化突破地域的限制,很大程度上解決信息繭房帶來(lái)的困擾。

來(lái)源:The Verge、谷歌博客

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。