一直以來,喜馬拉雅音頻大模型致力于將前沿的人工智能技術(shù)與豐富的音頻產(chǎn)業(yè)生態(tài)緊密結(jié)合,已在AIGC(人工智能生成內(nèi)容)有聲書、Chat對話式交互等多個業(yè)務場景中實現(xiàn)了廣泛應用。它不僅顯著提升了內(nèi)容生產(chǎn)的效率與質(zhì)量,更為用戶帶來了更加個性化、沉浸式的音頻體驗。
據(jù)了解,由喜馬拉雅推出的音頻大模型,作為全球音頻生成領(lǐng)域的先行者,已迎來了第四代,憑借其獨樹一幟的“多情感演繹、超自然表達”能力,在音頻創(chuàng)作領(lǐng)域樹立了嶄新的里程碑,引領(lǐng)了行業(yè)技術(shù)發(fā)展到新航向。喜馬拉雅音頻大模型在音色克隆與聲音轉(zhuǎn)換方面展現(xiàn)出了驚人的實力,僅憑15秒的音頻樣本,它便能精準復刻目標音色,同時支持高度擬人化、多情感表達的語音生成,以及靈活可控的語音風格和豐富的副語言特征,如笑聲、嘆息等,極大地豐富了音頻內(nèi)容的情感維度與表現(xiàn)力。
這一革命性的模型由喜馬拉雅旗下的精英團隊——珠峰AI團隊精心研發(fā),依托其自主研發(fā)的文本音頻聯(lián)合建模LLM(Large Language and Audio Model)框架,實現(xiàn)了音頻與文本在深層語義層面的無縫對接與高效協(xié)同訓練。這一技術(shù)上的飛躍,使得模型能夠精準捕捉并生動再現(xiàn)人類聲音的微妙差異與情感起伏,為用戶奉獻了一場前所未有的聽覺享受。
在嚴格的測試評估中,該模型在長音頻內(nèi)容創(chuàng)作,特別是復雜場景下的有聲小說演繹方面,展現(xiàn)出了對角色風格的精準把控、音素表現(xiàn)的卓越穩(wěn)定性以及語流韻律的自然流暢,其表現(xiàn)遠超當前市場上廣泛應用的第三代音頻生成模型。以近期備受市場青睞的有聲書《我的阿勒泰》為例,其背后正是喜馬拉雅音頻大模型技術(shù)的有力支撐,充分展示了AI在文化產(chǎn)業(yè)中的巨大潛力與無限可能。
目前,喜馬拉雅已在母公司珠峰AI的官方網(wǎng)站上開設(shè)了音頻大模型的體驗專區(qū),眾多的用戶可以利用這一強大工具創(chuàng)作音頻作品,感知AI技術(shù)給創(chuàng)作帶來的巨大作用,同時也有力地提升創(chuàng)作的效率。