正在閱讀:

李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?

掃一掃下載界面新聞APP

李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?

國內視頻生成模型領域雖然看起來火熱,但確實面臨著非常嚴峻的挑戰(zhàn)。

圖片來源:界面圖庫

界面新聞記者 | 肖芳

界面新聞編輯 | 宋佳楠

近日,百度CEO李彥宏百度不做Sora演講被媒體曝光,有關“中國Sora到底值不值得做”話題又在微博、小紅書社交媒體引發(fā)眾多爭論。

李彥宏內部講話,Sora這種視頻生成模型投入周期太長,10、20可能拿不到業(yè)務收益,無論多火,百度不去。

反對聲音認為,這屬于百度自身業(yè)務問題國內目前在視頻生成模型最有希望的公司是快手字節(jié)跳動,二者業(yè)務視頻更近,待其視頻生成足夠優(yōu)秀之后會快速完成拉新,并帶動用戶體驗提升。

快手字節(jié)跳動國內互聯網大廠中積極布局視頻生成大模型公司Sora發(fā)布,快手便推出文生視頻大模型“可靈”,其背后的技術原理和OpenAI的Sora類似,都是把常用于視頻生成人工智能的擴散模型與Transformer架構相結合,依托于快手短視頻平臺,擁有大量可用于訓練的視頻數據。“可靈”發(fā)布幾個月之后字節(jié)跳動旗下火山引擎發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業(yè)市場開啟邀測。

字節(jié)跳動快手之外,今年發(fā)布視頻生成模型公司包括阿里云、Minimax生數科技、智譜AI公司。

國內視頻生成模型領域雖然看起來火熱,確實面臨非常嚴峻挑戰(zhàn),李彥宏視頻生成做出判斷并非無稽之談

界面新聞從一位負責視頻生成模型技術人士處了解,生成式AI技術正大幅降低視頻生成的門檻,導致視頻數據以20倍左右的速度增長,對計算成本和效率提出了嚴峻的挑戰(zhàn)。以Sora模型為例,其訓練和推理所需的算力需求分別達到了GPT-4的4.5倍和近400倍。

中國銀河證券研究院報告顯示,Sora對算力需求呈指數級增長。根據Sora參數規(guī)模推演訓練單次算力需求或可達到2.6×10^24Flops,相當于GPT-3175B的8.2倍。目前Sora還在初級階段,伴隨不斷迭代調優(yōu),其訓練數據集規(guī)模將進一步增大,未來算力需求大幅增加。

上述技術人士表示,編解碼層框架層,視頻生成模型面臨諸多挑戰(zhàn)一方面效率問題,另一方面是在計算需求日益增長的情況下,能否靈活處理越來越復雜需求。

這些都對視頻生成模型形成巨大考驗,但其商業(yè)化形勢仍然不夠明朗,一定程度上使訓練推理成本挑戰(zhàn)更為嚴峻。

界面新聞了解,目前視頻生成模型的落地大多在影視制作、電商營銷等領域,處于概念多于實質階段。

快手曾高調推出由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,并于近日聯合李少紅、賈樟柯等9位知名導演,啟動了完全依托視頻生成大模型制作電影短片“可靈AI”導演共創(chuàng)計劃,試圖以此來證明視頻生成大模型在影視制作領域的可用性。

《山海奇鏡之劈波斬浪》整部影片并不是由AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時長5秒的分鏡頭,再由后期剪輯團隊剪輯而成。其在成本整體的降幅不超過四分之一,遠不如外界預期的那么大。

快手近期一系列動作來看仍然可靈AI落地尋找更多應用場景比如,快手試圖通過資源流量扶植方式品牌方、制作機構、媒體等需求方能夠與AIGC創(chuàng)作者進行商務合作,支持使用可靈AI的創(chuàng)作者獲得變現機會。一定程度反映AIGC變現并不像想象那么容易。

這些挑戰(zhàn)之下視頻生成模型領域一個發(fā)展趨勢降本。雖然很多公司依然積極投入視頻生成模型,盡可能降低訓練和推理成本,已經很多公司都在探索方向。

預處理過程統(tǒng)一視頻的數據格式、提高數據質量、實現數據標準化、減少數據量以及處理標注信息,則是其他一些公司降本的重點。抖音一位視頻架構技術負責人表示,超大規(guī)模視頻訓練數據集導致計算和處理成本激增、視頻樣本數據參差不齊,以及處理鏈路環(huán)節(jié)多、工程復雜等,都視頻生成模型訓練和推理成本增加。同時,對GPU、CPU、ARM等多種異構算力資源的調度部署也是挑戰(zhàn)之一。

據界面新聞了解,豆包視頻生成模型自研了多媒體處理框架BMF來應對模型訓練的算力成本挑戰(zhàn),該方案可使用大量潮汐資源,為模型訓練提供支撐。

除此之外,通過自研芯片在同等視頻壓縮效率下實現視頻大模型訓練和推理成本降低,是部分互聯網大廠選擇方向。而一些AIGC公司則在探索將低質量視頻與高質量圖像相結合,保障視頻輸出畫質基礎上降低訓練模型成本方法。當成本真的降下來,視頻生成模型的未來之路也會更加明晰。

未經正式授權嚴禁轉載本文,侵權必究。

快手

6.8k
  • 快手可靈AI軟件著作權獲批登記
  • 快手廢止退款不退貨服務規(guī)則,“僅退款”需商家同意

百度

6.4k
  • 蘿卜快跑想從香港駛向全球
  • 蘿卜快跑回應:已獲批香港首個自動駕駛牌照,開啟全球業(yè)務拓展

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

李彥宏堅稱不做視頻生成模型,中國版Sora到底值不值得做?

國內視頻生成模型領域雖然看起來火熱,但確實面臨著非常嚴峻的挑戰(zhàn)。

圖片來源:界面圖庫

界面新聞記者 | 肖芳

界面新聞編輯 | 宋佳楠

近日,百度CEO李彥宏百度不做Sora演講被媒體曝光,有關“中國Sora到底值不值得做”話題又在微博、小紅書社交媒體引發(fā)眾多爭論。

李彥宏內部講話,Sora這種視頻生成模型投入周期太長,10、20可能拿不到業(yè)務收益,無論多火,百度不去

反對聲音認為,這屬于百度自身業(yè)務問題。國內目前在視頻生成模型最有希望的公司是快手字節(jié)跳動,二者業(yè)務視頻更近,待其視頻生成足夠優(yōu)秀之后會快速完成拉新,并帶動用戶體驗提升

快手字節(jié)跳動國內互聯網大廠中積極布局視頻生成大模型公司。Sora發(fā)布,快手便推出文生視頻大模型“可靈”,其背后的技術原理和OpenAI的Sora類似,都是把常用于視頻生成人工智能的擴散模型與Transformer架構相結合,依托于快手短視頻平臺,擁有大量可用于訓練的視頻數據。“可靈”發(fā)布幾個月之后字節(jié)跳動旗下火山引擎發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業(yè)市場開啟邀測。

字節(jié)跳動快手之外今年發(fā)布視頻生成模型公司包括阿里云、Minimax生數科技、智譜AI公司。

國內視頻生成模型領域雖然看起來火熱,確實面臨非常嚴峻挑戰(zhàn),李彥宏視頻生成做出判斷并非無稽之談

界面新聞從一位負責視頻生成模型技術人士處了解生成式AI技術正大幅降低視頻生成的門檻,導致視頻數據以20倍左右的速度增長對計算成本和效率提出了嚴峻的挑戰(zhàn)。以Sora模型為例,其訓練和推理所需的算力需求分別達到了GPT-4的4.5倍和近400倍。

中國銀河證券研究院報告顯示,Sora對算力需求呈指數級增長。根據Sora參數規(guī)模推演訓練單次算力需求或可達到2.6×10^24Flops,相當于GPT-3175B的8.2倍。目前Sora還在初級階段,伴隨不斷迭代調優(yōu),其訓練數據集規(guī)模將進一步增大,未來算力需求大幅增加。

上述技術人士表示編解碼層框架層,視頻生成模型面臨諸多挑戰(zhàn)。一方面效率問題另一方面是在計算需求日益增長的情況下,能否靈活處理越來越復雜需求。

這些都對視頻生成模型形成巨大考驗,但其商業(yè)化形勢仍然不夠明朗,一定程度上使訓練推理成本挑戰(zhàn)更為嚴峻。

界面新聞了解,目前視頻生成模型的落地大多在影視制作、電商營銷等領域處于概念多于實質階段。

快手曾高調推出由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,并于近日聯合李少紅、賈樟柯等9位知名導演,啟動了完全依托視頻生成大模型制作電影短片“可靈AI”導演共創(chuàng)計劃,試圖以此來證明視頻生成大模型在影視制作領域的可用性。

《山海奇鏡之劈波斬浪》整部影片并不是由AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時長5秒的分鏡頭,再由后期剪輯團隊剪輯而成。其在成本整體的降幅不超過四分之一,遠不如外界預期的那么大。

快手近期一系列動作來看,仍然可靈AI落地尋找更多應用場景比如,快手試圖通過資源流量扶植方式品牌方、制作機構、媒體等需求方能夠與AIGC創(chuàng)作者進行商務合作,支持使用可靈AI的創(chuàng)作者獲得變現機會一定程度反映AIGC變現并不像想象那么容易。

這些挑戰(zhàn)之下,視頻生成模型領域一個發(fā)展趨勢降本雖然很多公司依然積極投入視頻生成模型,盡可能降低訓練和推理成本,已經很多公司都在探索方向。

預處理過程統(tǒng)一視頻的數據格式、提高數據質量、實現數據標準化、減少數據量以及處理標注信息,則是其他一些公司降本的重點。抖音一位視頻架構技術負責人表示,超大規(guī)模視頻訓練數據集導致計算和處理成本激增、視頻樣本數據參差不齊,以及處理鏈路環(huán)節(jié)多、工程復雜等,都視頻生成模型訓練和推理成本增加同時,對GPU、CPU、ARM等多種異構算力資源的調度部署也是挑戰(zhàn)之一。

據界面新聞了解,豆包視頻生成模型自研了多媒體處理框架BMF來應對模型訓練的算力成本挑戰(zhàn),該方案可使用大量潮汐資源,為模型訓練提供支撐。

除此之外,通過自研芯片在同等視頻壓縮效率下實現視頻大模型訓練和推理成本降低,是部分互聯網大廠選擇方向。而一些AIGC公司則在探索將低質量視頻與高質量圖像相結合,保障視頻輸出畫質基礎上降低訓練模型成本方法。當成本真的降下來,視頻生成模型的未來之路也會更加明晰。

未經正式授權嚴禁轉載本文,侵權必究。