正在閱讀:

一文讀懂動捕技術(shù):元宇宙的“重要拼圖”之一

掃一掃下載界面新聞APP

一文讀懂動捕技術(shù):元宇宙的“重要拼圖”之一

如果說元宇宙是“數(shù)字化”的終極形態(tài),那動捕技術(shù)則是實(shí)現(xiàn)人“數(shù)字化”的關(guān)鍵一步。

文|MetaPost 

在影視制作中,動作捕捉是最常用到的一項(xiàng)技術(shù)。無論是《阿凡達(dá)》還是《指環(huán)王》里的咕嚕,都是先利用動作捕捉采集演員的肢體表演,再將捕捉到的動作渲染處理后,才呈現(xiàn)出震撼的視覺效果。

游戲行業(yè)也是動捕技術(shù)的核心應(yīng)用場景。游戲動畫中包含很多復(fù)雜的姿勢動作,通過采集真人演員的動作數(shù)據(jù),綁定到游戲角色的骨骼上,可以最大程度地還原人體真實(shí)的姿態(tài)、表情、重量和速度,從而讓玩家能夠體驗(yàn)到更加真實(shí)的游戲世界。

隨著“元宇宙”概念的全面普及,動作捕捉對元宇宙的長期價(jià)值也逐漸顯現(xiàn)出來,它和引擎、傳輸、計(jì)算和顯示等技術(shù)處于同一級別,是元宇宙底層建設(shè)這塊“巨大拼圖”中的重要一塊。

01、動捕技術(shù)發(fā)展歷程

類似動作捕捉的技術(shù)最早出現(xiàn)在1915年,當(dāng)時的動畫大師 Max Fleischer 制作了一臺放映機(jī),原理就是把膠片的內(nèi)容顯示到透光臺上。憑借著這臺放映機(jī),動畫師可以很方便地照著畫面中人物的動作造型,來繪制角色動作。

1983年,加拿大思蒙弗雷澤大學(xué)的Tom Calvert在物理機(jī)械捕捉服裝上取得的重大突破,這一技術(shù)讓人們見識到了最早的機(jī)械類捕捉。與此同時,麻省理工也推出了一套基于LED的“木偶圖像化(graphical marionetter)”系統(tǒng),這就是早期光學(xué)動捕系統(tǒng)的雛形。

此番生物力學(xué)研究為未來的影片制作鋪平了道路,在接下來的時間里,當(dāng)動作捕捉與計(jì)算機(jī)圖形技術(shù)相遇,動作數(shù)據(jù)的易得性使動作捕捉技術(shù)快速發(fā)展,并相繼被完整、大規(guī)模地運(yùn)用到游戲與電影行業(yè)。

90年末,電影《指環(huán)王》的拍攝則第一次將動捕拍攝步驟帶到了拍攝現(xiàn)場,動捕演員先驅(qū)Andy Serkis在場地中可以作為“咕嚕”這一角色和其他演員進(jìn)行互動,這樣的互動更加有利于角色的塑造,因?yàn)橹挥挟?dāng)演員在表演過程中獲得了其他演員的情緒和語言反饋,自身情緒才能更酣暢地被釋放,角色才能更加有血有肉、活靈活現(xiàn)。

2009年上映的電影《阿凡達(dá)》可以說是將動作捕捉與表情捕捉技術(shù)成功結(jié)合的先驅(qū)者。導(dǎo)演James Cameron與團(tuán)隊(duì)使用了頭戴式面部捕捉相機(jī),并建立了有史以來最大的拍攝與動作捕捉影棚。

圖 | 電影《阿凡達(dá)》動作捕捉劇照

特效影視制作和游戲從來是不分家的,很快有人把動作捕捉的概念帶到了游戲圈。在這個領(lǐng)域最具有先鋒意識的是當(dāng)時在主機(jī)領(lǐng)域與任天堂、索尼三分天下的世嘉。

它1994年推出的街機(jī)游戲《VR戰(zhàn)士》就使用了動作捕捉模擬人物行動。這種新概念在當(dāng)時粗糙的街機(jī)和家用機(jī)游戲市場成為一股清流,用逼真流暢的動作嚇呆了一眾玩家。隔年,南夢宮也推出了《刀魂》,作為自家動作捕捉技術(shù)的先鋒軍,也取得了成功。

如今,動作捕捉幾乎成為大型游戲工作室標(biāo)配,利用動捕技術(shù),真人和動畫人物是同步的,游戲角色會顯得更加真實(shí)、生動。這就是為什么我們可以在游戲中看到電影級水平的動作表演。

02、常見的動捕技術(shù)

隨著技術(shù)的成熟,現(xiàn)在動作捕捉技術(shù)應(yīng)用的領(lǐng)域也越來越廣泛了,從動畫制作、人機(jī)交互、到機(jī)器人遙控、體育訓(xùn)練等等,甚至現(xiàn)在的虛擬人直播,也是用的動捕技術(shù)。

面對不同的使用場景,動捕技術(shù)也出現(xiàn)了多種技術(shù)路線,常見的有光學(xué)動作捕捉技術(shù)、慣性動作捕捉技術(shù)以及視覺動作捕捉技術(shù)。

光學(xué)動作捕捉技術(shù)操作的時候會直接在人的身體上進(jìn)行簡單的標(biāo)記,標(biāo)記點(diǎn)會直接反射到提前設(shè)定好的攝像機(jī)上,然后再通過反射的不同位置的成像信息來預(yù)算標(biāo)記點(diǎn)的空間運(yùn)動信息,最終將信息進(jìn)行簡單地定位以及輸出。

圖 | 光學(xué)動捕:身上標(biāo)記光點(diǎn)

慣性動作捕捉技術(shù)會直接在人的身上佩戴陀螺儀,人在運(yùn)動的時候,陀螺儀也會跟著進(jìn)行旋轉(zhuǎn)。此時,直接通過感知陀螺儀的旋轉(zhuǎn)信息將人的運(yùn)動推算出,然后實(shí)現(xiàn)動作捕捉。

圖 | 慣性動捕需穿戴各種設(shè)備

視覺動作捕捉技術(shù)在操作的時候是不需要標(biāo)記和佩戴設(shè)備的,只要在人的活動范圍內(nèi)通過普通的攝像頭進(jìn)行動作的錄制,將人體關(guān)鍵信息進(jìn)行識別,然后采用特殊AI算法實(shí)現(xiàn)動作捕捉。

圖 | AI引擎驅(qū)動的動捕技術(shù)

光學(xué)動作捕捉技術(shù)和慣性動作捕捉技術(shù)有一定的使用門檻,在影視和游戲領(lǐng)域比較常見,雖然呈現(xiàn)的效果非常精準(zhǔn),但存在兩個問題:第一,成本高。便宜的至少也需要幾萬,貴的則需要幾十萬至幾百萬不等,只有大型影視和游戲工作室才能負(fù)擔(dān)得起這種成本。第二,使用不方便。在制作現(xiàn)場,動捕演員身上往往穿戴很多設(shè)備,穿戴設(shè)備與動作捕捉需要團(tuán)隊(duì)多人配合。

而更便于在普通消費(fèi)者市場進(jìn)行普及的視覺動作捕捉技術(shù),近年來受到蘋果、Meta等大廠的追逐。

03、Meta用一個頭顯搞定全身動捕

早在2019年,Meta就曾公布其虛擬人頭像系統(tǒng),其特點(diǎn)是通過VR設(shè)備進(jìn)行3D動捕技術(shù)來還原真人形象,可渲染出高度保真的膚色、紋理、毛發(fā)、微表情等細(xì)節(jié)。Meta希望未來人們在虛擬環(huán)境中見面就像在現(xiàn)實(shí)中一樣真實(shí)。

圖 | Meta旗下VR設(shè)備Quest可識別面部表情

據(jù)外媒報(bào)道,根據(jù)本月發(fā)布的一份論文,Meta提出了一種僅通過Quest實(shí)現(xiàn)全身動捕的解決方案。也就是說,此前VR頭顯僅僅可以將面部表情進(jìn)行動作捕捉,而現(xiàn)在已經(jīng)可以實(shí)現(xiàn)全身動作捕捉。

這主要是由人工智能的預(yù)測能力所驅(qū)動的。

對于上半身追蹤,通過在AI訓(xùn)練過程中獲得的經(jīng)驗(yàn),僅需來自現(xiàn)實(shí)世界的少量輸入就足以將雙手準(zhǔn)確地轉(zhuǎn)換到虛擬世界。例如,Quest的攝像頭可以看到你的手臂,肘部,手掌,所以可以很好地根據(jù)肌肉骨骼結(jié)構(gòu)估計(jì)上半身的完整姿態(tài)。

圖 | Quest頭顯可實(shí)現(xiàn)全身動作捕捉

現(xiàn)在對于下半身,Meta同樣在探索利用這一原理。使用收集的追蹤數(shù)據(jù)訓(xùn)練人工智能,僅使用來自VR頭顯和兩個控制器的傳感器數(shù)據(jù),就可以逼真地制作全身虛擬人動畫。

Meta團(tuán)隊(duì)使用人工生成的傳感器數(shù)據(jù)訓(xùn)練QuestSim (AI引擎)。為此,研究人員根據(jù)172人各8小時的運(yùn)動捕捉剪輯模擬了頭顯和控制器的運(yùn)動。這樣,他們就不必從頭開始捕捉頭顯和控制器與身體運(yùn)動的數(shù)據(jù)。

動作捕捉剪輯包括130分鐘的步行、110分鐘的慢跑、80分鐘的手勢、對話、90分鐘的白板討論和70分鐘的保持平衡。

圖 | AI引擎自我學(xué)習(xí)中

訓(xùn)練后,QuestSim可以根據(jù)真實(shí)的頭顯和控制器數(shù)據(jù)識別出一個人正在執(zhí)行的動作。利用人工智能預(yù)測,QuestSim甚至可以模擬沒有實(shí)時傳感器數(shù)據(jù)的身體部位運(yùn)動。

研究人員還進(jìn)一步發(fā)現(xiàn),即使不用手柄控制器,只需要頭顯的60個姿勢(包含位置和方向數(shù)據(jù)),就足以重建各種運(yùn)動姿態(tài),還原出來的效果同樣沒有物理偽影(本不存在卻出現(xiàn)在影像中的成像)。

對于動捕技術(shù)的未來,中信證券認(rèn)為,動捕技術(shù)有望在生物力學(xué)、工程應(yīng)用、游戲、影視、VR等方向進(jìn)一步發(fā)展和應(yīng)用。在元宇宙發(fā)展的過程中,捕捉用戶動作并及時生成虛擬世界中的相應(yīng)表現(xiàn)是用戶高質(zhì)量體驗(yàn)的重要一環(huán),將來動作捕捉將有廣泛的基礎(chǔ)應(yīng)用空間。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

一文讀懂動捕技術(shù):元宇宙的“重要拼圖”之一

如果說元宇宙是“數(shù)字化”的終極形態(tài),那動捕技術(shù)則是實(shí)現(xiàn)人“數(shù)字化”的關(guān)鍵一步。

文|MetaPost 

在影視制作中,動作捕捉是最常用到的一項(xiàng)技術(shù)。無論是《阿凡達(dá)》還是《指環(huán)王》里的咕嚕,都是先利用動作捕捉采集演員的肢體表演,再將捕捉到的動作渲染處理后,才呈現(xiàn)出震撼的視覺效果。

游戲行業(yè)也是動捕技術(shù)的核心應(yīng)用場景。游戲動畫中包含很多復(fù)雜的姿勢動作,通過采集真人演員的動作數(shù)據(jù),綁定到游戲角色的骨骼上,可以最大程度地還原人體真實(shí)的姿態(tài)、表情、重量和速度,從而讓玩家能夠體驗(yàn)到更加真實(shí)的游戲世界。

隨著“元宇宙”概念的全面普及,動作捕捉對元宇宙的長期價(jià)值也逐漸顯現(xiàn)出來,它和引擎、傳輸、計(jì)算和顯示等技術(shù)處于同一級別,是元宇宙底層建設(shè)這塊“巨大拼圖”中的重要一塊。

01、動捕技術(shù)發(fā)展歷程

類似動作捕捉的技術(shù)最早出現(xiàn)在1915年,當(dāng)時的動畫大師 Max Fleischer 制作了一臺放映機(jī),原理就是把膠片的內(nèi)容顯示到透光臺上。憑借著這臺放映機(jī),動畫師可以很方便地照著畫面中人物的動作造型,來繪制角色動作。

1983年,加拿大思蒙弗雷澤大學(xué)的Tom Calvert在物理機(jī)械捕捉服裝上取得的重大突破,這一技術(shù)讓人們見識到了最早的機(jī)械類捕捉。與此同時,麻省理工也推出了一套基于LED的“木偶圖像化(graphical marionetter)”系統(tǒng),這就是早期光學(xué)動捕系統(tǒng)的雛形。

此番生物力學(xué)研究為未來的影片制作鋪平了道路,在接下來的時間里,當(dāng)動作捕捉與計(jì)算機(jī)圖形技術(shù)相遇,動作數(shù)據(jù)的易得性使動作捕捉技術(shù)快速發(fā)展,并相繼被完整、大規(guī)模地運(yùn)用到游戲與電影行業(yè)。

90年末,電影《指環(huán)王》的拍攝則第一次將動捕拍攝步驟帶到了拍攝現(xiàn)場,動捕演員先驅(qū)Andy Serkis在場地中可以作為“咕?!边@一角色和其他演員進(jìn)行互動,這樣的互動更加有利于角色的塑造,因?yàn)橹挥挟?dāng)演員在表演過程中獲得了其他演員的情緒和語言反饋,自身情緒才能更酣暢地被釋放,角色才能更加有血有肉、活靈活現(xiàn)。

2009年上映的電影《阿凡達(dá)》可以說是將動作捕捉與表情捕捉技術(shù)成功結(jié)合的先驅(qū)者。導(dǎo)演James Cameron與團(tuán)隊(duì)使用了頭戴式面部捕捉相機(jī),并建立了有史以來最大的拍攝與動作捕捉影棚。

圖 | 電影《阿凡達(dá)》動作捕捉劇照

特效影視制作和游戲從來是不分家的,很快有人把動作捕捉的概念帶到了游戲圈。在這個領(lǐng)域最具有先鋒意識的是當(dāng)時在主機(jī)領(lǐng)域與任天堂、索尼三分天下的世嘉。

它1994年推出的街機(jī)游戲《VR戰(zhàn)士》就使用了動作捕捉模擬人物行動。這種新概念在當(dāng)時粗糙的街機(jī)和家用機(jī)游戲市場成為一股清流,用逼真流暢的動作嚇呆了一眾玩家。隔年,南夢宮也推出了《刀魂》,作為自家動作捕捉技術(shù)的先鋒軍,也取得了成功。

如今,動作捕捉幾乎成為大型游戲工作室標(biāo)配,利用動捕技術(shù),真人和動畫人物是同步的,游戲角色會顯得更加真實(shí)、生動。這就是為什么我們可以在游戲中看到電影級水平的動作表演。

02、常見的動捕技術(shù)

隨著技術(shù)的成熟,現(xiàn)在動作捕捉技術(shù)應(yīng)用的領(lǐng)域也越來越廣泛了,從動畫制作、人機(jī)交互、到機(jī)器人遙控、體育訓(xùn)練等等,甚至現(xiàn)在的虛擬人直播,也是用的動捕技術(shù)。

面對不同的使用場景,動捕技術(shù)也出現(xiàn)了多種技術(shù)路線,常見的有光學(xué)動作捕捉技術(shù)、慣性動作捕捉技術(shù)以及視覺動作捕捉技術(shù)。

光學(xué)動作捕捉技術(shù)操作的時候會直接在人的身體上進(jìn)行簡單的標(biāo)記,標(biāo)記點(diǎn)會直接反射到提前設(shè)定好的攝像機(jī)上,然后再通過反射的不同位置的成像信息來預(yù)算標(biāo)記點(diǎn)的空間運(yùn)動信息,最終將信息進(jìn)行簡單地定位以及輸出。

圖 | 光學(xué)動捕:身上標(biāo)記光點(diǎn)

慣性動作捕捉技術(shù)會直接在人的身上佩戴陀螺儀,人在運(yùn)動的時候,陀螺儀也會跟著進(jìn)行旋轉(zhuǎn)。此時,直接通過感知陀螺儀的旋轉(zhuǎn)信息將人的運(yùn)動推算出,然后實(shí)現(xiàn)動作捕捉。

圖 | 慣性動捕需穿戴各種設(shè)備

視覺動作捕捉技術(shù)在操作的時候是不需要標(biāo)記和佩戴設(shè)備的,只要在人的活動范圍內(nèi)通過普通的攝像頭進(jìn)行動作的錄制,將人體關(guān)鍵信息進(jìn)行識別,然后采用特殊AI算法實(shí)現(xiàn)動作捕捉。

圖 | AI引擎驅(qū)動的動捕技術(shù)

光學(xué)動作捕捉技術(shù)和慣性動作捕捉技術(shù)有一定的使用門檻,在影視和游戲領(lǐng)域比較常見,雖然呈現(xiàn)的效果非常精準(zhǔn),但存在兩個問題:第一,成本高。便宜的至少也需要幾萬,貴的則需要幾十萬至幾百萬不等,只有大型影視和游戲工作室才能負(fù)擔(dān)得起這種成本。第二,使用不方便。在制作現(xiàn)場,動捕演員身上往往穿戴很多設(shè)備,穿戴設(shè)備與動作捕捉需要團(tuán)隊(duì)多人配合。

而更便于在普通消費(fèi)者市場進(jìn)行普及的視覺動作捕捉技術(shù),近年來受到蘋果、Meta等大廠的追逐。

03、Meta用一個頭顯搞定全身動捕

早在2019年,Meta就曾公布其虛擬人頭像系統(tǒng),其特點(diǎn)是通過VR設(shè)備進(jìn)行3D動捕技術(shù)來還原真人形象,可渲染出高度保真的膚色、紋理、毛發(fā)、微表情等細(xì)節(jié)。Meta希望未來人們在虛擬環(huán)境中見面就像在現(xiàn)實(shí)中一樣真實(shí)。

圖 | Meta旗下VR設(shè)備Quest可識別面部表情

據(jù)外媒報(bào)道,根據(jù)本月發(fā)布的一份論文,Meta提出了一種僅通過Quest實(shí)現(xiàn)全身動捕的解決方案。也就是說,此前VR頭顯僅僅可以將面部表情進(jìn)行動作捕捉,而現(xiàn)在已經(jīng)可以實(shí)現(xiàn)全身動作捕捉。

這主要是由人工智能的預(yù)測能力所驅(qū)動的。

對于上半身追蹤,通過在AI訓(xùn)練過程中獲得的經(jīng)驗(yàn),僅需來自現(xiàn)實(shí)世界的少量輸入就足以將雙手準(zhǔn)確地轉(zhuǎn)換到虛擬世界。例如,Quest的攝像頭可以看到你的手臂,肘部,手掌,所以可以很好地根據(jù)肌肉骨骼結(jié)構(gòu)估計(jì)上半身的完整姿態(tài)。

圖 | Quest頭顯可實(shí)現(xiàn)全身動作捕捉

現(xiàn)在對于下半身,Meta同樣在探索利用這一原理。使用收集的追蹤數(shù)據(jù)訓(xùn)練人工智能,僅使用來自VR頭顯和兩個控制器的傳感器數(shù)據(jù),就可以逼真地制作全身虛擬人動畫。

Meta團(tuán)隊(duì)使用人工生成的傳感器數(shù)據(jù)訓(xùn)練QuestSim (AI引擎)。為此,研究人員根據(jù)172人各8小時的運(yùn)動捕捉剪輯模擬了頭顯和控制器的運(yùn)動。這樣,他們就不必從頭開始捕捉頭顯和控制器與身體運(yùn)動的數(shù)據(jù)。

動作捕捉剪輯包括130分鐘的步行、110分鐘的慢跑、80分鐘的手勢、對話、90分鐘的白板討論和70分鐘的保持平衡。

圖 | AI引擎自我學(xué)習(xí)中

訓(xùn)練后,QuestSim可以根據(jù)真實(shí)的頭顯和控制器數(shù)據(jù)識別出一個人正在執(zhí)行的動作。利用人工智能預(yù)測,QuestSim甚至可以模擬沒有實(shí)時傳感器數(shù)據(jù)的身體部位運(yùn)動。

研究人員還進(jìn)一步發(fā)現(xiàn),即使不用手柄控制器,只需要頭顯的60個姿勢(包含位置和方向數(shù)據(jù)),就足以重建各種運(yùn)動姿態(tài),還原出來的效果同樣沒有物理偽影(本不存在卻出現(xiàn)在影像中的成像)。

對于動捕技術(shù)的未來,中信證券認(rèn)為,動捕技術(shù)有望在生物力學(xué)、工程應(yīng)用、游戲、影視、VR等方向進(jìn)一步發(fā)展和應(yīng)用。在元宇宙發(fā)展的過程中,捕捉用戶動作并及時生成虛擬世界中的相應(yīng)表現(xiàn)是用戶高質(zhì)量體驗(yàn)的重要一環(huán),將來動作捕捉將有廣泛的基礎(chǔ)應(yīng)用空間。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。