發(fā)布時間:2024-08-11 13:23:12 瀏覽量:102次
你有沒有看過油管很火的外國小姐姐模仿游戲NPC視頻?
這僵硬的姿勢、空洞的眼神、面癱的表情,讓游戲玩家們直呼DNA動了!
如果你也苦于此很久了,現(xiàn)在,網(wǎng)易的一項新技術(shù)將輕松改變這一局面:
只需一段語音,AI就能自動生成3D對話動作,效果甚至超越真人!
不僅能按角色的性別、說話的習(xí)慣和姿態(tài),合成不同風(fēng)格的動作,還可自由替換或指定待定動作。
目前,該技術(shù)已在語音合成手勢動作領(lǐng)域的權(quán)威賽事GENEA 2024上斬獲第一,并被ICMI 2024收錄。
在此之前,業(yè)界最常用的語音合成對話動作技術(shù)是StyleGestures。
該技術(shù)由美國藝電推出,曾在兩年前的第一屆GENEA 2020中取得第一。
但與真實動捕數(shù)據(jù)相比,StyleGestures合成的動作仍有明顯的機械感,且缺少可控性,不同的語音合成效果很隨機,有種碰運氣的感覺。
為了解決這兩個問題,網(wǎng)易的新技術(shù)分為離線的數(shù)據(jù)庫構(gòu)建和在線的語音驅(qū)動動作合成兩個模塊進行。
GENEA 2024主辦方發(fā)布的18小時數(shù)據(jù)集中,包括不同說話人的語音、文本和對應(yīng)的全身動作。
由于沒有經(jīng)過人工的清洗和處理,導(dǎo)致動作數(shù)據(jù)中有很大一部分的動作質(zhì)量較差。
因此,研究人員需要先對此進行預(yù)處理:舍棄動作質(zhì)量較差的數(shù)據(jù)、完善不帶手指旋轉(zhuǎn)信息的動作、再通過左右對稱的方式生成更多的數(shù)據(jù)集。
其次,根據(jù)說話文本單詞之間的時間間隔,將連續(xù)的文本切分為短片段。
并且針對時長小于1s的連續(xù)動作進行合并,對左右半身的動作進行鏡像擴充,最終得到約6000個全身動作片段,以及時長范圍從1s的短句到超過10s的長句。
接下來是對動作節(jié)奏和語音節(jié)奏進行自動標(biāo)注。
動作方面,說話人每做出一個變化的手勢,就對應(yīng)于一個節(jié)奏變化的時間點,簡單來說就是特定單詞重音時需要手勢進行一次變化,即手勢有一個明顯的速度變化的過程。
因此通過計算雙手速度的極小值,把每個極小值的時間點作為節(jié)奏的時間點,最后每個動作片段的節(jié)奏可以表示為長度為32位的0-1向量,1表示手勢動作變化的時間點。
在離線建立動作庫之后,就可以輸入任意一段語音和對應(yīng)的文本進行在線合成。
在對語音和文本進行算法自動切分后,利用訓(xùn)練后的StyleGestures這一概率生成式的神經(jīng)網(wǎng)絡(luò)模型,生成期望的動作。
其中,上半身的動作最為重要,研究人員利用動態(tài)規(guī)劃算法,從構(gòu)建的動作圖中搜索動作節(jié)奏和動作風(fēng)格嵌入匹配誤差最小的動作序列,同時保證前后動作的過渡代價小、過渡自然,最后輸出一個節(jié)奏匹配的上半身動作序列。
下半身動作的合成則不用考慮節(jié)奏,只考慮下半身動作之間過渡的自然性即可,同樣經(jīng)過圖優(yōu)化得到一個下半身動作序列。
最后,采用混合的方式融合上下半身動作,就得到了和語音文本匹配的全身動作序列。
與其他參賽系統(tǒng)相比,網(wǎng)易的新方法在在人類相似性評估中取得了最高的中位數(shù)分?jǐn)?shù),甚至超越了真實人類水平。
在適當(dāng)性評價中,該方法在上半身表現(xiàn)中排名第一,在全身表現(xiàn)中排名第二。
研究團隊來自網(wǎng)易互娛AI Lab,作者共三人。
研究人員指出,這項新技術(shù)不僅可用于游戲中,虛擬角色線上演講、數(shù)字人動作動畫合成、元宇宙形象等等場景也都能使用。
論文鏈接附在文末,感興趣的小伙伴可以自取~
論文鏈接:
javascript:
熱門資訊
想了解動畫制作和影視特效的區(qū)別嗎?本文將帶您深入探討動畫制作和影視特效之間的關(guān)系,幫助你更好地理解這兩者的差異。
想知道快影、剪映、快剪輯這三款軟件哪個更適合小白?看看這篇對比評測,帶你了解這三款軟件的功能和特點,快速選擇適合自己的視頻剪輯軟件。
剪映專業(yè)版新增全局預(yù)覽縮放功能,可以輕松放大或縮小時間軌道。學(xué)習(xí)如何使用時間線縮放功能,提升剪輯效率。
4. 豆瓣8.3《鐵皮鼓》|電影符號學(xué)背后的視覺盛宴、社會隱喻主題
文|悅兒(叮咚,好電影來了!)《鐵皮鼓》是施隆多夫最具代表性的作品,影片于... 分析影片的社會隱喻主題;以及對于普通觀眾來說,它又帶給我們哪些現(xiàn)實啟發(fā)...
5. 從宏觀蒙太奇思維、中觀敘事結(jié)構(gòu)、微觀剪輯手法解讀《花樣年華》
中觀層面完成敘事結(jié)構(gòu)、以及微觀層面的剪輯手法,3個層次來解讀下電影《花樣年華》的蒙太奇魅力。一、 宏觀層面:運用蒙太奇思維構(gòu)建電影劇本雛形。蒙...
6. 15種電影剪輯/轉(zhuǎn)場藝術(shù),賦予影片絕妙魅力
15種電影剪輯/轉(zhuǎn)場手法,讓影片更吸引眼球!回顧電影中豐富多樣的專場技巧,比如瞬間從一個場景中變換到空中... 現(xiàn)在是測試技術(shù)的時候了!以下是一些常見剪輯手法,讓你觀影過程更加華麗動人!
本文介紹了十款強大的PR視頻剪輯插件,幫助提升視頻剪輯效率,提高創(chuàng)作品質(zhì),并降低創(chuàng)作難度。
8. 零基礎(chǔ)怎么學(xué)習(xí)視頻剪輯?新手視頻剪輯教程
1、每個切點需要理由和動機 很剪輯師認(rèn)為,賦予每一個切點動機是非常困難的。很多...
電影創(chuàng)作者可以通過表意、造型、畫面展示等元素對隱身性的含義進行隱喻,打... 電影和夢境都具有普遍性的象征意義,夢境中的元素能夠代表人內(nèi)心的欲望,...
10. 干貨丨真正厲害的剪輯師都喜歡用這九大“技巧轉(zhuǎn)場”
想學(xué)習(xí)剪輯技術(shù)轉(zhuǎn)場的方法嗎?了解這九種技巧轉(zhuǎn)場方法,提升影片藝術(shù)感染力,讓你的視頻作品更加生動有趣!
最新文章
同學(xué)您好!