眾所周知,卡耐基梅隆大學在計算機科學方面的研究名列前茅,而迪士尼有意將計算機科學技術(shù)引入動畫制作,影視拍攝。他們與卡耐基梅隆大學合作建立的實驗室近日發(fā)表了一篇論文 A Deep Learning Approach for Generalized Speech Animation,利用深度學習的方法,來生成看起來自然的語音動畫。這篇論文已被SIGGRAPH 2017收錄。
他們引入了一種簡單而有效的深度學習方法,來自動生成看起來自然的,能夠與輸入語音同步的語音動畫。這種方法使用滑動窗口預測器,宣傳視頻制作,可以學習到從音位標簽輸入序列到嘴型運動的任意非線性映射,能精準捕捉自然動作和可視化的協(xié)同發(fā)音效果,影視拍攝制作公司。
這種方法有幾個吸引人的特性:它能實時運行,只需要進行非常少的參數(shù)調(diào)節(jié),能很好的泛化到新的輸入語音序列,很容易編輯來創(chuàng)建風格化和情緒化的語音,并且與現(xiàn)有的動畫重定向方法兼容。
迪士尼實驗室表示,他們工作中的一個重點是開發(fā)出能高效生成語音動畫,并將其輕松地整合到現(xiàn)有作品中的方法。他們的論文中詳述了這種端到端的方法,其中包括機器學習的一些設(shè)計決策。在論文中,通過動畫片段中不同的人物和聲音,演示了泛化的語音動畫結(jié)果,包括唱歌和外語輸入,企業(yè)宣傳片制作。這種方法還可以根據(jù)用戶的語音輸入實時生成靈活的語音動畫。
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)) AI科技評論將論文部分內(nèi)容編譯如下:
前言
語音動畫是生成逼真的角色動畫中重要且耗時的一部分,影視廣告制作。從廣義上講,語音動畫是一種這樣的任務:改變圖形(或機器人)模型的面部特征,使嘴唇的動作與發(fā)出的聲音同步,形成一種在說話的感覺。作為人類,我們都是面部表情的專家,糟糕的語音動畫可能會讓人分心,影視公司,不愉快,產(chǎn)生困惑。例如,當看到的嘴型和聽到的聲音不一致時,影視拍攝公司,有時會讓觀眾以為自己聽到的是另一種聲音(McGurk和MacDonald的論文,1976)。對于實際的角色動畫來說,影視拍攝公司,高保真語音動畫至關(guān)重要。
目前在電影和視頻游戲制作中使用的傳統(tǒng)語音動畫方法通常趨向于兩個極端。一種做法是,高預算的產(chǎn)品通常會采用表演捕獲技術(shù)或雇一個大型的專業(yè)動畫制作團隊,這樣花費巨大,而且很難大規(guī)模復制。例如,目前沒有什么好的生產(chǎn)方法,可以跨多種語言,劃算且高效地生成高質(zhì)量的語音動畫。另一種做法是,動畫視頻公司電話,對于成本低、內(nèi)容多的產(chǎn)品,可能會使用簡單的唇形庫來快速生成質(zhì)量相對較低的語音動畫。
最近,人們對開發(fā)出自動生成語音動畫的數(shù)據(jù)驅(qū)動方法越來越感興趣,以找到將這兩個極端折中的解決辦法(De Martino等的論文,2006,北京宣傳片拍攝;Edwards等的論文,2016;Taylor等的論文,2012),企業(yè)宣傳片拍攝。但是,以前的工作需要預先定義一組數(shù)量有限的唇形,還必須將這些唇形混合起來。簡單的混合函數(shù)限制了可以建模的視覺語音動態(tài)的復雜度。所以我們另辟蹊徑,計劃利用現(xiàn)代機器學習方法,直接從數(shù)據(jù)中學習視覺語音的復雜動態(tài)。
我們提出了一種自動生成語音動畫的深度學習方法,企業(yè)視頻制作,這種方法提供一種劃算且高效的手段,能大規(guī)模地生成高保真的語音動畫。例如,北京動畫制作,我們用100多個自由度,在電影特效制作級別的人臉模型上生成逼真的語音動畫。我們工作中的一個重點是開發(fā)一種高效的語音動畫方法,可以無縫地整合到現(xiàn)有的作品生產(chǎn)中。
我們的方法使用連續(xù)的深度學習滑動窗口預測器,這是受Kim等人在2015年發(fā)表的一篇論文的啟發(fā)。滑動窗口的方法意味著預測器能夠在持續(xù)講話的輸入語音描述和輸出視頻之間表示復雜的非線性回歸,也自然包括語境和協(xié)同發(fā)音效果。我們的研究結(jié)果展現(xiàn)了在Kim等人之前的決策樹方法上利用神經(jīng)網(wǎng)絡深度學習方法帶來的改進。
使用重疊的滑動窗口更直接地將學習集中在捕捉局部范圍的語境和協(xié)同發(fā)音的效果上,動畫企業(yè)宣傳片,比起循環(huán)神經(jīng)網(wǎng)絡和LSTM(Hochreiter和Schmidhuber的論文,1997)等傳統(tǒng)的序列學習方法,影視后期制作公司,更適合預測語音動畫。
使用機器學習的主要挑戰(zhàn)之一是:要以一種對所需的最終目標有用的方式,影視制作,恰當?shù)囟x學習任務(例如選擇什么樣的輸入/輸出和訓練集)。我們的目標是讓動畫師能輕松地將高保真的語音動畫合并到任何rig上,對任何說話者都適用,并且易于編輯和風格化。
我們將我們的機器學習任務定義為,從單個作為參照的說話者中,學會產(chǎn)生具有中性語音的高保真動畫。通過聚焦作為參照的面部和中性的語音,我們可以低成本且高效地收集一個全面的數(shù)據(jù)集,這個數(shù)據(jù)集能充分地描述出語音動畫的復雜特性。大的訓練數(shù)據(jù)集使得我們能夠使用現(xiàn)代機器學習方法,宣傳片拍攝,可靠地學習語音運動中細微的動態(tài)變化。
與之前程序化的生成語音動畫的研究相比(De Martino等的論文,2006,影視制作公司;Edwards 等的論文,2016;Taylo等的論文,2012),我們的方法能直接從數(shù)據(jù)中學會自然的協(xié)同發(fā)音效果。
我們將輸入定義為文本(音位標簽),意味著可以學習與說話者無關(guān)的從語境到語音動畫的映射。
我們只需要現(xiàn)成的語音識別軟件自動將任何說話者的語音轉(zhuǎn)換成相應的音位描述。因此,我們的自動語音動畫可以泛化到任何說話者,任何形式的語音,甚至是其他語言。
局限性和未來的研究
主要的實際局限是,我們的動畫預測是依據(jù)AAM參數(shù)化法生成的參考面部來制作的。這使我們這種方法能泛化到任何內(nèi)容,但是對特征進行重定位會引入潛在的錯誤源。當提出重定向模型的初始特征設(shè)置時,必須小心謹慎,拍攝宣傳片,以保持預測動畫的逼真度。幸運的是,對每個角色,這個預計算步驟只需執(zhí)行一次。展望未來,一個有意思的研究方向是使用真實的動畫數(shù)據(jù)來開發(fā)針對自動語音動畫的數(shù)據(jù)驅(qū)動重定位技術(shù)。
只從中性的語音中學習,我們可以得到一個具有魯棒性的語音動畫模型,它可以泛化到任何語音內(nèi)容。目前,在動畫中添加表情和情感還是藝術(shù)家的工作,在未來,一個有趣的方向是從許多具有情感的語境(生氣、傷心等)生成的訓練數(shù)據(jù)中,訓練一個更大的神經(jīng)網(wǎng)絡,使預測的面部動作更接近于真實的情感。
一個主要的挑戰(zhàn)是如何既劃算,又高效地收集一個綜合數(shù)據(jù)庫用于訓練。如果沒有一個夠全面的訓練集,使用現(xiàn)代機器學習技術(shù)會存在困難,因為深度學習等方法通常是嚴重欠約束的??赡艿姆较蚴谴笠?guī)模地收集雜亂的數(shù)據(jù)(例如從公共視頻存儲庫中收集),或者開發(fā)能自適應地選擇收集哪種視頻的主動學習方法,以使總收集成本最小化。
進一步的泛化性可以從具有多種面部特征(男性、女性、圓臉、方臉、肥胖、消瘦等)的多個講話者中訓練一個語音動畫模型,并在預測的時候選擇與動畫角色模型最匹配的特征。這種方法可以根據(jù)人物的說話風格,泛化到不同臉型的不同面部表情。再一次說明,如何高效地收集綜合訓練集是一個很大的挑戰(zhàn)。