文 / 遊戲那點事 弦問
“這是AI啊?”
很難想象,習慣以文字內容傳達的筆者,在敲下這行字時,竟然很不爭氣地想說“你們看看就懂了”。


昨天(4月10日),有幾組AI素材迅速在各視頻平臺傳開,因其人物在說話間的呼吸、停頓、中斷、眼神交流都過於自然,引起了業內人士的驚詫,有人直呼“有點起雞皮疙瘩了”。
而這些AI素材大有來頭,正是米哈遊的創始人、“AI靈魂大法師”蔡浩宇所創建的anuttacon。
![]()
(蔡浩宇在領英上的職位信息,譯爲“AI靈魂大法師”)
要營造出這種獨特的“活人感”,得益於anuttacon昨日發佈的LPM 1.0,一個具備全雙工對話、無限時長、身份一致生成的視頻角色表演生成模型。
在官網上, 主要從身份保持、多模態可控性、角色泛化、長時穩定性四個方面去細緻展示了LPM 1.0的研究成果,並配了很多相應的視頻素材。
![]()
值得一提的是,其中展示的兩個角色神似米哈遊旗下的虛擬形象鹿鳴,以及與米哈遊關係緊密的林離,這些素材無疑將米哈遊在視覺領域的探索再次推進了一個維度。
抱着激動的心情,我點進了項目主頁發表的技術報告,試圖去理解這項技術在實際應用上的真實意義。
01
讓角色演出提升一個維度
還得另闢蹊徑
“表演即反應。”——桑福德·邁斯納
在技術報告中,放着這麼一句話,也概括了anuttacon的研究目的。
報告提到,如今,製作級角色表演仍主要通過涉及建模、綁定、動畫和渲染的傳統3D流程實現。
儘管因爲模塊化和可控性的強大,這些流程已經能做到相當可觀的演出效果,但離不開三維處理流程的基本侷限性,它們在本質上難以擴展到我們需要的開放式場景中。
而要在2D環境下做出理想的效果,anuttacon的團隊總結出了“表演三難困境”:
1.表達能力——能夠像真實人類一樣行動,展現出豐富、對話式且非重複性的動作與微行爲,並具備交流性注視。
2.實時推理——具備因果關係實時生成能力,適用於直播場景。
3.長期穩定性——在無限期持續時間內保持身份特徵、解剖結構、個性化風格及視覺保真度。
爲了解決三難困境,LPM 1.0爲視頻生成對話性能設計了一個完整的全棧框架。
他們通過專用流程構建多模態數據集、140億參數的預訓練圖像、引入交錯式說話/傾聽音頻交叉注意力模塊形式的30億參數,最終構建出足有170億參數的模型,並在數千萬個音頻片段上進行完整訓練,由此形成基礎LPM模型。
在表達能力上,LPM 1.0將文本、音頻和圖像三種自然控制信號統一在單次生成中,實現對角色表演的精細導演級控制。
![]()
(輸入信號的組成)
要知道,從語音模型到視頻模型的實現並不是點到點的簡單提升。它必須能夠持續驅動角色在時間維度上進行言語表達、傾聽反應、情感傳遞與肢體動作。
![]()
而讓互動顯得自然的關鍵在於能夠實時反應:先傾聽再發言、預判話輪轉換,並隨着情境發展靈活調整回應力度——或緩和、強化、或暫且剋制。
進而在實時推理和長期穩定性的問題上,anuttacon從基礎LPM提煉出了Online LPM——一種支持低延遲無限時長交互的因果流式生成器。
通過開發出的四階段自迴歸蒸餾訓練方案,Online LPM能夠在實際延遲約束下,持續保持身份識別、動作同步及運動真實感,即使在無限遠距離場景中也能保持效果。
簡單地說,就是在直播這種場景中也能夠即時與用戶進行長時間的互動。
當然,三難困境之外仍有許多細化的問題。就比如太過於追求速度與穩定性的優化,往往會導致動作呈現重複性特徵。
所以爲了“身份保持”,LPM 1.0採用多粒度身份條件化:全局外觀參考、多視角身體圖像和麪部表情範例。這種精細化的條件,避免了模型對牙齒、表情皺紋、側面輪廓和不可見身體外觀等未見細節的幻覺生成。
![]()
配合在線流式結構,LPM 1.0便能在對話、直播、遊戲角色、教育、陪伴等多種場景下,進行保持無限時長、穩定及身份一致的生成。
到這裏,相信大家腦海中已經能想象只有科幻作品纔會出現的AI應用場景。
儘管現在LPM 1.0尚侷限於單個面向鏡頭的角色,並且還有更細化的問題需要繼續深耕。但近到有血有肉的遊戲npc,遠到人性化的生活陪伴,到如今已完全具備可行性。
最後,爲了評估、量化以上的場景,團隊還推出了LPM-Bench——首個面向多模態輸入交互式角色表演設計的基準測試。並通過大量實驗表明,基礎LPM和在線LPM始終優於最先進的模型。
02
“大餅”背後
這個團隊太硬了
如果說階段性的研究報告給我們畫了一張“大餅”,那好不好喫,還得看畫餅的人。
官網顯示,LPM 1.0的項目負責人,是Ailing Zeng和童欣。
Ailing Zeng是個典型的學術性人才。根據谷歌學術搜索,在近幾年的研究成果上她不僅呈現了爆發式的增長,其h指數及i10指數(評估論文影響力的標準)也證明了學術水平的硬實力。
![]()
在進入anuttacon前,Ailing Zeng就曾在IDEA及騰訊混元的團隊裏從事研究工作。
而童欣更是位成名已久的大佬。作爲圖形學領域的頂尖人物,他在微軟亞洲研究院擔任微軟全球合夥人、首席研究員25年之久。在結束研究院的工作後,便加入了anuttacon。
![]()
此外還有22位技術人員參與,可以說團隊裏既不缺乏資深學者的技術積澱,也不缺乏新興技術骨幹的創新活力。
而且,這“餅”也並非來自空中樓閣。在此前,anuttacon就憑藉着《羣星低語》以及《AnuNeko》,進行過AI遊戲、聊天app的嘗試,引起過廣泛的關注。

無論是《羣星低語》的AI對話內容驅動遊戲進度,還是《AnuNeko》裏帶有性格和偏好的“鮮活”貓咪,都能看出來anuttacon正在往“活人感”上努力。
如今的視頻生成大模型,正是最能直接證明,也是必要的技術儲備。
如果回顧蔡浩宇從米哈遊卸任,到如今跑在新領域前沿的模型技術的過程,你很難不感慨於他在佈局上的魄力。
在意識到“AI得做,而且得獨立出去做”之後,蔡浩宇便毅然卸任,招攬來童欣、前B站副總裁王宇陽,參與過Llama 3.1系列研究的吳簫劍等人去組建anuttacon。
這個“大動作”曾經也受到過質疑,更不乏有陰謀論的傳開。但如今LPM 1.0所引來的一切讚歎,都是對當初質疑者最有力的回應。
03
結語
儘管已經是老生常談,但再次回顧蔡浩宇曾經公開的“暴論”,在遊戲行業人才市場動盪的今日,頗有初現端倪的意味。
![]()
因爲無論從哪個角度去看AI,都太快了。
當然,在項目頁面有提示,目前的LPM 1.0還只是階段性的成果展示,以供學術交流之用。該模型不會開源,也不會對外提供使用。距離實際應用還需要完善的安全保護措施以及時間的堆砌。
但毋庸置疑,蔡浩宇的團隊如今已經成功搶到了他們在AI領域的聲量。
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
