最像“人”的一次：蔡浩宇公司偷偷發布的AI大模型，把我嚇壞了

文 / 遊戲那點事弦問

“這是AI啊？”

很難想象，習慣以文字內容傳達的筆者，在敲下這行字時，竟然很不爭氣地想說“你們看看就懂了”。

昨天（4月10日），有幾組AI素材迅速在各視頻平臺傳開，因其人物在說話間的呼吸、停頓、中斷、眼神交流都過於自然，引起了業內人士的驚詫，有人直呼“有點起雞皮疙瘩了”。

而這些AI素材大有來頭，正是米哈遊的創始人、“AI靈魂大法師”蔡浩宇所創建的anuttacon。

（蔡浩宇在領英上的職位信息，譯爲“AI靈魂大法師”）

要營造出這種獨特的“活人感”，得益於anuttacon昨日發佈的LPM 1.0，一個具備全雙工對話、無限時長、身份一致生成的視頻角色表演生成模型。

在官網上，主要從身份保持、多模態可控性、角色泛化、長時穩定性四個方面去細緻展示了LPM 1.0的研究成果，並配了很多相應的視頻素材。

值得一提的是，其中展示的兩個角色神似米哈遊旗下的虛擬形象鹿鳴，以及與米哈遊關係緊密的林離，這些素材無疑將米哈遊在視覺領域的探索再次推進了一個維度。

抱着激動的心情，我點進了項目主頁發表的技術報告，試圖去理解這項技術在實際應用上的真實意義。

01 讓角色演出提升一個維度

還得另闢蹊徑

“表演即反應。”——桑福德·邁斯納

在技術報告中，放着這麼一句話，也概括了anuttacon的研究目的。

報告提到，如今，製作級角色表演仍主要通過涉及建模、綁定、動畫和渲染的傳統3D流程實現。

儘管因爲模塊化和可控性的強大，這些流程已經能做到相當可觀的演出效果，但離不開三維處理流程的基本侷限性，它們在本質上難以擴展到我們需要的開放式場景中。

而要在2D環境下做出理想的效果，anuttacon的團隊總結出了“表演三難困境”：

1.表達能力——能夠像真實人類一樣行動，展現出豐富、對話式且非重複性的動作與微行爲，並具備交流性注視。
2.實時推理——具備因果關係實時生成能力，適用於直播場景。
3.長期穩定性——在無限期持續時間內保持身份特徵、解剖結構、個性化風格及視覺保真度。

爲了解決三難困境，LPM 1.0爲視頻生成對話性能設計了一個完整的全棧框架。

他們通過專用流程構建多模態數據集、140億參數的預訓練圖像、引入交錯式說話/傾聽音頻交叉注意力模塊形式的30億參數，最終構建出足有170億參數的模型，並在數千萬個音頻片段上進行完整訓練，由此形成基礎LPM模型。

在表達能力上，LPM 1.0將文本、音頻和圖像三種自然控制信號統一在單次生成中，實現對角色表演的精細導演級控制。

（輸入信號的組成）

要知道，從語音模型到視頻模型的實現並不是點到點的簡單提升。它必須能夠持續驅動角色在時間維度上進行言語表達、傾聽反應、情感傳遞與肢體動作。

而讓互動顯得自然的關鍵在於能夠實時反應：先傾聽再發言、預判話輪轉換，並隨着情境發展靈活調整回應力度——或緩和、強化、或暫且剋制。

進而在實時推理和長期穩定性的問題上，anuttacon從基礎LPM提煉出了Online LPM——一種支持低延遲無限時長交互的因果流式生成器。

通過開發出的四階段自迴歸蒸餾訓練方案，Online LPM能夠在實際延遲約束下，持續保持身份識別、動作同步及運動真實感，即使在無限遠距離場景中也能保持效果。

簡單地說，就是在直播這種場景中也能夠即時與用戶進行長時間的互動。

當然，三難困境之外仍有許多細化的問題。就比如太過於追求速度與穩定性的優化，往往會導致動作呈現重複性特徵。

所以爲了“身份保持”，LPM 1.0採用多粒度身份條件化：全局外觀參考、多視角身體圖像和麪部表情範例。這種精細化的條件，避免了模型對牙齒、表情皺紋、側面輪廓和不可見身體外觀等未見細節的幻覺生成。

配合在線流式結構，LPM 1.0便能在對話、直播、遊戲角色、教育、陪伴等多種場景下，進行保持無限時長、穩定及身份一致的生成。

到這裏，相信大家腦海中已經能想象只有科幻作品纔會出現的AI應用場景。

儘管現在LPM 1.0尚侷限於單個面向鏡頭的角色，並且還有更細化的問題需要繼續深耕。但近到有血有肉的遊戲npc，遠到人性化的生活陪伴，到如今已完全具備可行性。

最後，爲了評估、量化以上的場景，團隊還推出了LPM-Bench——首個面向多模態輸入交互式角色表演設計的基準測試。並通過大量實驗表明，基礎LPM和在線LPM始終優於最先進的模型。

02 “大餅”背後

這個團隊太硬了

如果說階段性的研究報告給我們畫了一張“大餅”，那好不好喫，還得看畫餅的人。

官網顯示，LPM 1.0的項目負責人，是Ailing Zeng和童欣。

Ailing Zeng是個典型的學術性人才。根據谷歌學術搜索，在近幾年的研究成果上她不僅呈現了爆發式的增長，其h指數及i10指數（評估論文影響力的標準）也證明了學術水平的硬實力。

在進入anuttacon前，Ailing Zeng就曾在IDEA及騰訊混元的團隊裏從事研究工作。

而童欣更是位成名已久的大佬。作爲圖形學領域的頂尖人物，他在微軟亞洲研究院擔任微軟全球合夥人、首席研究員25年之久。在結束研究院的工作後，便加入了anuttacon。

此外還有22位技術人員參與，可以說團隊裏既不缺乏資深學者的技術積澱，也不缺乏新興技術骨幹的創新活力。

而且，這“餅”也並非來自空中樓閣。在此前，anuttacon就憑藉着《羣星低語》以及《AnuNeko》，進行過AI遊戲、聊天app的嘗試，引起過廣泛的關注。

無論是《羣星低語》的AI對話內容驅動遊戲進度，還是《AnuNeko》裏帶有性格和偏好的“鮮活”貓咪，都能看出來anuttacon正在往“活人感”上努力。

如今的視頻生成大模型，正是最能直接證明，也是必要的技術儲備。

如果回顧蔡浩宇從米哈遊卸任，到如今跑在新領域前沿的模型技術的過程，你很難不感慨於他在佈局上的魄力。

在意識到“AI得做，而且得獨立出去做”之後，蔡浩宇便毅然卸任，招攬來童欣、前B站副總裁王宇陽，參與過Llama 3.1系列研究的吳簫劍等人去組建anuttacon。

這個“大動作”曾經也受到過質疑，更不乏有陰謀論的傳開。但如今LPM 1.0所引來的一切讚歎，都是對當初質疑者最有力的回應。

03 結語

儘管已經是老生常談，但再次回顧蔡浩宇曾經公開的“暴論”，在遊戲行業人才市場動盪的今日，頗有初現端倪的意味。

因爲無論從哪個角度去看AI，都太快了。

當然，在項目頁面有提示，目前的LPM 1.0還只是階段性的成果展示，以供學術交流之用。該模型不會開源，也不會對外提供使用。距離實際應用還需要完善的安全保護措施以及時間的堆砌。

但毋庸置疑，蔡浩宇的團隊如今已經成功搶到了他們在AI領域的聲量。

更多遊戲資訊請關註：電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com

最像“人”的一次：蔡浩宇公司偷偷發布的AI大模型，把我嚇壞了

（蔡浩宇在領英上的職位信息，譯爲“AI靈魂大法師”）

01

讓角色演出提升一個維度

還得另闢蹊徑

（輸入信號的組成）

02

“大餅”背後

這個團隊太硬了

03

結語

相關資訊 更多

熱點資訊

热门游戏

相關資訊更多