【豆包首款全模態理解模型正式發佈】

今天,火山引擎宣佈Doubao-Seed-2.0-lite升級新版本,這是豆包大模型家族首款全模態理解模型。

據介紹,該模型支持視頻、圖像、音頻、文本原生統一理解,Agent、Coding 與 GUI 能力同步升級。在同等算力成本下,是企業大規模、批量化部署全模態推理任務的更優性價比選擇。

新版本的 Doubao-Seed-2.0-lite 繼續在視覺理解能力上大幅提升,在物理(HiPhO)、醫療(MedXpertQA)等高階學科推理上,表現大幅超越2月發佈的 Doubao-Seed-2.0-pro。在細粒度感知(BabyVision、WorldVQA)與具身理解(ERQA)等關鍵領域達到 SOTA 水平,更適合企業在高價值場景規模化部署。

融入語音理解後,新版本的 Doubao-Seed-2.0-lite 可同時理解多種輸入模態,並完成跨模態聯合推理,直接處理必須“音畫結合”才能判斷的複雜業務需求。

在視頻理解場景下,模型能夠聯合分析視頻中的畫面與音頻信息,精準辨析視頻中的視聽一致性,判斷“看到的”與“聽到的”是否一致。

同時支持根據自然語言指令,在視頻中精準定位特定事件發生的時間點;更能跨越多個時間段提取關鍵線索,持續追蹤人物與事件發展,並基於畫面進行多步邏輯推理,還原事件關係與行爲脈絡。

在音頻上,模型支持19個語種的精準語音轉寫、中英文與其他14個語種互譯,還能深度捕捉語音中的情緒變化、環境背景聲與音樂細節,輸出更完整、更接近人類認知的語義信息。根據公開評測集,Doubao-Seed-2.0-lite 在語音識別、翻譯等多項音頻理解基準上優於 Gemini-3.1-Pro。

其他方面,Doubao-Seed-2.0-lite 深度適配 OpenClaw、Hermes Agent 等框架,強化深度搜索與 Skill 動態調用,可邊執行、邊沉澱經驗,越用越聰明。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com