今天,火山引擎宣佈Doubao-Seed-2.0-lite升級新版本,這是豆包大模型家族首款全模態理解模型。
據介紹,該模型支持視頻、圖像、音頻、文本原生統一理解,Agent、Coding 與 GUI 能力同步升級。在同等算力成本下,是企業大規模、批量化部署全模態推理任務的更優性價比選擇。
新版本的 Doubao-Seed-2.0-lite 繼續在視覺理解能力上大幅提升,在物理(HiPhO)、醫療(MedXpertQA)等高階學科推理上,表現大幅超越2月發佈的 Doubao-Seed-2.0-pro。在細粒度感知(BabyVision、WorldVQA)與具身理解(ERQA)等關鍵領域達到 SOTA 水平,更適合企業在高價值場景規模化部署。
融入語音理解後,新版本的 Doubao-Seed-2.0-lite 可同時理解多種輸入模態,並完成跨模態聯合推理,直接處理必須“音畫結合”才能判斷的複雜業務需求。
在視頻理解場景下,模型能夠聯合分析視頻中的畫面與音頻信息,精準辨析視頻中的視聽一致性,判斷“看到的”與“聽到的”是否一致。
同時支持根據自然語言指令,在視頻中精準定位特定事件發生的時間點;更能跨越多個時間段提取關鍵線索,持續追蹤人物與事件發展,並基於畫面進行多步邏輯推理,還原事件關係與行爲脈絡。
在音頻上,模型支持19個語種的精準語音轉寫、中英文與其他14個語種互譯,還能深度捕捉語音中的情緒變化、環境背景聲與音樂細節,輸出更完整、更接近人類認知的語義信息。根據公開評測集,Doubao-Seed-2.0-lite 在語音識別、翻譯等多項音頻理解基準上優於 Gemini-3.1-Pro。
其他方面,Doubao-Seed-2.0-lite 深度適配 OpenClaw、Hermes Agent 等框架,強化深度搜索與 Skill 動態調用,可邊執行、邊沉澱經驗,越用越聰明。
![]()
![]()
![]()
![]()
![]()
更多遊戲資訊請關註:電玩幫遊戲資訊專區
電玩幫圖文攻略 www.vgover.com
