【豆包首款全模態理解模型正式發佈】

今天，火山引擎宣佈Doubao-Seed-2.0-lite升級新版本，這是豆包大模型家族首款全模態理解模型。

據介紹，該模型支持視頻、圖像、音頻、文本原生統一理解，Agent、Coding 與 GUI 能力同步升級。在同等算力成本下，是企業大規模、批量化部署全模態推理任務的更優性價比選擇。

新版本的 Doubao-Seed-2.0-lite 繼續在視覺理解能力上大幅提升，在物理（HiPhO）、醫療（MedXpertQA）等高階學科推理上，表現大幅超越2月發佈的 Doubao-Seed-2.0-pro。在細粒度感知（BabyVision、WorldVQA）與具身理解（ERQA）等關鍵領域達到 SOTA 水平，更適合企業在高價值場景規模化部署。

融入語音理解後，新版本的 Doubao-Seed-2.0-lite 可同時理解多種輸入模態，並完成跨模態聯合推理，直接處理必須“音畫結合”才能判斷的複雜業務需求。

在視頻理解場景下，模型能夠聯合分析視頻中的畫面與音頻信息，精準辨析視頻中的視聽一致性，判斷“看到的”與“聽到的”是否一致。

同時支持根據自然語言指令，在視頻中精準定位特定事件發生的時間點；更能跨越多個時間段提取關鍵線索，持續追蹤人物與事件發展，並基於畫面進行多步邏輯推理，還原事件關係與行爲脈絡。

在音頻上，模型支持19個語種的精準語音轉寫、中英文與其他14個語種互譯，還能深度捕捉語音中的情緒變化、環境背景聲與音樂細節，輸出更完整、更接近人類認知的語義信息。根據公開評測集，Doubao-Seed-2.0-lite 在語音識別、翻譯等多項音頻理解基準上優於 Gemini-3.1-Pro。

其他方面，Doubao-Seed-2.0-lite 深度適配 OpenClaw、Hermes Agent 等框架，強化深度搜索與 Skill 動態調用，可邊執行、邊沉澱經驗，越用越聰明。