【豆包首款全模态理解模型正式发布】

今天，火山引擎宣布Doubao-Seed-2.0-lite升级新版本，这是豆包大模型家族首款全模态理解模型。

据介绍，该模型支持视频、图像、音频、文本原生统一理解，Agent、Coding 与 GUI 能力同步升级。在同等算力成本下，是企业大规模、批量化部署全模态推理任务的更优性价比选择。

新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升，在物理（HiPhO）、医疗（MedXpertQA）等高阶学科推理上，表现大幅超越2月发布的 Doubao-Seed-2.0-pro。在细粒度感知（BabyVision、WorldVQA）与具身理解（ERQA）等关键领域达到 SOTA 水平，更适合企业在高价值场景规模化部署。

融入语音理解后，新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态，并完成跨模态联合推理，直接处理必须“音画结合”才能判断的复杂业务需求。

在视频理解场景下，模型能够联合分析视频中的画面与音频信息，精准辨析视频中的视听一致性，判断“看到的”与“听到的”是否一致。

同时支持根据自然语言指令，在视频中精准定位特定事件发生的时间点；更能跨越多个时间段提取关键线索，持续追踪人物与事件发展，并基于画面进行多步逻辑推理，还原事件关系与行为脉络。

在音频上，模型支持19个语种的精准语音转写、中英文与其他14个语种互译，还能深度捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。根据公开评测集，Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。

其他方面，Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架，强化深度搜索与 Skill 动态调用，可边执行、边沉淀经验，越用越聪明。

原文链接：https://www.he6.net/11783.html，转载请注明出处。

【豆包首款全模态理解模型正式发布】

在线客服

升级VIP

全屏浏览

繁简切换

返回顶部

【豆包首款全模态理解模型正式发布】

在线客服

升级VIP

全屏浏览

繁简切换

返回顶部

社交账号快速登录

社交账号快速登录