美团推出并开源LongCat-Flash-Omni模型：可实现实时音视频交互，性能达到行业领先水平

作者：admin 日期：2026-01-12

11月3日消息，美团曾于9月1日正式推出LongCat-Flash系列模型，目前已开源LongCat-Flash-Chat与LongCat-Flash-Thinking两个版本，受到了开发者的关注。而在今日，LongCat-Flash系列迎来了新的家族成员——LongCat-Flash-Omni的正式发布。

IT之家从官方介绍了解到，LongCat-Flash-Omni 依托 LongCat-Flash 系列的高效架构设计（即 Shortcut-Connected MoE，包含零计算专家），并且创新性地整合了高效多模态感知模块与语音重建模块。即便其总参数达到 5600 亿（激活参数为 270 亿）的庞大规模，依然具备低延迟的实时音视频交互能力，能为开发者的多模态应用场景提供更高效的技术方案。

综合评估结果显示，LongCat-Flash-Omni 在全模态基准测试中处于开源领域的最先进水平（SOTA），并且在文本、图像、视频理解以及语音感知与生成等核心单模态任务上，都表现出了极强的竞争力。LongCat-Flash-Omni 是行业内首个集“全模态覆盖、端到端架构、大参数量高效推理”于一身的开源大语言模型，首次在开源范围内实现了全模态能力与闭源模型的对标，同时依靠创新的架构设计和工程优化，使得大参数模型在多模态任务中也能达成毫秒级响应，了行业内推理延迟的难题。

LongCat-Flash-Omni 继承了该系列出色的文本基础能力，并且在多个领域都展现出领先的性能表现。和 LongCat-Flash 系列的早期版本相比，这款模型不仅没有出现文本能力的下降，反而在部分领域取得了性能上的进步。这样的结果不仅证明了我们训练策略的有效性，更突出了在全模态模型训练过程中不同模态之间所蕴含的协同价值。

图像理解方面：LongCat-Flash-Omni 的性能（在RealWorldQA数据集上得分为74.8分）和闭源全模态模型 Gemini-2.5-Pro 不相上下，并且比开源模型 Qwen3-Omni 表现更好；它在多图像任务上的优势特别突出，这主要是因为在高质量的交织图文、多图像以及视频数据集上进行训练所取得的成果。

音频能力方面，我们从自动语音识别（ASR）、文本转语音（TTS）以及语音续写这几个维度展开评估。在指令模型层面，其表现十分亮眼：ASR任务上，在LibriSpeech、AISHELL-1等数据集的测试结果优于Gemini-2.5-Pro；语音到文本翻译（S2TT）在CoVost2数据集上展现出强劲实力；音频理解任务中，在TUT2017、Nonspeech7k等任务上达到了当前最优水平；音频到文本对话在OpenAudioBench、VoiceBench上表现优异，实时音视频交互的评分与闭源模型接近，类人性指标更是胜过GPT-4o，成功实现了从基础能力到实用交互的高效转化。

视频理解方面，LongCat-Flash-Omni在视频到文本任务上的性能目前处于最优水平，其中短视频理解效果显著超过现有参评模型，长视频理解能力则可与Gemini-2.5-Pro和Qwen3-VL相媲美。这一出色表现主要得益于其采用的动态帧采样、分层令牌聚合的视频处理策略，以及高效骨干网络对长上下文的良好支持。

跨模态理解方面：性能超越Gemini-2.5-Flash（非思考模式），与Gemini-2.5-Pro（非思考模式）不相上下；特别是在真实世界音视频理解的WorldSense基准测试中，对比其他开源全模态模型呈现出明显的性能领先性，这一表现验证了其高效的多模态融合能力，使其成为目前综合能力处于领先地位的开源全模态模型。

端到端交互表现方面，鉴于当下行业内缺乏成熟的实时多模态交互评估体系，LongCat团队针对性地搭建了一套专属的端到端评测方案。这套方案包含两部分：一是定量的用户评分（共250名用户参与评分），二是定性的专家分析（由10名专家对200个对话样本展开分析）。从定量结果来看，在端到端交互的自然度与流畅度维度上，LongCat-Flash-Omni在开源模型里优势明显，其评分比当前性能最优的开源模型Qwen3-Omni高出0.56分；而定性分析结果显示，LongCat-Flash-Omni在副语言理解、内容相关性以及记忆能力这三个维度上，已能与顶级模型相媲美，但在实时响应速度、交互类人性以及输出准确性这三个维度仍有提升空间，团队也计划在后续工作中对这些方面进行进一步优化。

美团推出并开源LongCat-Flash-Omni模型：可实现实时音视频交互，性能达到行业领先水平

推荐下载