阿里通义发布 Qwen3-Omni-Flash-2025-12-01

qwen

软件资讯发布于 8个月前 17 浏览 0 回复 0 点赞

阿里通义 Qwen 团队发布了基于 Qwen 3-Omni 的全面升级版本：Qwen3-Omni-Flash-2025-12-01。

Qwen3-Omni 是新一代原生全模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。新版本引入了多种升级来提升模型表现和效率。

此次升级版本主要特点为：

音视频交互体验全面升级：大幅增强对音视频指令的理解与执行能力，有效解决口语化场景中常见的“降智”问题；多轮音视频对话的稳定性与连贯性显著提升，交互更自然流畅。
系统提示（System Prompt）控制能力飞跃：全面开放 System Prompt 自定义，实现对模型行为的精细调控——无论是人设风格（如甜妹、御姐、日系等）、口语化表达偏好，还是回复长度等要求，均可精准实现，控制力大幅提升。
多语言遵循能力更可靠：支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言，彻底优化上一版本中语言遵循不稳定的问题，确保跨语言场景下响应准确、一致。
语音生成更拟人、更流畅：彻底解决语速拖沓、机械呆板的问题，显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力，语音表现自然生动，拟人化程度逼近真人。

模型性能

在客观性能指标上，Qwen3-Omni-Flash-2025-12-01 全模态能力全面跃升，各项能力均显著超越 Qwen3-Omni-Flash:

🧠 文本理解与生成更强大：在逻辑推理（ZebraLogic +5.6）、代码生成（LiveCodeBench-v6 +9.3、MultiPL-E +2.7）和综合写作（WritingBench +2.2）等任务上大幅提升，复杂指令遵循能力再上新台阶。
👂 语音理解更精准：在语音识别（Fleurs-zh）的字错率显著降低，语音对话评估（VoiceBench）得分提升 3.2 分，语音理解能力提升。
🎙️ 语音生成更自然：多语言语音合成质量全面提升，尤其在中文、多语种上，韵律、语速与停顿更贴近真人对话。
👁️ 图像理解更深入：在多学科视觉问答（MMMU +4.7、MMMU_pro +4.8）和数学视觉推理（Mathvision_full +2.2）任务上取得飞跃，能更准确地“看懂”图像内容并进行深度分析。
🎬 视频理解更连贯：视频语义理解能力（MLVU +1.6）持续优化，结合增强的音视频同步能力，为实时视频对话提供坚实基础。

阿里通义发布 Qwen3-Omni-Flash-2025-12-01