阿里通义发布 Qwen3-Omni-Flash-2025-12-01

软件资讯 软件资讯 发布于 3小时前 0 浏览 0 回复

阿里通义 Qwen 团队发布了基于 Qwen 3-Omni 的全面升级版本:Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni 是新一代原生全模态大模型,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。新版本引入了多种升级来提升模型表现和效率。

阿里通义发布 Qwen3-Omni-Flash-2025-12-01

此次升级版本主要特点为:

  • 音视频交互体验全面升级:大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的“降智”问题;多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。

  • 系统提示(System Prompt)控制能力飞跃:全面开放 System Prompt 自定义,实现对模型行为的精细调控——无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。

  • 多语言遵循能力更可靠:支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言,彻底优化上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确、一致。

  • 语音生成更拟人、更流畅: 彻底解决语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人。

模型性能

在客观性能指标上,Qwen3-Omni-Flash-2025-12-01 全模态能力全面跃升,各项能力均显著超越 Qwen3-Omni-Flash:

  • 🧠 文本理解与生成更强大:在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升,复杂指令遵循能力再上新台阶。
  • 👂 语音理解更精准:在语音识别(Fleurs-zh)的字错率显著降低,语音对话评估(VoiceBench)得分提升 3.2 分,语音理解能力提升。
  • 🎙️ 语音生成更自然:多语言语音合成质量全面提升,尤其在中文、多语种上,韵律、语速与停顿更贴近真人对话。
  • 👁️ 图像理解更深入:在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃,能更准确地“看懂”图像内容并进行深度分析。
  • 🎬 视频理解更连贯:视频语义理解能力(MLVU +1.6)持续优化,结合增强的音视频同步能力,为实时视频对话提供坚实基础。

阿里通义发布 Qwen3-Omni-Flash-2025-12-01

此次升级,让 Qwen3-Omni-Flash-20251201 在全模态场景下真正做到“声形意合,令出智随”,为用户带来前所未有的自然、精准、生动的 AI 交互体验。



同类文章推荐:

  • Ubuntu 26.04 LTS 将内置官方 AMD ROCm 软件包
  • OrientDB 3.2.47 版本发布
  • Laravel framework 12.42.0 发布
  • Apache Tomcat 11.0.15 发布
  • JavaScript 诞生 30 周年
  • Firefox 146.0 版本发布