你们催更的模型,云栖大会一口气全发了!

简介: 通义发布6款全新模型及“通义百聆”语音品牌,覆盖文本、视觉、语音、视频、代码、图像全场景。Qwen系列升级显著提升多模态理解与生成能力,Wan2.5支持音画同步,百聆攻克企业语音落地难题,全面赋能AI应用创新。

6款模型上新 + 1个全新品牌发布,覆盖文本、视觉、语音、视频、代码、图像全场景,这份超强清单,请收好:

  • Qwen MAX:万亿参数大模型,Coding 与工具调用能力登顶国际榜单;
  • Qwen3-Omni:新一代原生全模态大模型,真正实现“全模态不降智”;
  • Qwen3-VL:Agent 和 Coding能力全面提升,真正“看懂、理解并响应世界”;
  • Qwen-Image:再升级!真正实现“改字不崩脸、换装不走样”;
  • Qwen3-Coder:256K上下文修复项目,TerminalBench分数大幅提升;
  • Wan2.5-Preview:音画同步视频生成,图像支持科学图表与艺术字;
  • 通义百聆:企业级语音基座大模型,攻克企业落地语音模型的“最后一公里”;

接下来,我们将对这些模型逐项拆解,带你了解各模型核心能力与关键升级。


Qwen MAX万亿参数旗舰模型

Qwen3-Max 是一款参数规模超万亿的大模型,智能水平相比开源 235B 版本有显著提升。Coding 能力在 SWE-Bench Verified 评测中得分69.6 ,工具调用能力在 BFCL 和 TAU2 评测中达到国际前沿水平。理科推理能力方面,在 AIME25 评测中斩获满分100分。

快速了解

  • Instruct:适用于代码生成、工具调用等即时交互任务;
  • Thinking:支持结合工具的并行推理与工具调用,Qwen3-Max推理能力创下新高,在 AIME25 和HMMT等国际权威数学评测中均斩获满分100 分。

在 AIME25(数学推理)评测中得分 81.6,显著高于 Qwen3-235B-A22B 的 70.3 分;在 SWE-Bench Verified(代码生成)中得分为 69.6。在 SuperGPQA、LiveCodeBench、τ²-Bench 等任务上均优于 Qwen3-235B-A22B,展现更强的通用智能与编程能力。

图1:Qwen3-Max 多个权威评测基准性能对比图


Qwen3-Omni 新一代全模态大模型

Qwen3-Omni 是通义全新发布的全模态大模型,支持 19 种语言及方言输入、10 种语言输出,可处理长达 30 分钟的会议录音或播客,精准输出纪要。

模型采用 Thinker-Talker MoE 架构,在支持音视频、图像等多模态能力的同时,文本智力不打折。原生支持 Function Call 与 MCP 协议,可无缝嵌入车机、智能音箱等语音助手系统,实现“打开座椅加热并导航到公司”这类复合指令的精准执行。闭源版提供 17 种拟人音色,每种音色支持 10 语种自然表达,满足全球化企业交互需求。

该版本在音频识别、语音生成、图像理解等任务上全面超越 Qwen2.5-Omni 与 GPT-4o。在 VoiceBench-CommonEval 上得分达 90.8,展现极强的语音理解与对话能力。

图2:在开闭源评测中 22 项达 SOTA 水平

该版本在 AIME25、ZebraLogic 等文本推理任务上得分更高,语音生成(MiniMax-avg)达到 2.5803,优于 Qwen2.5-Omni 与 GPT-4o。同时,在 VoiceBench-CommonEval 上得分为 91.0,语音理解能力进一步提升,为车机、智能助手等高要求场景提供更强支持。

图3:多项指标领先开源模型

语种和方言(19种)

  • 阿拉伯语、粤语、中文、荷兰语、英语、法语、德语、印尼语、意大利语、日语、韩语、马来语、葡萄牙语、俄语、西班牙语、泰语、土耳其语、乌尔都语、越南语。

语音生成(10种)

  • 支持的语种:中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语
  • 支持的方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话

语音翻译(54种)

  • xx2En (任意语言 → 英文)
  • xx2Zh (任意语言 → 中文)
  • En2xx (英文 → 任意语言)
  • Zh2xx (中文 → 任意语言)

其中,xx(任意语言)包含的语言有:中文、英语、韩语、日语、德语、法语、意大利语、西班牙语、葡萄牙语、印尼语、泰语、阿拉伯语、粤语、越南语等。


Qwen3-VL“看懂、理解并响应世界”的视觉理解模型

Qwen3-VL 是一款真正实现“看懂世界、理解事件、做出行动”的视觉理解模型,支持 2 小时视频精确定位(如“第15分钟穿红衣者做了什么”),OCR 语言从 19 种扩展至 32 种,生僻字、古籍、倾斜文本识别率显著提升。原生支持 256K 上下文,可扩展至 100 万 token,适配超长视频与文档分析。

256K 内定位准确率100%,1M仍达99.5%。

图4:2小时“视频大海捞针”测试

本次发布重点强化以下能力:

  • 视觉智能体:可操作电脑和手机界面,识别 GUI 元素、理解按钮功能、调用工具并执行任务,在 OS World 等评测中达到世界顶尖水平;
  • 可视化编程:看到 UI 设计图或流程图,可直接生成 HTML/CSS/JS 代码或 Draw.io 图表,大幅提升产品与开发协作效率;
  • 空间感知与 3D Grounding:支持判断物体方位、视角变化与遮挡关系,为具身智能、机器人导航、AR/VR 等场景提供底层支持;
  • 超长视频理解与行为分析:不仅能理解 2 小时视频内容,还能精准回答“第15分钟穿红衣者做了什么”“球从哪个方向飞入画面”等时序与行为问题;
  • Thinking 版本强化 STEM 推理:在 MathVista、MathVision、CharXiv 等评测中达 SOTA 水平,可精准解析科学图表、公式与文献图像;
  • 视觉感知全面升级:优化预训练数据,支持“万物识别”——从名人、动漫角色、商品、地标到动植物,覆盖生活与专业场景;
  • 多语言 OCR 与复杂场景支持:语言扩展至 32 种,复杂光线、模糊、倾斜文本识别更稳定,生僻字、古籍字、专业术语召回率显著提升;
  • 安防感知与风险预警:在家庭、商场、街区、道路等真实场景中,对风险人物与事件的检测准确率达到行业领先水平;
  • 长上下文原生支持:256K 起步,可扩展至 100 万 token,支持整本教材、数小时会议录像的全程记忆与精准检索。


Qwen-Image-Edit-2509开源图片编辑专家

Qwen-Image 本次也迎来全新升级,新版本支持多图参考编辑,强化人脸、商品、文字 ID 一致性,并原生集成 ControlNet,实现“改字不崩脸、换装不走样”的工业级稳定性,满足电商、设计、广告等高要求场景。

本次升级核心亮点:

  • 多图编辑支持:对于多图输入,Qwen-Image-Edit-2509 基于Qwen-Image基模,不仅能够处理各种单图编辑场景,而且全新支持了多种多图编辑场景,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种新玩法。
  • 单图编辑一致性增强:对于单图编辑场景,Qwen-Image-Edit-2509 相比之前,显著提高了各个维度的一致性,主要体现在以下方面:
  • 人物编辑一致性增强:增强人物ID保持,支持各种风格肖像、姿势变换;
  • 商品编辑一致性增强:增强商品ID保持,支持各种商品海报编辑;
  • 文字编辑一致性增强:除了支持文字内容修改外,还支持多种文字字体、色彩以及材质编辑;
  • 原生支持ControlNet:支持包括深度图、边缘图、关键点图等引导信息。

本次更新单图输入编辑的一致性获得了显著增强,并且支持了多图输入编辑。

图5:Qwen-Image-Edit-2509图像编辑的样例


Qwen3-Coder上下文代码专家

Qwen3-Coder 本次迎来能力升级,通过 Agentic Coding 联合训练优化,TerminalBench 分数大幅上涨,在 OpenRouter 平台一度成为全球第二流行的 Coder 模型(仅次于 Claude Sonnet 4)。支持 256K 上下文,可一次性理解并修复整个项目级代码库,推理速度更快、Token 消耗更少、安全性更高,被开发者誉为“可一键修复复杂项目的负责任 AI”。

本次升级核心亮点:

  • Agentic Coding 联合训练:与 Qwen Code 或 Claude Code 联合优化,在 CLI 应用场景效果显著提升;

  • 项目级代码理解:256K 上下文支持,可处理跨文件、多语言的复杂项目;

  • 推理效率优化:相比上代模型,推理速度更快,用更少 Token 达成更优效果;

  • 代码安全性提升:强化漏洞检测与恶意代码过滤,迈向“负责任的 AI”;

  • 多模态输入支持:搭配 Qwen Code 系统,支持上传截图+自然语言指令生成代码,全球领先。

在 SWE-Bench Verified 上得分达70.3;TerminalBench 与 SecCodeBench 也显著上涨,展现更强的 CLI 应用生成与安全修复能力。

图6:Qwen3-Coder Plus 代码能力对比图


Wan2.5-Preview音画同步创意引擎

通义万相 2.5 preview 版上线,首次原生支持音画同步,全面提升视频生成、图像生成、图像编辑三大核心能力,满足广告、电商、影视等商业级内容生产需求。

🎬 视频生成 —— 会“配音”的10秒电影

  • 原生音画同步:视频自带人声(多人)、ASMR、音效、音乐,支持中文、英文、小语种及方言,画面与声音严丝合缝;
  • 10秒长视频生成:时长提升1倍,最高支持1080P 24fps,动态表现力与结构稳定性大幅提升,叙事能力跃升;
  • 指令遵循提升:支持复杂连续变化指令、运镜控制、结构化提示词,精准还原用户意图;
  • 图生视频保 ID 优化:人物、商品等视觉元素一致性显著提升,商业广告与虚拟偶像场景可用;
  • 通用音频驱动:支持上传自定义音频作为参考,搭配提示词或首帧图生成视频,实现“用我的声音讲你的故事”。

🖼️ 文生图 —— 能“写字”的设计大师

  • 美学质感提升:真实光影、细节质感表现力增强,擅长不同艺术风格与设计质感还原;
  • 稳定文字生成:支持中英文、小语种、艺术字、长文本、复杂构图精准渲染,海报/LOGO一次成型;
  • 图表直接生成:可输出科学图表、流程图、数据图、架构图、文字内容表格等结构化图文;
  • 指令遵循提升:复杂指令精细化理解,具备逻辑推理能力,可精准还原现实IP形象与场景细节。

✂️ 图像编辑 —— “改字不崩脸”的工业级修图

  • 指令编辑:支持丰富编辑任务(换背景/改颜色/加元素/调风格),指令理解精准,无需专业PS技能;
  • 一致性保持:支持单图/多图参考垫图,人脸、商品、风格等视觉元素ID强保持,编辑后“人还是那个人,包还是那个包”。


通义百聆企业级语音基座大模型

通义百聆是通义实验室推出的全新品牌,是一款企业级语音基座大模型,整合了领先的 Fun-ASR 语音识别大模型与 Fun-CosyVoice 语音合成大模型,致力于攻克复杂环境下的语音落地应用难题。

Fun-ASR 语音识别大模型专治语音识别中的“幻觉输出”“串语种”“热词失效”三大行业痛点。通过首创的 Context 增强架构(CTC+LLM+RAG),幻觉率从 78.5% 降至 10.7%,基本根治串语种问题。

支持热词动态注入与跨语种语音克隆,行业术语 100% 准确召回。Fun-CosyVoice 语音合成大模型采用创新性的语音解耦训练方法,大幅提升音频合成效果,并支持跨语种语音克隆。

核心能力速览:

  • 幻觉率大幅下降:通过 Context 增强架构,将 CTC 初筛结果作为 LLM 上下文,幻觉率从 78.5% 降至 10.7%,输出更稳定可靠;
  • 彻底解决串语种问题:CTC 解码文本输入 LLM Prompt,极大缓解英文录音输出中文等“自动翻译”现象;
  • 强定制化能力:引入 RAG 机制动态注入术语库,支持人名、品牌、行业黑话(如“ROI”“私域拉新”)精准识别,5分钟完成配置;
  • 跨语种语音克隆:采用多阶段训练方法,一个音色可说遍全球,声音相似度行业领先;
  • 行业场景全覆盖:基于数千万小时真实音频训练,覆盖金融、教育、制造、互联网、畜牧等 10+ 行业,深入产业一线。

现阶段所有的模型已经同步上线,你可以进入魔搭、GitHub、Hugging Face 搜索模型名,一键部署,还可以登陆阿里云百炼平台调用 API,快去体验吧~



来源  |  阿里云开发者公众号

相关文章
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
635 32
|
2月前
|
存储 人工智能 自动驾驶
云栖重磅合集 | 吴泳铭:超级人工智能之路
吴泳铭在云栖大会发表演讲,指出AGI已成必然,终极目标是超级人工智能ASI。阿里云发布通义千问7款新模型,升级全栈AI体系,推出磐久128超节点、HPN 8.0网络等基础设施,全力推进AI技术发展。
云栖重磅合集 | 吴泳铭:超级人工智能之路
|
机器学习/深度学习 自然语言处理 算法
Stable Diffusion WebUI 从零基础到入门
Stable Diffusion WebUI 从零基础到入门
927 1
|
24天前
|
人工智能 Kubernetes 调度
ModelDistribution:高效的大模型管理、分发和预热方案
阿里云ACK One舰队推出ModelDistribution方案,创新性采用OCI标准封装模型,实现跨地域高效分发与预热,解决大模型部署中的管理复杂、拉取慢、多集群同步难等痛点,助力企业平滑演进至多地域AI推理架构。
128 1
ModelDistribution:高效的大模型管理、分发和预热方案
|
28天前
|
人工智能 IDE 程序员
Qoder 负责人揭秘:Qoder 产品背后的思考与未来发展
AI Coding 已经成为软件研发的必选项。根据行业的调研,目前全球超过 62% 的开发者正在使用 AI Coding 产品,开发者研发效率提升 30% 以上。当然,有很多开发者用得比较深入,提效超过 50%。
346 20
|
2月前
|
人工智能 测试技术 开发工具
如何将 AI 代码采纳率从30%提升到80%?
AI编码采纳率低的根本原因在于人类期望其独立完成模糊需求,本文提出了解决之道,讲解如何通过结构化文档和任务拆解提高AI的基础可靠性。
752 24
|
2月前
|
存储 人工智能 安全
阿里云中企出海技术分论坛精华概览 | 2025云栖大会回顾
2025云栖大会中企出海技术分论坛聚焦中国企业全球化挑战,阿里云联合易点天下、技威时代等企业,分享从“走出去”到“扎下根”的技术路径。论坛展示阿里云在基础设施、网络、安全、AI与数据库等领域的创新成果,推出全球一张网、AI网关、瑶池数据库等解决方案,助力企业构建安全、智能、敏捷的全球云底座,推动中国技术出海迈向新阶段。
阿里云中企出海技术分论坛精华概览 | 2025云栖大会回顾
|
2月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
500 54
|
28天前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。