全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。

2月18日,阶跃星辰发布了最新的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型。其中 Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型、语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 现已支持这两个最新模型的一键部署,以下为您详细介绍如何使用。

一、PAI Model Gallery 简介

Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,如 Qwen,DeepSeek 等系列模型。通过 PAI 对这些模型的适配,用户可以零代码实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

image.png


二、一键部署 Step-Video-T2V

Step-Video-T2V 模型介绍

Step-Video-T2V 是阶跃星辰发布的最先进的 (SoTA) 文本转视频预训练模型,性能领跑全球的开源视频生成大模型,具有 300 亿参数,能够生成高达 204 帧的视频。为了提高训练和推理效率,阶跃提出了一种用于视频的深度压缩 VAE,实现了 16x16 空间和 8 倍时间压缩比。在最后阶段应用直接偏好优化 (DPO) 来进一步提高生成视频的视觉质量。Step-Video-T2V 的性能在一个新的视频生成基准 Step-Video-T2V-Eval 上进行评估,展示了其 SoTA 文本生成视频质量。
为了对开源视频生成模型的性能进行全面评测,阶跃发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成 image.png

视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。

评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。

使用 PAI Model Gallery 一键部署

1. 进入 PAI Model Gallery 页面,在顶部左上角根据实际情况选择地域。在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。在左侧导航栏选择快速开始 > Model Gallery

image.png

2. 在 Model Gallery 页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“Step-Video-T2V”模型,进入模型详情页面。

image.png

3. 单击右上角部署:选择部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。

image.png

4. 使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

image.png

image.png



三、一键部署 Step-Audio-Chat

Step-Audio-Chat 模型介绍

Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。Step-Audio 展示了四项关键技术创新:
● 130B 参数多模态模型:集成理解和生成功能的单一统一模型,可执行语音识别、语义理解、对话、语音克隆和语音合成。阶跃星辰已将 130B Step-Audio-Chat 变体开源。
● 生成数据引擎:通过阶跃星辰的 130B 参数多模态模型生成高质量音频,消除了传统 TTS 对手动数据收集的依赖。利用这些数据来训练和公开发布资源高效的 Step-Audio-TTS-3B 模型,该模型具有增强的指令跟踪能力,可实现可控语音合成。
● 精细化语音控制:通过指令式控制设计实现精准调控,支持多种情绪(愤怒、喜悦、悲伤)、方言(粤语、四川话等)、唱腔(说唱、清唱)等,满足多样化的语音生成需求。
● 增强智能:通过 ToolCall 机制集成和角色扮演增强功能提高代理在复杂任务中的表现。
在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,Step-Audio 模型性能均超过了行业内同类型开源模型,位列第一。Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。

image.png

使用 PAI Model Gallery 一键部署

1. 进入 PAI Model Gallery 页面,在顶部左上角根据实际情况选择地域。在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。在左侧导航栏选择快速开始 > Model Gallery

image.png

2. 在 Model Gallery 页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“Step-Audio-Chat”模型,进入模型详情页面。3. 单击右上角部署,填写服务名称并选择合适的部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。由于模型尺寸较大(130B),总共至少需要300G左右的显存才可以加载模型,因此请至少选用4卡80G显存的部署资源

image.png

4. 使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

image.png


四、技术支持

欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断更新 SOTA 模型,如果您有任何需求或建议,也可以联系我们。您可通过钉钉扫描下方二维码(或搜索钉钉群号79680024618/77450028832),加入 PAI-Model Gallery 用户交流群!

PAI ModelGallery 用户一群:

image.png


PAI ModelGallery 用户二群:

image.png


相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
543 109
|
3月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
243 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
3月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
4月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
4月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
21天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
12月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1122 6
|
6月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
|
7月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
274 6

相关产品

  • 人工智能平台 PAI