Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 「一张人像照片秒变3D视频?Meta用30亿张照片训练出「3D打印机」:开源多视角生成模型实测」
大家好,我是蚝油菜花。当别人还在讨论AI生成2D视频时,Meta已经让静态照片「长出」360°3D身体了!

Pippo模型的三大核弹级突破:

  • ✅ 单图破维:1张自拍照→1K分辨率多视角视频
  • ✅ 细节复活:自动补全鞋子/颈部等遮挡部位
  • ✅ 工业级精度:重投影误差指标保障3D一致性

基于 30亿张人像预训练+ControlMLP黑科技,它正在重新定义数字内容生产线——文末附开源代码部署指南,手把手教你生成会呼吸的AI人像!

🚀 快速阅读

Pippo 是一个强大的图像到视频生成模型。

  1. 核心功能:Pippo 能从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
  2. 技术原理:基于多视角扩散变换器和 ControlMLP 模块,Pippo 实现了高效的多视角生成和 3D 一致性。

Pippo 是什么

pippo

Pippo 是 Meta Reality Labs 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频。该模型基于多视角扩散变换器(Multi-View Diffusion Transformer),并在 30 亿张无结构的人像图像上进行了预训练。在 2500 张高质量工作室捕捉的图像上进行了后训练,以提高生成内容的质量和 3D 一致性。

Pippo 的核心技术包括 ControlMLP 模块,用于注入像素对齐的条件,如 Plücker 射线和空间锚点,以及注意力偏差技术,能够在推理时生成比训练时多 5 倍以上的视角。此外,Pippo 引入了重投影误差(Re-projection Error)作为评估多视角生成 3D 一致性的指标。

Pippo 的主要功能

  • 多视角生成:Pippo 可以从单张全身或面部照片生成多视角的高清视频,支持全身、面部或头部的生成。
  • 高效内容生成:通过多视角扩散变换器,Pippo 能生成多达 5 倍于训练视角的视频内容。
  • 高分辨率支持:Pippo 首次实现了 1K 分辨率下的一致多视角人像生成。
  • 空间锚点与 ControlMLP:通过 ControlMLP 模块注入像素对齐的条件,如 Plücker 射线和空间锚点,实现更好的 3D 一致性。
  • 自动补全细节:在处理单目视频时,Pippo 可以自动补全缺失的细节,如鞋子、面部或颈部等。

Pippo 的技术原理

  • 多阶段训练策略
    • 预训练阶段:Pippo 首先在 30 亿张无结构的人像图像上进行预训练,这些图像没有标注信息。
    • 中间训练阶段:在高质量工作室数据集上,模型联合生成多个视角的图像,使用低分辨率的视图进行去噪,通过浅层 MLP 粗略编码目标相机。
    • 后训练阶段:在高分辨率下对少量视图进行去噪,引入像素对齐控制(如空间锚点和 Plücker 射线),实现 3D 一致性。
  • 像素对齐控制(ControlMLP 模块):Pippo 通过 ControlMLP 模块注入像素对齐的条件,如 Plücker 射线和空间锚点,这些条件在训练阶段使用,在推理阶段固定为任意位置。
  • 注意力偏差技术:在推理阶段,Pippo 提出了注意力偏差技术,支持模型同时生成比训练阶段多 5 倍以上的视角。
  • 3D 一致性评估指标:Pippo 引入了改进的 3D 一致性评估指标——重投影误差(Re-projection Error),用于评估多视角生成的 3D 一致性。

如何运行 Pippo

1. 设置代码

克隆并添加仓库到你的路径:

git clone git@github.com:facebookresearch/pippo.git
cd pippo
export PATH=$PATH:$PWD

2. 安装依赖

创建并激活 conda 环境:

conda create -n pippo python=3.10.1 -c conda-forge
conda activate pippo

# 可根据需要调整配置(我们测试了以下配置)
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.0 -c pytorch -c nvidia

pip install -r requirements.txt

3. 下载并训练样本

你可以启动一个小型训练任务,使用 Ava-256 数据集 的少量样本。我们提供了预打包的样本文件,存储为 npy 文件,可以从 HuggingFace 下载。确保你已使用登录令牌认证 HuggingFace。

# 下载预打包的 Ava-256 样本
python scripts/pippo/download_samples.py

我们提供了不同分辨率的模型配置文件,分别位于 config/full/ 目录下。

# 启动训练(测试于单个 A100 GPU 80GB):完整尺寸模型
python train.py config/full/128_4v.yml

对于较小的 GPU,我们还提供了 tiny 模型配置文件。

# 启动训练(测试于单个 T4 GPU 16GB):tiny 模型
python train.py config/tiny/128_4v_tiny.yml

4. 计算重投影误差

要计算生成图像与真实图像之间的重投影误差,运行以下命令:

python scripts/pippo/reprojection_error.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
29天前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
339 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
3月前
|
人工智能 自然语言处理 数据可视化
AI视频培训|格律诗AI 视频创作与自媒体传播——某诗词学会
近日,TsingtaoAI派驻专家团队为某诗词学会学员交付《格律诗AI 视频创作与自媒体传播》培训。本课程精准切中行业痛点——传统诗词创作与现代传播方式的断层。课程摒弃泛泛而谈,直击实操:首日聚焦"工具认知+创作逻辑",系统梳理即梦、可灵等国产AI工具在格律诗意象可视化中的差异化应用,如将"月光在指尖碎裂"转化为动态场景;次日深入"语音表达+自媒体运营",传授用魔音工坊生成情感化配音、坤行数字人打造诗人形象的秘技,更结合抖音、小红书平台特性,解析"前5秒高光片段设计"等流量密码。
163 3
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
420 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
247 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
2月前
|
人工智能 编解码 自然语言处理
重磅更新!ModelScope FlowBench 支持视频生成 + 图像编辑,AI创作全面升级!
很高兴地向大家宣布,ModelScope FlowBench 客户端迎来重大功能升级! 本次更新不仅正式支持了视频节点功能,还新增了图像编辑与IC-Light智能打光等实用功能,同时对多个图像处理节点进行了深度优化和扩展。现在,您只需在 FlowBench 中轻松串联节点,即可使用 Wan2.1/Wan2.2、Qwen-Image-Edit、FLUX Kontext、IC-Light等强大模型,轻松实现创意内容的生成与编辑。 无论你是内容创作者、视觉设计师,还是AI技术爱好者,这次更新都将为你打开全新的创作边界。
458 14
|
3月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
2月前
|
机器学习/深度学习 人工智能 编解码
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
AI Compass前沿速览:PixVerse V5、gpt-realtime、Grok Code Fast、HunyuanVideo、OmniHuman-1.5、字节WaverAI视频、MiniCPM 4.5等
|
3月前
|
存储 人工智能 自然语言处理
让你拥有一个AI大脑,这个32.1k Github项目是你不错的选择,支持PDF、Markdown、代码、视频成为你的知识内容
Quivr 是开源全栈 RAG 平台,助你打造“第二大脑”,支持多文档类型与多种 LLM,实现智能搜索与聊天。具备语义检索、本地部署、隐私保护等功能,适用于个人知识管理与企业知识库,界面简洁易用,是高效智能问答的理想选择。
175 0
|
16天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
234 28
|
30天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
313 19

热门文章

最新文章