设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎨 「设计师集体破防!这个AI竟能同时生成多个主体,字节新框架颠覆图像生成」
大家好,我是蚝油菜花。你是否经历过这些设计噩梦——

  • 👉 电商海报要放5款产品,生成图总缺胳膊少腿
  • 👉 虚拟试衣间模型穿模,项链和耳环永远不在正确位置
  • 👉 游戏角色设计图里,武器和坐骑的材质永远对不上...

今天要解剖的 UNO ,正在重写多主体生成规则!字节跳动这个AI框架用三大黑科技炸穿行业天花板:

  • 多主体精准控制:多个参考主体同框生成,位置/材质/光影完美对齐
  • 数据自进化系统:模型自己合成训练数据,解决多主体数据荒
  • 任意比例适配:从手机壁纸到巨幅海报,分辨率不再是限制

已有团队用它1小时出完季度产品图集,文末附《多主体生成秘籍》——你的设计流程准备好迎接核爆级升级了吗?

🚀 快速阅读

  1. UNO是字节跳动研发的AI图像生成框架,突破多主体场景下的生成一致性难题。
  2. 核心功能:单主体特征保持、多主体组合生成、虚拟试穿、风格化输出
  3. 技术原理:渐进式跨模态对齐策略、通用旋转位置嵌入技术、模型-数据共同进化范式

UNO 是什么

UNO

UNO基于扩散变换器架构,通过创新的数据合成管道生成高一致性多主体训练数据。其核心突破在于将文本到图像模型的生成能力迭代升级为多图像控制模型,实现从单主体到复杂场景的平滑过渡。

该框架采用两阶段渐进训练策略:第一阶段通过单主体数据微调模型,第二阶段引入多主体数据增强复杂场景处理能力。这种分阶段对齐方式有效解决了传统模型在多主体场景中的属性混淆问题。

UNO 的主要功能

  • 单主体精准控制:根据参考图生成不同场景下的同主体图像,特征保持误差降低67%
  • 多主体自由组合:支持同时输入10个参考主体,生成图像中物体位置精度提升89%
  • 动态分辨率适配:可在512×512至4096×4096范围内任意调整输出尺寸
  • 跨模态风格迁移:将参考主体特征与文本描述风格进行融合生成

UNO 的技术原理

  • 数据自生成管道:利用扩散变换器的上下文生成能力,自动创建多主体配对数据
  • 渐进式对齐机制:分阶段训练策略使模型逐步适应复杂场景
  • 通用旋转位置嵌入:通过位置索引调控多模态交互,解决属性混淆难题
  • 模型-数据共同进化:弱模型生成数据训练强模型,形成正向增强循环

如何运行 UNO

🔧 环境要求与安装

安装依赖项:

## 创建一个Python版本在3.10到3.12之间的虚拟环境,例如
# python -m venv uno_env
# source uno_env/bin/activate
# 然后安装
pip install -r requirements.txt

然后通过以下三种方式之一下载检查点:

  • 直接运行推理脚本,检查点将通过代码中的hf_hub_download函数自动下载到您的$HF_HOME(默认值为~/.cache/huggingface)。
  • 使用huggingface-cli download <repo name>下载black-forest-labs/FLUX.1-devxlabs-ai/xflux_text_encodersopenai/clip-vit-large-patch14bytedance-research/UNO,然后运行推理脚本。您可以只下载所需的检查点以加快设置速度并节省磁盘空间。例如,对于black-forest-labs/FLUX.1-dev使用huggingface-cli download black-forest-labs/FLUX.1-dev flux1-dev.safetensorshuggingface-cli download black-forest-labs/FLUX.1-dev ae.safetensors,忽略black-forest-labs/FLUX.1-dev模型仓库中的文本编码器(它们是为了diffusers调用)。所有检查点将占用37 GB的磁盘空间。
  • 使用huggingface-cli download <repo name> --local-dir <LOCAL_DIR>将2.中提到的所有检查点下载到您想要的目录。然后设置环境变量AEFLUX_DEV(如果您使用fp8模式则为FLUX_DEV_FP8)、T5CLIPLORA到相应的路径。最后,运行推理脚本。
  • 如果您已经有一些检查点,您可以设置环境变量AEFLUX_DEVT5CLIPLORA到相应的路径。最后,运行推理脚本。

🌟 Gradio 演示

python app.py

对于低显存使用,请传递--offload--name flux-dev-fp8参数。峰值显存使用量将为16GB。仅作参考,在RTX 3090上使用fp8和offload模式的端到端推理时间约为40秒到1分钟。

python app.py --offload --name flux-dev-fp8

✍️ 推理

从以下示例开始,探索并激发您的创造力。✨

python inference.py --prompt "A clock on the beach is under a red sun umbrella" --image_paths "assets/clock.png" --width 704 --height 704
python inference.py --prompt "The figurine is in the crystal ball" --image_paths "assets/figurine.png" "assets/crystal_ball.png" --width 704 --height 704
python inference.py --prompt "The logo is printed on the cup" --image_paths "assets/cat_cafe.png" "assets/cup.png" --width 704 --height 704

可选准备:如果您想首次在dreambench上测试推理,您应该克隆子模块dreambench以下载数据集。

git submodule update --init

然后运行以下脚本:

# 在dreambench上评估
## 单主体
python inference.py --eval_json_path ./datasets/dreambench_singleip.json
## 多主体
python inference.py --eval_json_path ./datasets/dreambench_multiip.json

🚄 训练

accelerate launch train.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1186 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
1月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
242 41
|
2月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
907 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
2月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
584 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
247 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
30天前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
119 6
|
16天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
234 28
|
2月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
643 36
|
30天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
313 19
|
18天前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
182 1

热门文章

最新文章