Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 框架介绍:Leffa 是 Meta AI 推出的可控人物图像生成框架,基于注意力机制和流场学习。
  2. 主要功能:支持外观控制、姿势控制、细节保留和图像质量维持。
  3. 技术原理:通过正则化损失函数和渐进式训练优化模型性能,适用于多种扩散模型。

正文(附运行示例)

Leffa 是什么

公众号: 蚝油菜花 - Leffa

Leffa(Learning Flow Fields in Attention)是 Meta AI 推出的用于可控人物图像生成的框架。它基于在注意力机制中引入流场学习,能够精确控制人物的外观和姿势。Leffa 通过正则化损失函数指导模型在训练时让目标查询聚焦于参考图像中的正确区域,从而减少细节失真,提升图像质量。

Leffa 不增加额外参数和推理成本,且适用于多种扩散模型,展现了良好的模型无关性和泛化能力。

Leffa 的主要功能

  • 外观控制(虚拟试穿):根据参考图像生成穿着该服装的人物图像,保持人物原有特征不变。
  • 姿势控制(姿势转移):将一个人物的姿势从一个图像转移到另一个图像,保持人物的外观细节。
  • 细节保留:减少生成图像中的细节失真,如纹理、文字和标志等。
  • 质量维持:在控制细节的同时,保持生成图像的整体高质量。

Leffa 的技术原理

  • 注意力机制:基于注意力机制,用注意力层将目标图像与参考图像关联起来。
  • 流场学习:通过学习注意力层中的流场,显式指导目标查询关注于参考键的正确区域。
  • 正则化损失:在注意力图上施加正则化损失,将参考图像变形以更紧密地与目标图像对齐。
  • 空间一致性:基于转换注意力图到流场,用网格采样操作确保目标查询与参考图像之间的空间一致性。
  • 模型无关性:作为正则化损失函数,集成到不同的扩散模型中,无需额外参数或复杂的训练技术。
  • 渐进式训练:在训练的最后阶段应用,避免早期性能退化,优化模型性能。

如何运行 Leffa

环境配置

首先,创建一个 Conda 环境并安装所需的依赖包:

conda create -n leffa python==3.10
conda activate leffa
cd Leffa
pip install -r requirements.txt

运行 Gradio App

在本地运行 Gradio 应用:

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
22天前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
19天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
1674 40
|
19天前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
我们开源了一款 AI 驱动的用户社区
|
11月前
|
机器学习/深度学习 人工智能 算法
AI框架的赢者法则:生态繁荣的昇思MindSpore,成为大模型时代的新选择
2024年被视为大模型应用的元年。昇思MindSpore AI框架凭借其强大的开源社区和技术创新,在全球范围内迅速崛起。截至2024年11月,该框架的下载量已超过1100万次,覆盖130多个国家和地区的2400多个城市,拥有3.7万名贡献者。昇思MindSpore不仅在人才培养和社区治理方面表现出色,还在大模型的开发、训练和应用中发挥了关键作用,支持了50多个主流大模型,覆盖15个行业。随着其市场份额预计达到30%,昇思MindSpore正逐步成为行业共识,推动大模型在各领域的广泛应用。
331 12
|
机器学习/深度学习 人工智能 算法
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
国产AI框架支棱起来了!这所211高校凭昇思MindSpore连发10篇顶刊/顶会论文
394 0
|
人工智能 算法 开发者
华为开源全场景AI计算框架MindSpore,性能可达 Pytorch+2080Ti 的1.93倍
华为开源全场景AI计算框架MindSpore,性能可达 Pytorch+2080Ti 的1.93倍
757 0
|
机器学习/深度学习 人工智能 自然语言处理
进击的 AI 框架,MindSpore 开源一周年
开源一年以来,累计发布 8 个新版本,汇聚超过 3000 名社区开发者的代码贡献,社区访问量超千万;现拥有超过 100 个大的基础模型,涵盖计算机视觉、NLP 等主流的 AI 和深度学习框架;累计 PR 数 超过 2 万个,下载量高达 22 万次,下载用户遍布全球;超过 100 所高校参与了社区活动,超过 40 家科研机构利用它去发表原创论文。这就是全场景 AI 计算框架 MindSpore 开源一年来取得的成绩!
471 0
进击的 AI 框架,MindSpore 开源一周年
|
机器学习/深度学习 人工智能 算法
华为正式开源 AI 框架 MindSpore,已完成全栈全场景 AI 解决方案(Portfolio)的构建
华为正式开源 AI 框架 MindSpore,已完成全栈全场景 AI 解决方案(Portfolio)的构建
华为正式开源 AI 框架 MindSpore,已完成全栈全场景 AI 解决方案(Portfolio)的构建
|
机器学习/深度学习 人工智能 边缘计算
华为发布算力最强 AI 处理器 Ascend 910 及全场景 AI 计算框架 MindSpore
华为发布算力最强 AI 处理器 Ascend 910 及全场景 AI 计算框架 MindSpore
华为发布算力最强 AI 处理器 Ascend 910 及全场景 AI 计算框架 MindSpore

热门文章

最新文章