ConsistentID:针对定制化人脸需求!中山大学提出多模态精细化生成方法!

机器学习与生成对抗网络

共 3030字,需浏览 7分钟

 · 2024-05-22

本文来源  皓楠 投稿自 凹非寺  量子位  QbitAI

只需上传一张照片,就能瞬间变换身份,获得高精度个人写真!

或是科幻电影中的超级英雄,或是穿越时空的复古角色……

李飞飞在家做饭的样子有了,还有让斯嘉丽一键带圣诞帽。

除此之外,杨幂+小兰两位人脸融合在一起会是什么样子?

中山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。

最终在人脸个性化任务处理上,相比腾讯的photomaker和小红书的instantID,在五官一致性保持上更具优势

只需单张照片就可快速保留五官细节

ConsistentID框架包括两个关键模块:多模态面部 ID 生成器和ID保存网络。

多模态面部提示生成器由两个基本组件组成:细粒度多模态特征提取器,专注于捕获详细的面部信息,以及用来学习面部ID特征的提取器。

另一方面,ID保存网络同时利用面部文本和视觉提示,通过面部注意力定位策略防止来自不同面部区域的 ID 信息混合。

这种方法确保了面部区域ID一致性的保存。

多模态面部提示生成器

首先在细粒度多模态特征提取器这一模块中,使用了包括文本嵌入、面部嵌入和面部编码器这三个关键组件。需要独立学习细粒度的面部视觉和文本嵌入,并将它们输入到设计的轻量级面部编码器中,以生成细粒度的多模态面部特征。

用于生成细粒度多模态面部特征的面部编码器框架。

面部ID特征提取器

除了细粒度面部特征的输入条件外,我们还将字符的整体 ID 信息注入到我们的 ConsistentID 中作为视觉提示。具体来说,将完整的人脸图像同时输入到两个编码器中进行视觉特征提取。在这两个编码器之后,使用由 IPA-FaceID-Plus 初始化的参数的轻量级投影模块来生成整个图像的人脸嵌入。

ID保存网络。通过引导面部特征的注意力与相应的面部区域对齐来保持局部 ID 特征的一致性。这种优化策略源于观察到传统的交叉注意力图倾向于同时关注整个图像,这对在面部区域生成期间保持 ID 特征提出了挑战。为了解决这个问题,我们在训练期间引入了面部分割掩码,以从面部区域的增强文本交叉注意模块中学习到的注意力分数。

除此之外,研究团队还引入了测量细粒度面部生成数据集 FGID,解决了现有数据集中用于捕获不同身份保留面部细节的局限性。

该数据集包括面部区域和整个面部的面部特征和描述,辅以一种新颖的细粒度身份一致性度量,建立了细粒度面部生成性能的综合评估框架。

具体效果

在面部特征比较上,该方法生成的图像在眼睛、鼻子和嘴巴等面部特征中表现出很强的一致性。

定性评估中,研究团队对目前最先进方法,包括Fastcomposer,IP-Adapter、Photomaker和InstantID进行来比较分析,对每种方法使用默认参数,并将推理限制为单个参考图像。

除此之外,还与Photomaker方法对齐,使用 Mystyle数据集进行定量评估,并结合超过10个身份数据集进行可视化。

最终可以看到,ConsistentID在高质量生成、灵活的可编辑性和强大的身份保真度方面表现出更强大的能力。

而在定量评估中,在大多数评估指标中,ConsistentID始终优于其他方法,并且在生成效率方面超过了其他基于IP-Adapter的方法。

在风格化和动作指令两个特殊任务上的定性比较

试玩链接:
http://consistentid.natapp1.cc/

项目链接:
[1]https://github.com/JackAILab/ConsistentID

[2]https://ssugarwh.github.io/consistentid.github.io/




关注公众号【机器学习与AI生成创作】,更多精彩等你来读

如何跟进 AIGC+CV 视觉前沿技术?

CVPR 2024 | diffusion扩散模型梳理!100+论文、40+方向!

ICCV 2023 | diffusion扩散模型方向!百篇论文

CVPR 2023 | 30个方向130篇!最全 AIGC 论文一口读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

 戳我,查看GAN的系列专辑~!
最新最全100篇汇总!生成扩散模型Diffusion Models
ECCV2022 | 生成对抗网络GAN部分论文汇总
CVPR 2022 | 25+方向、最新50篇GAN论文
 ICCV 2021 | 35个主题GAN论文汇总
超110篇!CVPR 2021最全GAN论文梳理
超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

浏览 37
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报