做网站找哪家公司好,珠海做网站优化的公司,wordpress博客主题哪个好,在什么网站上可以找设计兼职来做文章目录 1 Motivation2 背景 相关工作 Related work3 Method 方法4 效果 1 Motivation
背景是
Tuning-free personalized image generation methods无微调的个性化图像生成方式在维持脸部一致性上取得了显著性的成功。这里我不是很了解
然而#xff0c;在多个场景中缺乏整… 文章目录 1 Motivation2 背景 相关工作 Related work3 Method 方法4 效果 1 Motivation
背景是
Tuning-free personalized image generation methods无微调的个性化图像生成方式在维持脸部一致性上取得了显著性的成功。这里我不是很了解
然而在多个场景中缺乏整体一致性整体一致性是什么呢虽然脸一致了但是比如衣服和身体头发样式上的一致性很难保证这些进而阻碍了创建连贯的叙事的能力。
StoryMaker结合了多重条件包括面部识别和裁剪的人物图像包括服装、发型和身体将两个特征通过一种叫做位置感知感知重采样器 (PPR) 的方法 将面部身份信息与裁剪的字符图像相结合以获得不同的人物特征。
为了防止多个人物和背景的混杂分别通过带有分割遮挡的MSE损失来限制了不同人物和背景的交叉注意力。
除此之外训练了基于特定姿势的生成模型。
Lora也被用来提高质量。
2 背景 相关工作 Related work
主流维持脸部一致性的工作有2个派系
派系1微调系列
Break-A-Scene: Extracting Multiple Concepts from a Single Image2023
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion2022
Multi-Concept Customization of Text-to-Image Diffusion2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation2022
派系1生成能力不自然因为图像有限并且在微调上面花费成本较大
派系2不微调系列
Customizing realistic human photos via stacked id embedding2024
Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning2024
High-fidelity image personalization via multi-modal condition integration2024
Instantfamily: Masked attention for zero-shot multi-id image generation.2024
Instantid: Zero-shot identity-preserving generation in seconds2024
通过视觉编码器将视觉信息集成到生成器中没有用微调。
然而是上面的工作只能维持脸部特征他们不能维持更全面的一致性
StoryMaker允许通过文本提示改变背景、人物姿势和样式。怎么做到的呢就通过脸部特征上和裁剪的人物图像去提取信息使用位置感知感知器重采样器(PPR)来导出人物特征
3 Method 方法 具体来说首先使用人脸编码器提取人物的面部信息即面部特征
以及通过人物图像编码器提取它们的衣服、发型和身体的细节。
然后我们使用所提出的位置感知感知器重采样器PPR模块来细化此信息。PPR模块的结构组成如右侧所示。
为了控制主干生成网络将细化的信息注入到IP-Adapter提出的解耦交叉注意模块中[Ye et al. 2023b]。
为了防止多个字符和背景交错我们分别约束交叉注意对不同人物和背景的影响区域。
ID 损失还用于维护人物的身份。此外为了将姿态信息与参考图像解耦利用ControlNet检测到的姿态训练网络[Zhang et al. 2023]。
为了提高保真度和质量我们还使用 LoRA [Hu et al., 2021] 训练 U-Net。
一旦经过训练就可以丢弃整个ControlNet并通过文本提示控制字符的姿势或者在推理过程中用新的姿势指导图像生成。
提出的方法的完整流程如图所示
4 效果 训练在8卡 A100