人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络简介: 我们的数字时代见证了对灵活, 高质量肖像操作的需求飙升, 不仅来自智能手机应用, 还来自摄影行业, 电子商务推广, 电影制作等. 人像设备也得到了广泛的研究 [34] ,5,8,18,1,33] 在计算机视觉和计算机图形学术界. 以前的方法专门用于添加化妆 [23,6], 执行风格转移[9,14,24,12], 年龄进展[42] 和表达操作 [1,39] 等等. 然而, 这些方法是针对特定任务而定制的, 并且不能被传输以执行连续和一般的多模态肖像操作.
最近, 生成对抗网络在合成和图像翻译中已经证明了引人注目的效果 [15,38,4,35,44,13], 其中[44,40] 提出了不成对图像翻译的循环一致性. 在本文中, 我们通过利用额外的面部地标信息将这个想法扩展到条件设置, 这些信息能够捕获复杂的表达变化. 通过这种简单而直接的修改产生的好处包括: 首先, 循环映射可以有效地防止多对一映射 [44,45], 也称为模式崩溃. 在面部 / 姿势操纵的情况下, 周期一致性也引起身份保持和双向操纵, 而先前的方法[1] 假设中性面开始或单向 [26,29], 因此在同一域中操纵. 其次, 不同纹理或样式的面部图像被认为是不同的模态, 当前的地标检测器不适用于那些程式化的图像. 通过我们的设计, 我们可以对来自多个域的样本进行配对, 并在每对域之间进行转换, 从而可以间接地在风格化的肖像上进行地标提取. 一旦收集了相应的数据, 我们的框架也可以扩展到化妆 / 卸妆, 老化操作等. 考虑到许多面部操作任务缺乏 groundtruth 数据, 我们利用[14] 的结果生成伪目标以学习同时表达和模态操作, 但它可以被任何所需的目标域替换.
人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络贡献: 然而, 实现高质量的肖像操作仍然存在两个主要挑战. 我们建议学习单个发生器 tt, 如 [7]. 但 StarGAN [7] 处理离散操作, 并且在具有不可移除伪像的高分辨率图像上失败. 为了合成照片般逼真的质量图像 (512x512), 我们提出了受[37,41] 启发的多层次平面监督, 其中不同分辨率的合成图像在被馈送到多级鉴别器之前被传播和组合. 其次, 为了避免在不同域之间的平移过程中纹理不一致和伪影, 我们将 Gram 矩阵 [9] 作为纹理距离的度量集成到我们的模型中, 因为它是不同的, 并且可以使用反向传播进行端到端的训练. 图 1 显示了我们模型的结果.
广泛的评估在数量和质量上都表明, 我们的方法在执行高质量的肖像操作方面与最先进的生成模型相当或更优(参见第 4.2 节). 我们的模型是双向的, 它避免了从中性面或固定域开始的需要. 此功能还可确保稳定的培训, 身份保护, 并可轻松扩展到其他所需的域操作. 在下一节中, 我们将审查相关的工作, 并指出差异. 有关 PortraitGAN 的详细信息, 请参见第 3 节. 我们在第 4 节中评估了我们的方法, 并在第 5 节中总结了论文.
人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络图像翻译: 我们的工作可以分为图像翻译和生成对抗网络, 其目的是学习映射 tt: 诱导与目标域无法区分的分布, 通过对抗训练一对发电机 tt 和鉴别器. 例如, Isola 等人. [13]将图像作为在配对样本上训练的一般图像到图像翻译的条件. 后来, Zhu et.al [44]通过引入循环一致性损失来扩展 [13], 以避免匹配训练对的需要. 此外, 它还减轻了训练生成对抗网络(也称为模式崩溃) 期间的多对一映射. 受此启发, 我们将这种损失整合到我们的模型中, 以便在不同领域之间保持身份.
启发我们设计的另一项开创性工作是 Star-GAN [7], 其中目标面部属性被编码为单热矢量. 在 StarGAN 中, 每个属性都被视为一个不同的域, 用于区分这些属性的辅助分类对于监督培训过程至关重要. 与 StarGAN 不同, 我们的目标是在像素空间中执行无法使用离散标签枚举的连续编辑. 这隐含地暗示了平滑且连续的潜在空间, 其中该空间中的每个点编码数据中有意义的变化轴. 我们将不同的样式形式视为本文中的域, 并可互换地使用两个单词. 从这个意义上讲, 美化 / 去美化, 衰老 / 年轻, 胡须 / 无胡须等应用也可以纳入我们的一般框架. 我们将第 4 节中针对 Cycle-GAN [44]和 StarGAN [7]的方法进行了比较, 并在第 3 节中详细说明了我们的设计.
姿势图像生成: 我们知道在人物图像生成的人重新识别任务中使用姿势作为条件的作品 [36,20,31,29]. 例如[26] 以通道方式连接单热姿势特征图来控制类似于 [30] 的姿势生成, 其中鸟类的关键点和分割掩模用于处理鸟类的位置和姿势. 为了合成更合理的人体姿势, Siarohin et.al [31]开发了可变形的跳跃连接, 并计算了一组仿射变换来逼近关节变形. 这些作品与我们的作品有一些相似之处, 因为面部地标和人体骨骼都可以被视为一种姿势表现形式. 但是, 所有这些工作都涉及原始域中的操作, 并且不保留身份. 此外, 这些工作中生成的结果是低分辨率, 而我们的模型可以成功生成具有照片般逼真质量的 512x512 分辨率.
人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络整体框架: 问题公式给定不同模态的域 1,2,3,... n, 我们的目标是学习单个通用映射函数 tt:XiXj,i,j{1,2,3,... n}(1)通过连续的形状编辑将 A 中的 A 从域 A 转换为 B(图 1). 等式 1 还暗示 tt 在给定期望条件下是双向的. 我们使用面部界标 j R1×H×W 来表示域 j 中的面部表情. 面部表情被表示为具有 N = 68 的 2D 关键点的矢量, 其中每个点 ui =(xi,yi)是 j 中的第 i 个像素位置. 我们使用属性向量 c = [c1,c2,c3,... cn]来表示目标域. 形式上, 我们的输入 / 输出是形式 (IA,LB,cB)/(IB,LA,cA)R(3 + 1 + n)×H×W 的元组. 模型体系结构我们的方法的总体流程很简单, 如图 2 所示, 由三个主要部分组成:(1) 生成器 tt(,c), 其将域 c1 中的输入面呈现给给定条件面部标记的另一域 c2 中的同一人. tt 是双向的, 并在前进和后退循环中重复使用.(2)一组不同分辨率的鉴别器 Di, 用于区分生成的样本和实际的样本. 我们采用 PatchGAN [44]而不是将 I 映射到表示 "真实" 或 "假" 的单个标量, 而 PatchGAN [44]使用完全的 convnet 输出矩阵, 其中每个元素 Mi,j 表示重叠补丁 ij 为真实的概率. 如果我们追溯到原始图像, 每个输出都有一个 70 70 的感受野. (3)考虑到身份保存和纹理的损失函数不同域之间的一致性. 在以下小节中, 我们将单独详细说明每个模块, 然后将它们组合在一起构建 PortraitGAN.
人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络数据集训练和验证: Radboud Faces 数据库 [19] 包含 4,824 个图像, 共有 67 个参与者, 每个图像执行 8 个规范的情感表达: 愤怒, 厌恶, 恐惧, 快乐, 悲伤, 惊讶, 蔑视和中立. iCV 多情感面部表情数据集 [25] 专为微情感识别 (5184x3456 分辨率) 而设计, 其中包括 31,250 种表情, 表现出 50 种不同的情绪. 测试: 我们从 Youtube(缩写为 HRY Dataset)收集 20 个高分辨率视频, 其中包含提供语音或地址进行测试的人员. 对于上述数据集, 我们使用 dlib [17]进行面部标志性提取, 并使用神经样式传递算法 [14] 来生成多种模态的肖像. 请注意, 在测试期间, groundtruths 仅用于评估目的.
人工智能生成微笑悲伤愤怒惊奇等离散面部属性利用生成对抗网络结论: 高分辨率下的同时形状和多模态肖像操作并非易事. 在这篇文章中, 我们提出的 PortraitGAN 通过结合额外的面部地标和属性向量作为条件来推动周期一致性的极限. 对于双向映射, 我们只使用一个类似于 [7] 的生成器, 但具有不同的训练方案. 这使我们能够以连续的方式同时执行多模态操作. 我们使用表达式插值和不同的样式模式验证我们的方法. 为了获得更好的图像质量, 我们采用多层次对抗监督, 在培训过程中提供更强的指导, 将不同尺度的生成图像组合并传播到不同尺度的鉴别器. 我们还利用纹理损失来强化模态之间的纹理一致性. 然而, 由于许多面部操纵任务中缺少数据, 因此不呈现超出样式转移的模态操作. 尽管如此, 我们提出的框架向交互式操作迈出了一步, 一旦获得相应的数据, 可以扩展到更多模态的操纵, 我们将其留作未来的工作.
来源: http://ai.51cto.com/art/201807/578470.htm