开源人工智能根据面部表情特征深度学习应用于生成图像标题

开源人工智能根据面部表情特征深度学习应用于生成图像标题摘要: 图像字幕是生成图像的自然语言描述的过程. 然而, 大多数当前的图像字幕模型没有考虑图像的情感方面, 这与其中表现的活动和人际关系非常相关. 为了开发一种可以生成包含这些人类标题的模型, 我们使用从包括人脸在内的图像中提取的面部表情特征, 旨在提高模型的描述能力. 在这项工作中, 我们提出了两种 Face-Cap 模型, 它以不同的方式嵌入面部表情特征, 以生成图像标题. 使用所有标准评估指标, 我们的 Face-Cap 模型在应用于从标准 Flickr 30K 数据集中提取的图像标题数据集时, 优于用于生成图像标题的最先进基线模型, 该数据集包含大约 11K 个包含面部的图像. 对字幕的分析发现, 令人惊讶的是, 令人惊讶的是, 字幕质量的提高似乎并非来自添加与图像的情感方面相关的形容词, 而是来自字幕中描述的行为的更多变化.

开源人工智能根据面部表情特征深度学

习应用于生成图像标题简介: 图像字幕系统旨在使用计算机视觉和自然语言处理来描述图像的内容. 这在计算机视觉中是一项具有挑战性的任务, 因为我们不仅要捕捉对象, 还要捕捉它们之间的关系以及图像中显示的活动, 以便生成有意义的描述. 大多数最先进的方法, 包括深度神经网络, 都会生成反映图像事实方面的字幕[3,8,12,16,20,35,37]; 在这个过程中, 通常会忽略能够提供更丰富和更有吸引力的图像标题的情感方面. 在设计智能系统以产生智能, 适应性和有效结果时, 需要包括识别和表达情感的情感属性[22]. 设计能够识别情感并将其应用于描述图像的图像字幕系统仍然是一个挑战.

一些模型已将情绪或其他非事实信息纳入图像标题 [10,23,38]; 他们通常需要收集一个补充数据集, 其中的情感词汇来源于此, 来自自然语言处理[25] 的工作, 其中情绪通常被描述为积极的, 中立的或消极的. 马修斯等人. 例如,[23]通过众包构建了一个情感图像标题数据集, 其中要求说话者使用固定词汇包括正面情绪 (例如可爱的猫) 或负面情绪 (例如阴险的猫); 他们的模型在这个和一套标准的事实标题上进行了训练. 甘等人. [10] 提出了一个名为 StyleNet 的字幕模型, 用于添加样式, 包括情感, 以及事实标题; 他们指定了一组预定义的样式, 例如幽默或浪漫.

这些类型的模型通常包含代表观察者对图像的情感的图像描述 (例如, 对于图像的正面看法而言, 可爱的猫, 对于负面的看法, 则是阴险的猫); 它们并不旨在捕捉图像的情感内容, 如图 1 所示. 这种区别已在情感分析文献中得到认可: 例如,[24] 的早期工作提出了一种用于预测情绪的图论 - 理论方法. 由文本作者表达, 首先删除文本实际内容中的正面或负面的文本片段 (例如 "主角试图保护她的好名字" 作为电影情节描述的一部分, 哪里好具有积极的情绪) 并且只留下反映作者主观观点的情感文本(例如 "大胆, 富有想象力, 无法抗拒"). 在图像的背景下, 我们对与内容相关的情感的概念感兴趣.

开源人工智能根据面部表情特征深度学习应用于生成图像标题贡献: 因此, 在本文中, 我们引入了一个图像字幕模型, 我们称之为 Face-Cap, 以结合图像本身的情感内容: 我们自动检测人脸的情绪, 并将衍生的面部表情特征应用于生成图像标题. 我们介绍了 Face-Cap 的两种变体, 它们以不同的方式使用这些特征来生成字幕. 我们的工作贡献是:

1.Face-Cap 模型生成包含面部表情特征和情感内容的字幕, 既不使用情感图像标题配对数据也不使用难以收集的情绪标题数据. 据作者所知, 这是第一项在图像字幕任务中应用面部表情分析的研究.

2. 一组实验证明, 这些 Face-Cap 模型在所有标准评估指标上都优于基线, 这是一种最先进的模型. 对生成的字幕的分析表明, 它们通过更好地描述图像中执行的操作来改进基线模型.

3. 一个图像标题数据集, 包括我们从 Flickr 30K 数据集 [39] 中提取的人脸, 我们称之为 FlickrFace11K. 它是公开的 3, 用于促进该领域的未来研究.

开源人工智能根据面部表情特征深度学习应用于生成图像标题数据集: 为了训练我们的面部表情识别模型, 我们使用面部表情识别 2013(FER-2013)数据集 [11]. 它包括野外样本, 幸福, 悲伤, 恐惧, 惊讶, 愤怒, 厌恶和中立. 它包含 35,887 个示例(28,709 个用于培训, 3589 个用于公开, 3589 个用于私人测试), 通过 Google 搜索 API 收集. 这些示例采用灰度级, 大小为 48 x 48 像素. 在删除 11 个完全黑色的示例后, 我们将 FER-2013 的训练集分为两个部分: 25,109 个用于训练, 3589 个用于验证模型. 与该领域的其他工作[17,27,40] 类似, 我们使用 FER-2013 的私人测试集进行训练阶段后模型的性能评估. 为了与相关工作进行比较, 我们不会将公共测试集应用于培训或验证模型.

为了训练我们的图像字幕模型, 我们提取了 Flickr 30K 数据集的一个子集, 带有图像标题 [39], 我们称之为 FlickrFace11K. 它包含 11,696 个例子, 包括人脸, 使用基于 CNN 的人脸检测算法进行检测[18] .4 我们观察到 Flickr 30K 数据集是我们数据集的一个很好的来源, 因为它有很大一部分样本包括人类与其他图像标题数据集(如 COCO 数据集[4]) 相比, 这些面. 我们将 FlickrFace11K 样本分为 8696 个进行培训, 2000 个进行验证, 1000 个进行测试, 并将其公之于众. 5 为了提取样本的面部特征, 我们使用面部预处理步骤和面部表情识别模型如下.

开源人工智能根据面部表情特征深度学习应用于生成图像标题 Face 预处理: 由于我们的目标是在 FER-2013 上训练面部表情识别模型并将其用作 FlickrFace11K 样本的面部表情特征提取器, 我们需要使样本与 FER-2013 数据一致. 为此, 使用面部检测器对 FlickrFace11K 的面进行预处理. 通过基于 CNN 的面部检测算法检测面部并从每个样本裁剪. 然后, 我们将每个面转换为灰度, 并将其调整为 48 x 48 像素, 这与 FER-2013 数据完全相同.

开源人工智能根据面部表情特征深度学习应用于生成图像标题结论和未来的工作: 在本文中, 我们提出了两种图像字幕模型, Face-Cap, 它采用面部特征来描述图像. 为此, 应用面部表情识别模型从包括人脸的图像中提取特征. 使用这些特征, 我们的模型被告知图像的情感内容, 以自动调节图像标题的生成. 与最先进的基线模型相比, 我们已经使用标准评估指标显示了模型的有效性. 生成的标题表明 Face-Cap 模型成功生成图像标题, 并在适当的时间结合了面部特征. 对字幕的语言分析表明, 描述图像内容的有效性得到提高, 表达的可变性更大.

未来的工作可能涉及设计新的面部表情识别模型, 这可以涵盖更丰富的情感, 包括混乱和好奇; 并有效地应用其相应的面部特征来生成图像标题. 此外, 我们希望探索注入面部情绪的替代架构, 如 [37] 的软注射方法.

代码地址: github.com/omidmn/Face-Cap

来源: http://ai.51cto.com/art/201807/578480.htm

与本文相关文章

暂无,快来抢沙发吧！