移动端人脸风格化技术的应用-【创云官网】

前言

随着元宇宙、数字人、虚拟形象等概念的爆发，各种数字化协同互动的泛娱乐应用也在不断的落地。例如，在一些游戏中，玩家成为虚拟艺人参与到高还原度的现实艺人日常工作中，并会在特定情况下，与虚拟艺人在人脸表情等层面上形成强映射提升参与感。而由阿里巴巴天猫推出的超写实数字人AYAYI和井柏然联合“带逛”的杂志《MO Magazine》，则打破传统的平面阅读体验，以虚实结合的形式让读者获得沉浸式体验。

而在这些泛娱乐应用场景中，“人”必然是首要考虑的一步。而人工设计的数字、动画形象，存在过于“抽象”、代价高昂、缺乏个性化等问题。因此在人脸数字化上，我们通过研发具有良好控制感、ID感、风格化程度的人脸风格化技术，实现风格定制化的人脸形象切换。该项技术不仅可以在直播、短视频等娱乐消费场景下作为氛围营造、提高观感的有效手段，也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。更进一步的想象，若不同的用户聚集在某个数字社区内，用该社区风格的数字形象聊天社交（例如“双城之战吧”的用户在元宇宙内用双城之战风格化形象友好交流），那是多具有代入感的事情。

双城之战动画

左图为原始AYAYI的形象，右图为风格化后的形象。

而为了将人脸风格化这项技术落地到我们的直播、买家秀、卖家秀等不同的泛娱乐业务场景，我们做到了：

低成本生产不同人脸风格化编辑的模型（本文所展示的所有效果均在没有任何设计资源的投入下实现的）；
适当进行风格编辑以配合设计、产品、运营进行风格选型；
能够在人脸ID感和风格化程度之间做倾斜与平衡；
保证模型的泛化性，以适用于不同的人脸、角度、场景环境；
在保证清晰度等效果的前提下，降低模型对算力的要求。

接下来，我们先看一下demo，然后再介绍我们整个技术流程：感谢我们的产品mm——多菲~

我们的整体算法方案采用三个阶段：

阶段一：基于StyleGAN的风格化数据生成；
阶段二：非监督图像翻译生成配对图像；
阶段三：使用配对图像进行移动端有监督图像翻译模型的训练。

人脸风格化编辑整体算法方案

当然，也可以用二阶段方案：StyleGAN制作pair图像对，然后直接训练有监督小模型。但增加非监督图像翻译阶段，可以将风格化数据生产和配对图像数据制作两个任务解耦开来，通过对阶段内算法、阶段间数据的优化改进，结合移动端有监督小模型训练，最终解决低成本的风格化模型生产、风格的编辑及选型、ID感及风格化的倾斜、部署模型的轻量化等问题。

基于StyleGAN的数据生成

使用StyleGAN算法进行数据生成的工作上，主要针对3个问题的解决：

提升模型的生成数据丰富度和风格化程度：例如生成CG脸更像CG，且各个角度、表情、发型等形象更丰富；
提升数据生成效率：生成的数据良率高、分布更加可控；
风格编辑及选型：例如修改CG脸的眼睛大小。

下面我们针对这三方面展开。

▐ 丰富度和风格化

基于StyleGAN2-ADA的迁移学习遇到的第一个重要问题就是：模型的丰富度和模型的风格化程度之间的trade-off。使用训练集进行迁移学习时，受训练集数据的丰富度影响，迁移后的模型在人脸表情、人脸角度、人脸元素等方面的丰富度也会受损；同时，随着迁移训练的迭代代数增加、模型风格化程度/FID的提升，模型丰富度也会越低。这会使得后续应用模型生成的风格化数据集分布过于单调，不利于U-GAT-IT的训练。