在电影《哈利波特》中,无论是墙上的画,亦或是报纸上的图片,他们都在魔法的驱动下动了起来,也因此被称为“活照片”(live photo)。
哈利波特中的预言家日报
如今在人工智能技术的帮助下,这种犹如魔法般的技术可以轻松地在手机上实现。达芬奇笔下蒙娜丽莎的神秘微笑应该是家喻户晓了,但这么活泼的蒙娜丽莎你见过吗?
这就是快手团队自研的“活照片”功能,不仅能把人像变活,甚至还能将猫狗等小动物的静态图像驱动起来,可以眨眼、摇晃脑袋,还可以讲话。目前,该技术已应用到“噗叽”App。此外,快手的私信功能也将全量上线活表情。
噗叽APP
“噗叽”是快手旗下的社区软件,里面拥有海量不同类型的视频内容。就制作表情包而言是非常简单的,只需要点击“噗叽”APP上面的“来套表情包”就能进入到制作页面。先选好风格,再上传一张原始素材就能完成表情包的制作。
接下来试一试小动物。不得不感叹,即便是猫、狗这样的非人生物,依然能够准确识别五官,最后让静态的照片“活”起来。
除了照片的活动,哈利波特中的那些“活照片”是真真切切可以说话的。这个功能在对于快手自研的活照片技术来说也能实现,比如下面这个视频就是把歌声所对应的口型变化,赋予给原来的静态照片,实现“照片在唱歌”的动态效果。
你以为这样就完了吗?“快手自研的活照片技术还能做到这样的效果。
给定一张参考人像图,以及一段模板音频,算法会让静态人像动起来,并对齐音频的口型,此外还增加了如眨眼、头部的姿态使其更具真实感。同时该算法也支持方言输入,体现了算法的鲁棒性。
如今的活照片技术是基于人工智能实现的,比如MyHeritage的Deep Nostalgia就是和“噗叽”一样,使用人工智能来驱动的“活照片”技术。
Deep Nostalgia的活照片
视频所展示的所有动态图片,都是将人工智能施加在过去的老照片上生成的:使用深度学习算法来分析人物的面部特征,并添加自然的头部和面部动作,如眨眼、微笑和转头。这使得用户能够看到他们的祖先或历史人物以一种全新的方式呈现。
在活照片领域中,比较知名的有HeyGen和D-ID。前者主要是通过人工智能生成产品营销和学习教育类活照片,D-ID则是定制具有真实照片感的活照片。可以看到,和这两位老前辈相比,在口型准确度,画面自然度上,快手的活照片技术仍然具有较大优
如何为照片施加“魔法”
活照片技术通常依赖于深度学习和图像识别算法,这些算法能够分析图片中的各种元素,如人物、物体、景观等,并识别出其关键特征。接着,通过模拟这些元素的可能动作(例如人脸的微笑、眨眼,或者树叶随风摆动等),算法能够在不改变原始图片结构的基础上,赋予它们动态效果。
快手技术团队构建了一种生成式框架:先是将动态人像解耦为神经表示与隐式形变,其中神经表示记录了人像的ID信息,隐式形变则是人像姿态、表情等的表达。简单来讲,神经表示相当于人像的身份信息(ID),它记录了人像的基本特征,比如面部特征。隐式形变则是对人像的姿态、表情等动态变化的描述。简单来说,神经表示告诉我们“这是谁”,而隐式形变告诉我们“他们在做什么”。
同时,凭借一种特殊的人脸重建算法,可以更准确地提供人脸的2D(平面)和3D(立体)信息。它能够更好地理解和重建人脸的形状和特征,也让后续照片的“活动”更为真实。
技术人员介绍,这套自研的人脸重建算法提供了更为准确的2D/3D信息作为引导信号,在上亿规模的高质量(分辨率≥1K)的人像数据上进行训练,得到了高表达力、强泛化性的人像基础模型。输入单张人像图片,该模型在推理阶段,能直接(zero-shot)将其解耦为表示ID的神经表示和表达姿态、表情的隐式形变,不需要任何额外的微调训练。此外,还针对局部如眼睛、嘴巴等设计了重定向模型,可以给定控制信号来额外进行眼睛、嘴巴的驱动,进一步增强了可控性。
也正是因为这个系统是在大量高质量的人像数据上进行训练的,所以它拥有强大的表达力和广泛的适用性。换句话说,当你输入一张人像照片时,这个模型可以直接、自动地将其分解为神经表示和隐式形变,无需额外的微调训练。
那么,快手又是如何让猫、狗这些非人的图片变“活”的呢?技术人员通过联合动物数据,将人像与动物的神经表示映射到同一分布,并共享同一个隐式形变模块,使得基础模型能够支持人驱动猫狗等动物。
活照片技术会如何发展
活照片技术的未来发展预示着一场关于图像处理和人工智能领域的革命。随着技术的进步,活照片将变得更加逼真、动态和互动,进而带来一种全新的视觉体验和表达方式。目前来看,活照片技术大多基于角色面部,而且因为要从图片中提取面部信息,所以要求图片有较高的清晰度,以及角色必须要面冲镜头方向。
当深度学习和图像处理技术迭代后,活照片就会表现得更加自然和逼真。未来的算法将能够更准确地识别图像中的元素,如人物的面部表情、身体姿态和背景环境,并以更加精细和真实的方式模拟它们的动态变化。这意味着活照片不仅能够捕捉人物的微笑或眨眼等简单动作,还能展现更复杂的情感和互动场景,例如群体交流的自然流动性或自然环境中的细微变化。
其次,活照片技术将与增强现实(AR)和虚拟现实(VR)技术的融合带来更加沉浸式的体验。用户可以通过VR设备进入一个以活照片为基础的三维环境,感受仿佛身临其境的动态场景。比如苹果即将发售的Vision Pro,未来有可能在其中生成基于AR的活照片。
此外,随着个性化技术的发展,用户将能够根据自己的喜好定制活照片的风格和动态效果。这包括选择不同的动画风格、背景音乐甚至实时调整动态效果的参数。这种定制能力不仅增加了用户的参与感,也让活照片成为一种更加个人化的表达形式。