登录

告别渣画质,视频会议带宽降90%,英伟达公开Maxine服务背后重要技术


速读:10月初,英伟达推出了一项AI视频会议服务Maxine,使用了AI来提升分辨率、降低背景噪声、压缩视频、对齐人脸以及执行实时翻译和转录。
机器之心报道

作者:魔王、蛋酱

10 月初,英伟达推出了一项 AI 视频会议服务 Maxine,使用了 AI 来提升分辨率、降低背景噪声、压缩视频、对齐人脸以及执行实时翻译和转录。最近,英伟达团队发布的新论文揭露了这背后的技术。

如果让打工人用几个关键词总结 2020 年的生活,「视频会议」应该是其中一个。

受疫情影响,这一年来,远程办公和视频会议正在成为新的潮流。在忍受会议枯燥的同时,很多人迷上了 AI 换脸,期望能够实现「一边开会,一边摸鱼」的梦想。此前机器之心也介绍过 这样的热门项目。

只是…… 效果不一定很理想:

给出一个人的源图像,和一个人的动作视频(此处称为驱动视频 (driving video),动作视频和源图像中的人物可以一致或不一致),如何合成逼真的说话者头部视频,即将源图像中的头像与驱动视频中的动作合二为一。源图像编码目标人物的外观,驱动视频决定输出视频中的人物动作。

最近,针对这一任务,英伟达提出了一种纯神经式的渲染方法,即不使用人物头部的 3D 图模型,只使用在 one-shot 设置下训练而成的深度网络,进行说话者头部视频的渲染。

论文链接:https://arxiv.org/pdf/2011.15126.pdf

与 3D 图模型相比,基于 2D 的方法具备多项优势:首先,避免了繁杂、昂贵的 3D 模型获取;其次,2D 方法可以更好地处理头发、胡须等的合成,而获得这些区域的详细 3D 几何形状则有一定的挑战性;最后,无需 3D 模型,2D 方法可以直接合成源图像中的配饰,包括眼镜、帽子、围巾等。

但是,现有的 2D 方法存在一些局限性。由于缺少 3D 图模型,2D 方法只能从原始视角合成说话者头部视频,无法从新的角度进行渲染。

而英伟达的方法解决了 2D 方法的固定视角问题,并实现了局部自由视角合成,你可以在原始视角的一定范围内改变说话者头部的角度。

该模型使用新型 3D 关键点表征来表示视频,3D 关键点表征的特点是将人物特定信息和动作相关信息分解开来,关键点及其分解均使用无监督学习方式得到。使用该分解,英伟达能够对人物特定表征应用 3D 变换,来模拟头部姿势的变化,如转动头部。下图 2 展示了英伟达提出的新方法:

主题:英伟达|2D方法|视频会议|英伟达提出