Буквально за несколько лет нейронные сети научились крайне правдоподобно заменять лица людей на видео. Теперь, благодаря новым исследованиям Disney Research, подобная нейросетевая технология может стать легитимным и высококачественным инструментом для киностудий, работающих над визуальными эффектами для голливудских блокбастеров.
Одна из самых больших проблем при создании фейковых видео заключается в создании обширной базы изображений человеческих лиц – тысяч различных выражений, которые можно использовать для подмены в исходном видео. Понятно, что чем больше база данных и чем выше качество изображений, тем качественней будет подмена, однако изображения обычно берутся из источников с ограниченным разрешением, т. к. даже 4K видео может выдавать изображения лиц с низким разрешением, учитывая, как часто встречаются маленькие лица в общем кадре снимка.
Таким образом, первый шаг к созданию действительно убедительных дипфейков — начать с высококачественного источника. В своем докладе «High-Resolution Neural Face Swapping for Visual Effects», представленном на Eurographics Symposium on Rendering 2020, исследователи из ETH Zurich и Disney Research Studios подробно описывают несколько инноваций и новых подходов по этому вопросу. Их технология позволяет получать мегапиксельные результаты с достаточным качеством и разрешением для использования в настоящем производстве фильмов.
Новый алгоритм, созданный исследователями, начинается с изменения исходного видеоматериала, облегчающего процесс замены лица. Движение в исходных кадрах слегка стабилизируется и сглаживается для устранения потенциальных проблем, например, дрожащих губ, которые могут позднее сбить процесс замены лица. Исследователи также усовершенствовали ряд других шагов, включая смешивание нового лица с оригиналом посредством улучшенных методов композитинга, чтобы лучше соответствовать общему контрасту. Их алгоритм так же намного лучше справляется с генерацией промежуточных кадров, необходимых для получения более плавной мимики.
Замена лиц не редкость в киноиндустрии и на телевидении; часто случается, что дублеры актеров мельком смотрят на камеру и тогда требуется обширный постпродакшен, чтобы человек на экране выглядел именно так, как должен. Решение этих проблем часто требует повторных съемок или использования умной компьютерной графики и композитинга, что никогда не бывает дешево. Благодаря новому исследованию, уже имеющиеся кадры со съёмки можно было бы использовать для обучения алгоритма, который затем исправлял бы все эти проблемы самостоятельно.
, ETH Zurich
Источник: robogeek.ru