Компания Microsoft объявила о запуске новой нейросети под названием VASA, которая способна «оживлять» фотографии и виртуальных персонажей.
Используя всего лишь одно статическое изображение и аудиодорожку речи, VASA создаёт видео с говорящими лицами, которые обладают широким спектром эмоций, естественными движениями головы и мимикой.
Благодаря обширным экспериментам и оценке по ряду новых метрик, Microsoft попытались превзойти предыдущие генеративные технологии.VASA не только обеспечивает высокое качество видео, но и поддерживает онлайн-генерацию с разрешением 512x512 до 40 кадров в секунду с незначительной начальной задержкой.
Читать на habr.com