Исследователи из Наньянского технологического университета (Сингапур) представили программу DIRFA, работающую на основе ИИ и способную создавать реалистичные 3D-видеоролики на основе записи звука и статичной фотографии лица.
DIRFA значительно превосходит существующие методы, позволяя управлять изменениями позы и эмоциональными нюансами. Обученная на массивном наборе данных, включающем более миллиона аудиовизуальных клипов из The VoxCeleb2 Dataset, DIRFA имеет многообещающие перспективы для применения в различных отраслях: от создания виртуальных помощников и чат-ботов до использования в качестве мощного инструмента для людей с нарушениями речи или мимики, облегчающего выразительное общение с помощью аватаров.
Ведущий исследователь, доцент Лу Шицзянь, считает, что DIRFA станет преобразующей силой в мультимедийной коммуникации, предлагая высокоаутентичные видеоролики, передающие точные движения губ, динамичную мимику и естественные позы головы, используя только аудиозаписи и статичные изображения.