Поддельные видео, созданные ИИ, стали настолько реалистичными, что люди с трудом отличают их от настоящих. Такие видеоролики нередко используют в схемах финансового мошенничества. Чтобы решить эту проблему, специалисты Школы инженерии и прикладных наук Колумбийского университета (США) создали DIVID — новый инструмент для обнаружения видео, сгенерированного нейросетями. Это новая версия более ранней разработки, которая умеет распознавать написанный ИИ текст. Статья о новом инструменте опубликована на сервере препринтов arXiv.
В этом году группа ученых под руководством Цзюньфэн Янга разработала способ выявления текста, созданного ИИ. Он основан на анализе самого текста, без доступа к внутренней работе нейросетей (ChatGPT-4, Gemini или Llama). Инструмент Raidar пропускает текст через языковую модель, а затем измеряет, сколько правок она в него внесла. Большое количество правок означает, что текст написали люди. Если правок мало, текст, скорее всего, сгенерирован машиной.
«Идея Raidar о том, что выходные данные ИИ часто считаются высококачественными другим ИИ и поэтому он вносит меньше правок, действительно мощная и выходит за рамки простого текста. Мы хотели воспользоваться опытом Raidar и создать инструмент, который может точно обнаруживать видео, созданное нейросетями», — пояснил Янг.
Исследователи использовали ту же концепцию при разработке DIVID. Новый инструмент позволяет идентифицировать видео, сгенерированное диффузионными моделями. Диффузионная модель — это метод ИИ, который создает видео путем постепенного превращения случайного шума в четкую, реалистичную картинку. Она обрабатывает каждый кадр, обеспечивает плавные переходы и получает высококачественные результаты.
DIVID восстанавливает видео с помощью предварительно подготовленной диффузионной модели и сравнивает его исходным. Если есть существенные изменения, исходное видео создано человеком. Если нет, оно сгенерировано ИИ. Эта концепция основана на идее, что инструменты ИИ создают контент на основе статистического распределения больших наборов данных. В результате получается более нормативный материал. Напротив, видео, созданное человеком, обладает индивидуальностью и отклоняется от статистической нормы. DIVID распознает видео нейросетей с точностью до 93,7%.
На данный момент этот инструмент командной строки могут использовать только разработчики. Но ученые отмечают, что их технология может быть масштабирована: например, интегрирована в виде плагина в Zoom для обнаружения фейковых вызовов в реальном времени. Команда также рассматривает возможность разработки веб-сайта или плагина для браузера, который сделает DIVID доступным для обычных пользователей.