Системы искусственного интеллекта могут поглотить всю бесплатную информацию из Интернета в обозримом будущем. Об этом предупреждают авторы нового исследования, опубликованного на сервере препринтов arXiv. Модели ИИ обучаются на триллионах слов, но эти запасы будут исчерпаны примерно между 2026 и 2032 годами. Для обучения более совершенных нейросетей их создателям придется обращаться к источникам более низкого качества, создавать синтетические данные или использовать личную информацию с серверов электронной почты.
Текстовые данные способствуют развитию систем ИИ, позволяя им выявлять все более сложные шаблоны для внедрения в нейросети. Например, ChatGPT обучался примерно на 570 ГБ данных: это около 300 млрд слов, взятых из книг, статей, Википедии и других источников. Алгоритмы, обучавшиеся на непроверенных источниках, выдают сомнительные результаты. Google Gemini, рекомендующий людям добавлять клей в пиццу, почерпнул некоторые ответы с форума Reddit и сатирического сайта The Onion.
Исследователи насчитали в Интернете около 250 млрд веб-страниц — по 7 Кб текста на каждой. Затем они спрогнозировали рост этого доступного массива данных с помощью анализа трафика IP и активности пользователей в Сети. Выяснилось, что информация из надежных источников закончится самое позднее к 2032 году, а низкокачественные языковые данные — с 2030 по 2050 год. Остается открытым вопрос: смогут ли компании повысить эффективность моделей ИИ, чтобы учесть нехватку свежих данных, или она приведет к остановке прогресса.
«Компании все чаще пытаются использовать личные данные для обучения моделей. Если им это удастся и если полезность частных данных будет сопоставима с полезностью общедоступной информации, то создатели ИИ продержатся до конца десятилетия. Более насущными могут стать другие узкие места — растущее энергопотребление, затраты на обучение и доступность оборудования», — считает автор исследования Пабло Вильялобос из центра Epoch AI (США).
Но использованин интеллектуальной собственности или частной информации без разрешения неизбежно повлечет за собой этические и юридические проблемы. Создатели контента уже подавали в суд на Microsoft и OpenAI, протестуя против несанкционированного использования их текстов для обучения моделей ИИ. По мнению некоторых экспертов, решить вопоос могло бы вознаграждение, которое разработчики нейросетей выплачивали бы авторам контента.
Что касается энергозатрат, то запросы Google на базе ChatGPT потребляют почти в 10 раз больше электроэнергии, чем обычный поиск. Это подтолкнуло технологические компании к попыткам создать стартапы в сфере ядерного синтеза для питания центров обработки данных. Но новый метод выработки электричества все еще далек от жизнеспособности.