Исследователи из Института ИИ Аллена, Стэнфордского университета и Чикагского университета (все они находятся в США) обнаружили, что десятки популярных больших языковых моделей продолжают использовать расистские стереотипы даже после того, как прошли антирасистскую подготовку. Результаты экспериментов с десятком популярных программ, в том числе, с GPT-4 и GPT-3.5 от OpenAI, вышли на сервере препринтов arXiv, сообщает TechXplore.
Чат-ботая с ИИ показали тексты, написанные в стиле афроамериканского английского и в стиле стандартного американского английского, а затем попросили оставить комментарии относительно авторов текстов. Аналогичные предположения о том, какими могут быть авторы текстов, предложили выдвинуть и живым людям — студентам магистратуры.
Практически все чат-боты выдали результаты, которые, по мнению исследователей, отражают стереотипы и предвзятость. Например, GPT-4 предполагает, что авторы статей, написанных на афроамериканском английском, скорее всего, будут агрессивными, грубыми, невежественными и подозрительными. Авторы статей, написанных на стандартном американском английском, напротив, получили гораздо более положительные отзывы. Студенты магистратуры были гораздо более тактичными и менее предвзятыми.
Нейросети также показали приверженность стереотипам, когда их попросили описать, каким видом деятельности авторы двух типов статей могли бы зарабатывать на жизнь. Для авторов текстов на афроамериканском английском языке модели, как правило, выбирали работу, которая редко требует ученой степени или была связана со спортом или развлечениями. Они также чаще предлагали привлечь таких авторов к ответственности за различные преступления и чаще приговаривать к смертной казни.
Примечательно, что более крупные языковые модели, как правило, демонстрируют более негативное предвзятое отношение, чем более мелкие модели, что, по мнению исследователей, указывает на то, что проблема очень глубока.