Чат-боты, работающие на базе ChatGPT и Google Gemini, нередко выдают бессмысленные ответы на самые простые вопросы, хотя звучат они вполне правдоподобно. Такие ложные версии исследователи ИИ называют галлюцинациями. Чтобы поймать нейросеть на лжи, ученые предлагают использовать другую нейросеть. Об этот рассказывает Science.
«По замыслу языковые модели обучены выдавать не правду как таковую, а всего лишь правдоподобные цепочки слов. Это становится проблемой по мере расширения сферы применения ИИ. Большие языковые модели интегрированы в приложения, которые используются в здравоохранении и образовании. Поэтому обнаружение галлюцинаций станет решающим шагом на пути к надежности нейросетей», — пояснил Себастьян Фаркуар, специалист по информатике из Оксфордского университета.
Ученый предложил измерить семантическую энтропию (случайность ответов), чтобы поймать ИИ на лжи, задавая ему один и тот же вопрос снова и снова. Это напоминает стратегию «хороший полицейский — плохой полицейский», когда подозреваемому задают разные версии одного и того же вопроса. Если он упорствует в своих ответах, вероятно, он говорит правду.
Объемы семантической энтропии вычислили с помощью второй нейросети, которая сосредоточилась на значении и нюансах генерируемых ответов, а не только на используемых словах. Фаркуар попросил второй ИИ подсчитать, насколько схожими по смыслу были ответы первого. Если лексика была разной, а ответы совпадали по значению, их можно считать надежными. Ответы на один и тот же запрос, содержащие совершенно разные значения, скорее всего, были выдумкой.
Этот метод относительно просто интегрировать в существующие модели ИИ, но он замедляет реакцию нейросети. Кроме того, он не сможет обнаружить ошибку, если ИИ упорно придерживается своей выдуманной версии, повторяя ее снова и снова.