Большие языковые модели, стоящие за популярными платформами ИИ, дают разные ответы на один и тот же вопрос, и даже дополнительная информация не помогает им улучшить результат. Специалисты из Университетского колледжа Лондона протестировали чат-боты ChatGPT, Google Bard, Claude и Llama и смогли понять, как «думают» нейросети. Об этом сообщает Tech Xplore.
В последние годы языковые модели приложений с ИИ становятся все более сложными, а их способность создавать реалистичные тексты, изображения, аудио- и видеофайлы вызывает немало опасений. Люди беспокоятся, что нейросети могут отнимать у них рабочие места или влиять на выборы. Известно также, что ИИ регулярно фабрикуют информацию, реагируют непоследовательно и ошибаются в простых математических действиях.
Авторы нового исследования выяснили, способны ли семь языковых моделей рассуждать рационально. Рациональным они решили считать человека или ИИ, который рассуждает в соответствии с правилами логики и вероятности. Иррациональный — тот, кто не рассуждает в соответствии с этими правилами.
Нейросети проверили с помощью 12 распространенных тестов по когнитивной психологии. Способность людей решать эти задачи низка, с некоторыми из них справляются лишь 14-16 % участников. Языковые модели повели себя иррационально: они давали 10 разных ответов на один и тот же вопрос, допускали ошибки при сложении и принимали согласные буквы за гласные. Например, правильные ответы на задачу Уэйсона варьировались от 90% для GPT-4 до 0% для GPT-3.5 и Google Bard. Llama 2 70b ответила правильно лишь в 10% случаев, приняв букву К за гласную. Большинство людей также не смогли бы правильно решить задачу Уэйсона, но маловероятно, что это произошло бы из-за путаницы в буквах.
Некоторые модели отказались выполнять задания по этическим соображениям, хотя вопросы были вполне невинными. Вероятно, в этом случае защитные параметры сработали не так, как было задумано. Исследователи также предоставили дополнительные данные для решения задач: знание контекста обычно улучшает ответы людей. Но нейросетям это не помогло.
Ученые пришли к выводу, что ИИ пока не «думает» так же, как люди. Однако модель с самым большим набором данных, GPT-4, показала себя намного лучше, чем другие чат-боты, а это значит, что они быстро совершенствуются. Это закрытая система, но специалисты предполагают, что в ней используются другие инструменты, которых нет в ее предшественнице, GPT-3.5.
«До сих пор мы не понимали, почему и как языковые модели дают правильные или неправильные ответы. Теперь у нас есть методы тонкой настройки, но возникает вопрос: если мы попытаемся исправить проблемы, обучая модели, не навяжем ли мы им свои собственные недостатки? Нейросети заставляют нас задуматься о том, как мы рассуждаем, о наших собственных предубеждениях и о том, нужны ли нам полностью рациональные машины. Хотим ли мы получить ИИ, который допускает ошибки, подобные нашим, или хотим, чтобы он был идеальным?» — сказал профессор Мирко Мусолези, ведущий автор исследования из Университетского колледжа Лондона.