Языковая модель GPT-4 прошла тест Тьюринга, о чем сказано в статье, опубликованной в виде препринта на Arxiv.org.
Суть теста проста: участники тестирования посредством ПК общаются с собеседником, заранее не зная, является ли этот собеседник человеком или машиной.
В данном случае в исследовании принимало участие 500 человек. Каждый из них общался с каждым из четырех собеседников по пять минут и затем должен был высказать свое мнение относительно того, был ли этот собеседник человеком или машиной.
В тесте кроме GPT-4 участвовала также модель GPT-3.5, старая программа ELIZA из 60-х годов и живой человек. В итоге лишь 22% участников посчитали ELIZA человеком, в случае GPT-3.5 таких было уже 50%, а GPT-4 человеком посчитали 54% участников теста, что позволяет авторам исследования сделать вывод, что эта языковая модель проходит тест Тьюринга. К слову, настоящего человека человеком посчитало 67% участников.
Участники также оценивали свою уверенность в принятии решения по шкале от 0 до 100. Средняя уверенность для каждого случая была следующей:
GPT-4: Средняя уверенность составила 70%.
GPT-3.5: Средняя уверенность составила 65%
ELIZA: Средняя уверенность составила 90%
Живой человек: Средняя уверенность составила 80%