Исследователи из Федеральной политехнической школы Лозанны показали, что крупные языковые модели, обученные изначально на английских текстах, используют английский внутри себя, даже когда с ними общаются на другом языке. Научная статья вышла в препринте.
Большие языковые модели (LLM), например, ChatGPT от Open AI и Gemini от Google, покорили мир, удивив своей способностью отвечать пользователям с помощью, казалось бы, естественной речи. Хотя с этими LLM можно взаимодействовать на любом языке, они обучены оперировать сотнями миллиардов текстовых параметров, в основном на английском.
Авторы изучили LLM с открытым исходным кодом Llama-2 (от Meta AI), чтобы попытаться определить, какие языки использовались на каких этапах вычислительной цепочки. Они ставили различные задачи, например просили модель перевести серию французских слов на китайский.
«Большие языковые модели обучены предсказывать следующее слово. Чем больше вычислений выполняется, тем мощнее ваша модель и тем больше вероятность того, что следующее слово будет правильным. Мы обнаружили, что большую часть времени она предсказывала английский перевод французского слова, хотя английский нигде не появляется в этой задаче», — пояснил профессор Роберт Уэст.
Исследователи полагают, что когда доминирует английский язык, модель находится в своего рода абстрактном семантическом пространстве, где речь идет не об отдельных словах, а о других видах представлений, которые больше связаны с концепциями, универсальными для языка. Это важно, потому что для того, чтобы хорошо предсказать следующее слово, модель должна много знать о мире, и один из способов сделать это — иметь такую систему концепций.
Ключевой вопрос, который возникает из-за доминирования английского: «Имеет ли это значение»? Исследователи полагают, что да. Существуют серьезные исследования, показывающие, что структуры, существующие в языке, формируют то, как мы конструируем реальность, и что слова, которые мы используем, глубоко связаны с тем, как мы думаем о мире. Уэст предлагает начать исследование психологии языковых моделей, обращаясь с ними, как с людьми, подвергая поведенческим тестам.