Нобелевская премия по химии 2024 года присуждена: Дэвиду Бейкеру «за вычислительный дизайн белков», а также — совместно Демису Хассабису и Джону Джамперу «за предсказание структуры белков».
Андрей Головин
доктор химических наук, замдекана по научной работе факультета биоинженерии и информатики МГУ им. М.В. Ломоносова
Обе темы, и «предсказание структуры белка», и «создание искусственных белков», по сути, очень сильно связаны между собой, но каждая по-своему важна.
Согласно современным представлениям, функция белка определяется его структурой. На сегодняшний момент нам известно достаточно много последовательностей природных белков, которые являются результатом эволюции. Но, к сожалению, точно определить детали структуры многих белков долгое время было очень сложно, а в большинстве случаев просто невыполнимо.
Поэтому достаточно давно существовала задача об эффективном, качественном предсказании структуры белка. И, к сожалению, до определенного момента это работало достаточно плохо, пока команда разработчиков из DeepMind, подразделения Google не создала алгоритм AlphaFold. Сегодня это очень удобным инструмент для того, чтобы протестировать гипотезы о функции белка. Это очень значительный шаг вперед, потому что если до этого качество предсказаний с трудом поднималось до уровня 50−60%, то после появления AlphaFold, это число выросло до примерно 90%. Прорыв открывает возможность быстрй оценки функций того или иного белка и результатов его работы. А это, в свою очередь, открывает путь к созданию новых белков.
Вычислительным дизайном белков ученые занимаются достаточно давно, около 30 лет, но до, примерно, последних 2−3 лет эта работа, была, так сказать, на уровне искусства, т.е. только для небольших белков, с помощью достаточно трудозаконных методов и с очень низкой вероятностью успешного результата. Знаете, есть такие сервисы, где можно ввести какие-то слова, а он генерируют картинки. Примерно то же самое теперь можно делать с помощью команды Бейкера в отношении белков. Мы можем генерировать новые белки, то есть их последовательности и структуры, задав им определенную желаемую функцию.
Но мы также помним, что нейросети могут «галлюцинировать», у сгенерированных картинок может быть по семь пальцев на руке или три ноги. Те самые проблемы есть и с искусственными с белками. Я бы оценил успешность генераций примерно на уровне около 1%. Безусловно, дальнейшее развитие этой технологии приведет к повышению качества генераций.
И если успех достигнет хотя бы 10%, это будет достаточно сильный толчок в области применения белков в фармакологии и биотехнологии. Белки можно будет генерировать даже для каждого конкретного пациента индивидуально.
Таким образом, возможность построить структуру природного белка относится скорее к фундаментальным исследованиям. А вот технология создания новых белков позволит создать препараты от различных заболеваний. Можно будет также создавать ферменты, которые, например, используются в стиральных порошках, или ферменты, которые разлагают пластик.
Сегодня машинное обучение позволяет действительно очень быстро работать с большими данными. Средний белок имеет размер 300 аминокислот в каждой позиции может находиться одна из 20 аминокислот. Это значит, что возможное количество вариантов этой конструкции 20 в степени 300. Сейчас появляется множество примеров применения методов машинного обучения для решения многих проблем биоинженерии. Естественно, наша задача делать так, чтобы они работали с максимально возможным уровнем качества предсказания и с большим выходом при экспериментальной валидации.