«Ситуация изменилась кардинально»: ИИ научился предсказывать структуру белка (Science, США) (Science, США)

Материалы ИноСМИ содержат оценки исключительно зарубежных СМИ и не отражают позицию редакции ИноСМИ

Структура белка — одна из главных тайн, которые науке нужно раскрыть, например, для утилизации пластиковых отходов или лечения наследственных болезней. Но оказалось, что природа хитроумнее любого компьютера: в мире существуют более 200 миллионов белковых структур, и каждая индивидуальна. К разгадке их тайны ученых приблизил искусственный интеллект (ИИ).

Искусственный интеллект (ИИ) решил одну из важнейших задач биологии: теперь с его помощью можно предсказывать аминокислотную последовательность трехмерной структуры белка. В зависимости от совершенства или несовершенства этой последовательности белок выполняет свои функции. Сегодня ведущие специалисты в области структурной биологии и организаторы проводимого раз в два года эксперимента по проблемам сворачивания белка (фолдинга) объявили об этом выдающемся достижении ученых из британской компании DeepMind, которая занимается разработками в области искусственного интеллекта (ИИ). Было заявлено, что метод DeepMind будет иметь далеко идущие последствия. Так, например, он может резко ускорить создание новых лекарств.

«Команда ученых из DeepMind смогла добиться фантастического результата, который кардинально изменит перспективы развития структурной биологии, а также исследования белков», — утверждает Джанет Торнтон (Janet Thornton), почетный директор Европейского института биоинформатики. «Этой задаче уже 50 лет», — добавляет Джон Моулт (John Moult), специалист в области структурной биологии из Мэрилендского университета в Шейди Гроув; Моулт является соучредителем научного соревнования «Критическая оценка предсказания структуры белка» (англ. Critical Assessment of Protein Structure Prediction — CASP). «Я никогда не думал, что доживу до этого момента», — добавляет Моулт.

О чем идет речь? В человеческом организме имеются десятки тысяч различных белков, каждый из которых представляет собой цепочку, состоящую из множества аминокислот — от десятков до многих сотен. Порядок следования аминокислот предопределяет бесчисленное количество взаимодействий между ними и, тем самым, приводит к возникновению сложных трехмерных структур, которые, в свою очередь, и определяют свойства белков. Информация о таких белковых структурах позволяет ученым создавать новые лекарства. А возможность синтезировать белки с желаемой структурой позволит ускорить разработку ферментов (ускорителей), с помощью которых можно, например, производить биотопливо и полностью разлагать пластмассовые отходы.

На протяжении десятилетий ученые занимались расшифровкой трехмерных белковых структур, используя такие экспериментальные методы, как рентгеновская кристаллография или криоэлектронная микроскопия (крио-ЭМ). Однако на использование подобных методов уходят, порой, месяцы или годы; к тому же эти методы не всегда работают. Из более чем 200 миллионов известных белковых структур было расшифровано всего около 170 тысяч.

В 1960-х годах ученые пришли к выводу, что, если удастся определить все связи, характерные для данной конкретной белковой последовательности, то можно будет предсказывать и пространственную структуру белка. Однако поскольку в каждом белке имеются сотни аминокислотных звеньев, взаимодействующими между собой разными способами, то в итоге получаем, что общее возможное число подобных структур в расчете на одну аминокислотную последовательность просто гигантское. За решение этой задачи взялись ученые-компьютерщики, но дела шли медленно.

В 1994 году Джон Моулт вместе с коллегами дал старт масштабному эксперименту CASP, который проводится каждые два года. Участникам этого эксперимента раздаются аминокислотные последовательности около сотни белков, структура которых неизвестна. Одни группы ученых вычисляют структуру для каждой последовательности, в то время как другие группы определяют ее экспериментально. Затем организаторы эксперимента сравнивают расчетные прогнозы с результатами лабораторных исследований с помощью показателя измерения точности оценки (GDT), который варьируется от нуля до ста. По словам Моулта, считается, что при оценке выше 90 GDT расчетные прогнозы практически соответствуют экспериментальным.

Уже в 1994 году ученые добились того, что предсказанные ими структуры небольших простых белков могли соответствовать экспериментальным результатам. Однако для более крупных и сложных белков результаты вычислений составили около 20 GDT — а это «полный провал», как выразился один из судей CASP Андрей Лупас (Andrei Lupas), эволюционный биолог из Института биологии развития им. Макса Планка. К 2016 году соревнующиеся команды ученых набрали около 40 GDT для самых сложных белков в основном за счет анализа известных белковых структур, известных для CASP.

Когда в 2018 году компания DeepMind впервые приняла участие в конкурсе, предложенный ею алгоритм под названием AlphaFold опирался на описанный выше метод сравнения теоретических и практических результатов. Но AlphaFold также использует методы глубокого обучения: программный софт обучается на огромных массивах данных (в данном случае — на последовательностях и структурах известных белков) и учится выявлять закономерности. DeepMind легко одержала победу, обойдя конкурентов в среднем на 15% по каждой белковой структуре и получив около 60 баллов по GDT за самые сложные задачи.

И все же, по мнению говорит Джона Джампера (John Jumper), отвечающего за разработку алгоритма AlphaFold в компании DeepMind, сделанные прогнозы были слишком грубы, чтобы ими можно было воспользоваться для практических целей. «Мы знали, что до практического использования в биологии нам еще далеко», — сказал Джампер. Чтобы добиться более качественных результатов, Джампер и его коллеги объединили глубокое обучение с «алгоритмом внимания», имитирующим способность человека, которая позволяет ему собирать картины-паззлы. Вот как это происходит: сначала из маленьких кусочков составляются небольшие фрагменты (в данном случае фрагменты аминокислотных звеньев), а затем проводятся попытки объединить эти фрагменты, составив из них единое целое бóльших размеров. В этой работе участвует компьютерная сеть, состоящая из 128 процессоров машинного обучения; им удалось обучить алгоритм примерно на 170 тысячах известных белковых структурах.

И это сработало! В этом году алгоритм AlphaFold получил средний балл 92,4 GDT по белкам, которые были предложены для анализа в рамках CASP. При анализе самых сложных белков алгоритм AlphaFold набрал в среднем 87 баллов, что на 25 баллов выше самых точных прогнозов, сделанных ранее. Алгоритм даже справился с анализом структур белков, которые находятся в клеточных мембранах и отвечают за многие заболевания человека, однако, при этом, трудно поддаются изучению с помощью рентгеновской кристаллографии. Специалист в области структурной биологии Венки Рамакришнан (Venki Ramakrishnan) из Лаборатории молекулярной биологии Медицинского исследовательского совета, назвал полученный результат «ошеломляющим достижением в решении задачи предсказания структуры белка».

По словам Джона Моулта, в конкурсе, проведенном в нынешнем году, все группы ученых продемонстрировали еще более точные результаты. Но если говорить об алгоритме AlphaFold, то по словам Андрея Лупаса, «ситуация изменилась радикально». Организаторы эксперимента CASP даже засомневались в честности алгоритма DeepMind. И Лупас поставил перед собой отдельную задачу: выяснить структуру мембранного белка вида архей (представитель группы древних микроорганизмов). На протяжении десяти лет его исследовательская команда пыталась получить рентгенограмму кристаллической структуры этого белка. Но, по словам Лупаса, эту задачу решить не удалось.

Однако, у алгоритма AlphaFold никаких проблем не возникло. На выходе было получено подробное изображение трехкомпонентного белка с двумя спиралевидными ответвлениями посередине. Выданная алгоритмом модель позволила Лупасу и его коллегам разобраться в данных, полученных с помощью рентгенограммы; за полчаса они сравнили свои экспериментальные данные со структурой, предсказанной алгоритмом AlphaFold. «Результат почти идеален, — говорит Лупас. — Подтасовать данные было нельзя. Не понимаю, как им удалось это сделать».

Одним из условий участия в эксперименте CASP, компания DeepMind наравне со всеми остальными группами согласилась раскрыть существенные детали своего метода с тем, чтобы и остальные группы могли его повторить. Для экспериментаторов это подарок, поскольку точное предсказание белковой структуры поможет им правильно интерпретировать малопонятные данные, полученные с помощью рентгеновских исследований и криоэлектронной микроскопии (крио-ЭМ). Кроме того, алгоритм AlphaFold, по словам Моулта, также позволит разработчикам лекарств быстро определять структуру белков, из которых состоят новые и опасные патогены, такие как SARS-CoV-2, — а это, в свою очередь, следует расценивать как один из важных шагов в процессе поиска молекул, с помощью которых эти патогены можно будет заблокировать.

Тем не менее, алгоритму AlphaFold не все задачи под силу. Так, в эксперименте CASP его работа заметно замедлилась при анализе одного из белков (это была смесь из 52 небольших повторяющихся сегментов, которые искажают местоположения друг друга при сборке). Джон Джампер говорит, что теперь команда исследователей хотела бы обучить AlphaFold, чтобы он смог анализировать также и упомянутые выше структуры, а кроме того — белковые комплексы, которые совместно выполняют важные функции в клетке.

Однако, вскоре после решения одной какой-нибудь из сложнейших задач, несомненно, появляются другие. «Это еще не конец, — говорит Джанет Торнтон. — Впереди нас ждет много новых задач».