
ИИ нашел 160 000 скрытых вирусов по всему миру
Представьте себе: ученые только что наткнулись на настоящий Клондайк. Используя хитроумный алгоритм по имени LucaProt, они откопали 161 979 «скрытых» видов РНК-вирусов. И это не опечатка. Более 70 тысяч из них науке вообще не были знакомы! Их геномы, которые исследователи прозвали «последовательностями темной материи», на самом деле давно лежали в базах данных, но были настолько чудны́ми, что их никто не мог опознать. И знаете что? Многие из этих «призраков» прекрасно себя чувствуют там, где, казалось бы, жизнь невозможна — в настоящем аду для всего живого.
Вирусы — это не просто возбудители насморка. Они — вездесущие дирижеры планетарного масштаба. Они заражают всё, от слонов до бактерий, и играют ключевую роль в балансе экосистем. Обычно детективов от науки выдают их «отпечатки пальцев» — особая молекула RdRP, которая есть только у РНК-вирусов. Несколько лет назад этот метод уже расширил наши представления о «виросфере» в десятки раз.
Но, как выяснилось, мы видели лишь верхушку айсберга. Артем Бабаян из Университета Торонто вообще называет это «бездонной ямой». Стандартные методы просто слепы, когда сталкиваются с вирусами, чьи молекулы RdRP слишком уж сильно отличаются от стандарта. В общем, классический случай: ищем под фонарём, потому что там светлее.
Эти неуловимые последовательности и окрестили «темной материей» вирусного мира. Их много, они странные, и для их поимки нужны принципиально новые сети. И это не просто академический интерес. Кто знает, вдруг именно такой «темный» вирус замешан в болезнях, которые мы до сих пор не можем объяснить? Недавно, например, всерьез обсуждали вирусную версию происхождения болезни Альцгеймера. Так что охота за этими невидимками — дело жизненно важное.
И тут на сцену выходит LucaProt, разработанный международной командой ученых из Китая и Австралии. Эдвард Холмс, один из авторов нашумевшей статьи в журнале Cell, с восторгом заявляет: «Наш метод смог навести порядок в этом разрозненном хаосе и впервые пролить свет на значение этой «темной материи»». Согласитесь, звучит как начало захватывающего научно-фантастического романа.
Кто живет в кипятке и соляных озерах?
Почему алгоритмы вроде LucaProt — это прорыв? Представьте, что раньше вы вручную перебирали песчинки, чтобы найти золотой самородок. А теперь у вас есть мощный магнит, который сам летит к металлу. Манг Ши из Университета Сунь Ятсена объясняет: «Раньше мы полагались на утомительные биоинформационные конвейеры, и это сильно ограничивало наш кругозор». Скучная работа не оставляет времени на великие открытия.
В основе LucaProt лежат так называемые трансформеры — это одна из самых продвинутых архитектур нейросетей. В отличие от своих «коллег», они не обязаны читать геном от корки до корки по порядку, а могут сканировать его выборочно, что дико ускоряет процесс. Скармливали алгоритму данные о секвенировании и белках, добытые с помощью ESMFold (того самого инструмента от компании Meta*). И обучили его безошибочно вычислять те самые молекулы RdRP среди мусора и шума.
Конечно, ИИ для поиска вирусов использовали и раньше. Но старые модели (сверточные или рекуррентные сети) были как палка о двух концах: одни спотыкались на последовательностях разной длины, другие «захлебывались» слишком длинными текстами. И те, и другие часто пропускали самое интересное.
А LucaProt выдал результат, от которого захватывает дух: 161 979 видов и 180 супергрупп РНК-вирусов. Из них 70 458 — абсолютно новые. Некоторые из этих «чудиков» обладают невероятно длинными геномами (до 47 250 нуклеотидов — это много!). Они нашлись везде: в воздухе, в гидротермальных источниках, где вода кипит ключом, и в соленых озерах. Их плотность и разнообразие — это карта неизведанных миров, которые существуют прямо у нас под носом.
Это самое масштабное «вирусное перепись населения» в истории. И оно переворачивает наши представления о границах жизни. «Тот факт, что вирусы кишат в экстремальных условиях, говорит об их феноменальной живучести, — комментирует Холмс. — Возможно, это ключ к разгадке тайны происхождения жизни на Земле». Задумайтесь: первые формы жизни могли выглядеть именно так.
Это только начало: нас ждут миллионы
Как это обычно и бывает с великими открытиями, новое исследование не ставит точку, а открывает ящик Пандоры. Ученые сами признают: то, что мы увидели — лишь песчинка. Миллионы других видов все еще скрываются в тени. Следующая цель LucaProt — найти их. А этот метод можно будет натравить и на поиск неизвестных бактерий или паразитов. Представляете масштаб?
Правда, у новых «знакомых» пока нет лиц. Кто является хозяином этих вирусов — загадка. Заражают ли они людей, животных или только бактерий? Ши и его команда уже разрабатывают новую модель, чтобы вычислить этих хозяев. Одна из самых интригующих задач — проверить, способны ли эти вирусы атаковать археи. Это такие загадочные организмы, для которых до сих пор не нашли ни одного РНК-вируса. Ну как тут не спросить: а что, если и там есть своя, невидимая нам вирусная вселенная?
* Компания Meta – признана экстремистской организацией и запрещена в РФ.