AI ontdekt ruim 70.000 nieuwe virussen
Onderzoekers hebben met behulp van kunstmatige intelligentie (AI) 70.500 virussen ontdekt die voorheen onbekend waren voor de wetenschap, waarvan vele eigenaardig zijn en niets gemeen hebben met bekende soorten. Deze RNA-virussen werden geïdentificeerd via metagenomica, een techniek waarbij alle genomen in een omgeving worden bemonsterd zonder dat individuele virussen hoeven te worden gekweekt. Deze studie biedt niet alleen een veel bredere blik in de wereld van virussen, maar toont vooral het potentieel van AI om de 'donkere materie' van het RNA-virusuniversum te verkennen.
Virussen zijn alomtegenwoordige micro-organismen die dieren, planten en zelfs bacteriën infecteren, maar slechts een klein deel ervan is geïdentificeerd en beschreven. Er is in wezen een bodemloze put aan virussen te ontdekken, zegt Artem Babaian, viroloog aan de Universiteit van Toronto in Canada. Sommige van deze virussen zouden ziekten bij mensen kunnen veroorzaken, wat betekent dat het karakteriseren ervan kan helpen om mysterieuze aandoeningen te verklaren.
Eerdere studies hebben gebruikgemaakt van machine learning om nieuwe virussen in sequentiegegevens te vinden. De nieuwste studie, gepubliceerd in het tijdschrift Cell, gaat een stap verder en past deze technieken toe op voorspelde eiwitstructuren.
Het AI-model integreert een eiwitvoorspellingsinstrument genaamd ESMFold, ontwikkeld door onderzoekers bij Meta (voorheen Facebook). Een vergelijkbaar AI-systeem, AlphaFold, werd ontwikkeld door onderzoekers bij Google DeepMind in Londen, die deze week de Nobelprijs voor Scheikunde hebben gewonnen.
In 2022 zochten Babaian en zijn collega's in 5,7 miljoen genoommonsters uit openbare databases en identificeerden bijna 132.000 nieuwe RNA-virussen. Andere onderzoeksgroepen hebben soortgelijke inspanningen geleverd.
Maar RNA-virussen evolueren snel, dus bestaande methoden om ze in genoomsequenties te identificeren missen er waarschijnlijk veel. Een gangbare methode is te zoeken naar een deel van het genoom dat codeert voor een sleutelproteïne dat wordt gebruikt bij RNA-replicatie, genaamd RNA-afhankelijke RNA-polymerase (RdRp). Maar als de sequentie die voor dit proteïne codeert sterk verschilt van bekende sequenties, zullen onderzoekers het niet herkennen.
Shi Mang, een evolutionair bioloog aan de Sun Yat-sen Universiteit in Shenzhen, China en co-auteur van de Cell-studie, ging samen met zijn collega's op zoek naar voorheen niet-herkende virussen in openbare genoommonsters.
Ze ontwikkelden een model genaamd LucaProt, gebaseerd op de 'transformer'-architectuur die ook ten grondslag ligt aan ChatGPT en voedden het met sequentie- en ESMFold-eiwitvoorspellingsdata. Ze trainden hun model om virale RdRps te herkennen en gebruikten het om sequenties te vinden die codeerden voor deze enzymen, een aanwijzing dat deze sequenties tot een virus behoorden, in de enorme hoeveelheid genoomdata. Met deze methode identificeerden ze ongeveer 160.000 RNA-virussen, waaronder enkele die uitzonderlijk lang waren en werden gevonden in extreme omgevingen zoals warmwaterbronnen, zoutmeren en zelfs in de lucht. Net iets minder dan de helft hiervan was nog niet eerder beschreven. Ze ontdekten ‘kleine pockets van RNA-virusdiversiteit die zich echt ver weg bevinden in de uithoeken van de evolutionaire ruimte’, aldus Babaian.
"Het is een veelbelovende aanpak om de virosfeer uit te breiden," zegt Jackie Mahar, een evolutionair viroloog bij het CSIRO Australian Centre for Disease Preparedness in Geelong, Australië. Het karakteriseren van deze virussen zal onderzoekers helpen de oorsprong van microben te begrijpen en hoe ze geëvolueerd zijn in verschillende gastheren, voegt ze eraan toe. Het uitbreiden van de pool van bekende virussen maakt het ook gemakkelijker om meer vergelijkbare virussen te vinden, merkt Babaian op. "Ineens kun je dingen zien die je eerder gewoon niet kon waarnemen."
Het team kon echter niet bepalen welke gastheren de geïdentificeerde virussen hebben, wat nader onderzoek vereist, zegt Mahar. Onderzoekers zijn vooral geïnteresseerd in de vraag of een van de nieuwe virussen archaea infecteert, een hele tak van de levensboom waarvoor nog geen RNA-virussen duidelijk zijn aangetoond die ze infecteren.
Shi is momenteel bezig met het ontwikkelen van een model om de gastheren van deze nieuw ontdekte RNA-virussen te voorspellen. Hij hoopt dat dit onderzoekers zal helpen de rol te begrijpen die virussen spelen in hun ecologische niches.
