近日,来自美国、法国和瑞士等国家的国际研究团队,借助人工智能机器学习,从世界各地收集的海水样本中确定了5500种新的RNA病毒,创建了一个关于RNA病毒的数据库。相关研究成果以“Cryptic and abundant marine viruses at the evolutionary origins of Earth’s RNA virome”为题,发表在Science上。这项研究增加了生态学研究的可能性,重塑了人们对这些小但重要的亚微观粒子如何进化的理解。另外,此项发现也有助于科学家更好地了解地球上的早期生命是如何进化的,进而追溯生命的起源。
图1 研究成果(图源:Science)
目前科学界对于RNA病毒在疾病之外的研究和认识并不充分,其进化速度比DNA病毒快得多。虽然科学家们已经对自然生态系统中数十万种DNA病毒进行分类,但对RNA病毒的研究却相对较少。
在这项研究中,为了识别含有RNA遗传物质的新病毒,研究人员通过运用机器学习和系统发育树两种方法,对全球约35000个水样进行分析,最终发现了5500种新病毒。在此前,国际病毒分类委员会(ICTV)确认了RNA病毒界的五个门类,而此次新发现的RNA病毒并不能完全被归入已知的病毒门类当中,至少需要5个新的RNA病毒门类才能囊括它们。研究人员将这些病毒分别归入五个新提出的病毒门类,包括Taravircota、Pomiviricota、Paraxenviricota、Wamoviricota和Arctivicota。
论文主要作者Matthew Sullivan表示,在整个海洋中发现了一个完整的RNA病毒门类Taravircota,这表明它们在生态上非常重要。这一新的RNA病毒门类可能是数十亿年前早期RNA病毒进化中“缺失的一环”,将RNA病毒两个不同的已知分支连接起来,这两个分支据称在复制方式上存在分歧。这些努力为将RNA病毒整合到生态和流行病学模型中提供了关键基础知识。
研究人员从海上浮游生物体中提取基因序列,并将分析范围缩小到含有RdRp这一基因的RNA序列,这种基因在RNA病毒中已经进化了数十亿年,而在其他病毒或细胞中并不存在。RdRp的存在可以追溯到地球上首次发现生命时,到如今,它的序列位置已经发生多次变化,因而传统的系统发育树关系不能仅用序列来描述。研究人员使用机器学习来分析44000个新序列,以总结数十亿年的序列变化,并通过展示该技术已准确分类已识别的RNA病毒序列来验证该方法。
对此,Sullivan表示:“我们创造了一种计算可复制的方式来校准RNA病毒序列,我们有信心可以更准确地反映RNA病毒的进化”。Zayed表示:“RdRp是最古老的基因之一,弄清楚RdRp是如何随时间进化的,可能有助于更好地理解地球上早期生命是如何进化的。这不仅是在追溯病毒的起源,也是在追溯生命的起源”。
参考资料:
[1]Zayed AA, Wainaina JM, Dominguez Huerta G, et al. Cryptic and abundant marine viruses at the evolutionary origins of Earth's RNA virome. Science. 2022 Apr 8;376(6589):156-162. doi: 10.1126/science.abm5847. Epub 2022 Apr 7. PMID: 35389782.