英国使用人工智能来识别新冠病毒新变体

来源:科学网 发布时间:2024年04月01日 浏览次数: 【字体: 收藏 打印文章

3月13日,英国曼彻斯特大学、牛津大学科研团队在学术期刊《美国科学院院刊》发表成果,他们开发出一种人工智能框架,能够从大量数据中快速识别出未来可能存在风险的病毒基因组,可识别和追踪新冠肺炎病毒新型变体,有助于应对病毒传播。

自新冠肺炎爆发以来,全球已出现了多波新变种,传播性、免疫反应逃逸程度不断增强,导致疾病严重程度不断增加。与许多其他RNA病毒一样,新冠病毒突变率高、进化速度极快,识别可能出现的病毒新株需要付出相当大的努力。科学家正努力研发新方法,试图在阿尔法、德尔塔和奥密克戎等令人担忧的新变种出现的最早阶段就将其准确定位,以采取例如精准开发疫苗等更积极的应对措施,在变异株形成之前消除它。

目前,全球共享流感数据倡议组织数据库可提供所有流感病毒基因组数据,并且有近1600万个序列可使用。利用该数据库,科学家采用系统发育分析方法,为追踪各种病毒的进化谱系和识别新病毒提供了“金标准”。但该方法计算成本高,随着数据量增加而难以使用,且需要人工管理来命名新的病毒谱系。英国科研团队同时应用基因序列表征和降维算法,通过对新冠肺炎病毒的基因序列进行计数,将其分解为较小的“数”(称为3个序),并用数字表示。然后,利用机器学习技术,结合可解释聚类算法CLASSIX,根据单词模式将相似的序列分组在一起,揭示大量序列之间的遗传关系。该方法实现完全自动化计算,仅用两天时间就处理了570万个高覆盖度序列。

科研团队表示,该研究验证了机器学习方法可能被用作早期发现新出现病毒变体的警报工具。与传统方法相比,该方法的优势在于能够管理更大数量级的序列,且成本低、可扩展和可解释。虽然不能替代当前的系统发育分析方法,但可用作一种补充的、完全自动化的方法来识别和确认新出现的变异株。此外,与其他聚类方法相比,CLASSIX算法产生的结果与现有的“金标准”方法更加一致,并且使用少量参数,更容易优化。

相关论文信息:https://www.pnas.org/doi/10.1073/pnas.2317284121

Baidu
map