微生物序列数据库包含大量有关酶和其他可用于生物技术的分子的信息。但近年来,这些数据库已经变得非常庞大,以至于很难有效地搜索到感兴趣的酶。
如今,在一项新的研究中,来自美国布罗德研究所、麻省理工学院麦戈文脑科学硏究所和美国国家卫生研究院国家生物技术信息中心(NCBI)的研究人员开发出一种新的搜索算法,在细菌基因组中发现了188种新的罕见CRISPR/Cas系统。相关研究结果发表在2023年11月24日的Science期刊上,论文标题为“Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering”。论文通讯作者为CRISPR先驱Feng Zhang和NCBI杰出研究员Eugene Koonin。
该算法来自Zhang实验室,使用大数据聚类方法来快速搜索海量基因组数据。这些作者利用他们的算法---基于快速位置敏感散列的聚类(Fast Locality-Sensitive Hashing-based clustering, FLSHclust)---分析了三个主要的公共数据库,这些数据库包含来自一系列不同寻常细菌的数据,包括在煤矿、酿酒厂、南极湖泊和狗唾液中发现的细菌。
这些作者发现,CRISPR系统的数量和多样性都令人惊讶,其中包括可以对人体细胞中的DNA进行编辑的CRISPR系统、可以靶向RNA的CRISPR系统,以及许多具有其他多种功能的CRISPR系统。
与目前的CRISPR/Cas9系统相比,这些新的CRISPR系统有可能被用来编辑哺乳动物细胞,其脱靶效应更少。有朝一日,它们还可以用作诊断工具,或作为细胞内活动的分子记录。
这些作者说,他们的研究凸显了CRISPR系统前所未有的多样性和灵活性,随着数据库的不断扩大,可能还有更多稀有的CRISPR系统有待发现。
Zhang说,“生物多样性是一座宝库,随着我们继续对更多的基因组和宏基因组样本进行测序,我们越来越需要更好的工具,比如FLSHclust,来搜索序列空间,以便寻找分子宝石。”
寻找 CRISPR
CRISPR是规律间隔性成簇短回文重复序列(Clustered Regularly Interspaced Short Palindromic Repeats)的简称,它是一种细菌防御系统,经改造后可用作许多基因组编辑和诊断工具。
为了从蛋白和核酸序列数据库中挖掘新型CRISPR系统,这些作者借鉴大数据领域的一种方法,开发了一种算法。它将相似但不完全相同的对象聚类在一起。
先前未报道的CRISPR-Cas系统的鉴定和表征。图片来自Science, 2023, doi:10.1126/science.adi1910。
通过使用这种方法,他们可以在几周内探查数十亿个蛋白和DNA序列---这些序列来自NCBI、全基因组鸟枪数据库(Whole Genome Shotgun database)和联合基因组研究所(Joint Genome Institute),而以前寻找相同对象的方法需要几个月的时间。他们设计的算法旨在寻找与CRISPR相关的基因。
论文共同第一作者Soumya Kannan说,“这种新算法允许我们在足够短的时间内解析数据,从而可以实际恢复结果并提出生物学假设。”另一名论文共同第一作者为来自Zhang实验室的Han Altae-Tran。
Altae-Tran说,“这证明了当你改进探索方法并使用尽可能多的数据时,你能做什么。能够提高我们搜索的规模,这真地很令人兴奋。”
新的CRISPR系统
在分析过程中,Altae-Tran、Kannan 和他们的同事们注意到,他们发现的数千个 CRISPR 系统分为几个现有类别和许多新类别。他们在实验室中对其中的几个新的CRISPR系统进行了更详细的研究。
他们发现了已知 I 型 CRISPR 系统的几种新变体,它们使用 32bp长的向导RNA(gRNA),而CRISPR/Cas9系统使用20 bp长的gRNA。由于具有较长的gRNA,这些 I 型CRISPR系统有可能被用于开发更精确而不易发生脱靶编辑的基因编辑技术。
Zhang实验室发现其中的两种CRISPR系统可以对人类细胞的DNA进行较短的序列编辑。由于这些I型CRISPR系统的大小与CRISPR/Cas9系统相似,因此它们很可能可以用目前用于CRISPR的基因递送技术递送到动物或人类的细胞中。
其中的一种 I 型CRISPR系统还显示出“附带活性”---CRISPR 蛋白结合靶序列后,核酸会被广泛降解。科学家们已经用类似的系统制造出了传染病诊断仪,如SHERLOCK,这是一种能够快速检测单个DNA或RNA分子的工具。Zhang实验室认为,这些新的CRISPR系统也可能用于诊断技术。
这些作者还发现了一些IV型CRISPR系统的新作用机制,以及一种精确靶向RNA的VII型CRISPR系统,因此该VII型CRISPR系统有可能用于RNA编辑。其他的CRISPR系统有可能被用作记录工具---基因表达的分子记录,或用作活细胞中特定活动的传感器。
挖掘数据
这些作者说,他们的算法可能有助于寻找其他生化系统。Altae-Tran 说,“任何想利用这些大型数据库研究蛋白如何进化或发现新基因的人都可以使用这种搜索算法。”
他们补充说,他们的发现不仅说明了CRISPR系统的多样性,还说明了大多数CRISPR系统是罕见的,只存在于不常见的细菌中。
Kannan说,“其中的一些微生物CRISPR系统只存在于煤矿的水中。如果不是有人对此感兴趣,我们可能永远都不会看到这些CRISPR系统。扩大我们的取样多样性对于继续扩大我们所能发现的CRISPR系统多样性确实非常重要。”
参考资料:
Han Altae-Tran et al. Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering. Science, 2023, doi:10.1126/science.adi1910.
Search algorithm reveals nearly 200 new kinds of CRISPR systems
https://www.broadinstitute.org/news/search-algorithm-reveals-nearly-200-new-kinds-crispr-systems