在过去的近300年中,生物分类法从两界、三界一直被扩充到六界三域,分类系统不断被改写。然而,演化树的改写可能还会继续下去。美国加州大学基因中心和文特尔研究所对海洋水样本中的DNA序列分析的合作研究发现,地球上可能存在着三个域之外的生物。
外环境入手测DNA序列
这个发现十分惊人,其可能改写从上世纪90年代以来延续的主流生物分类学法。研究是加州大学戴维斯分校基因中心的艾森(Jonathan Eisen)领头所做。他与同事们提取了一部分海洋水样本中的DNA进行分析,发现这些样本基因序列十分不同寻常,和人们平时所知的细胞生物似乎关系非常疏远,完全像是来自另外一个全新的生物域。相关论文发表于《公共科学图书馆·综合》(PLoS One)。
基因分析是目前用来进行生物分类和判断的好工具。我们星球上大部分的物种并非日常所见的动植物,而是看上去像是一个个单一细胞的低等生物体,如果要判断它们在演化树上处于什么位置,生物学家们需要在实验室里培养它们,等有了足够的DNA后再进行基因分析。但艾森表示,这里的问题是,这些物种的绝大部分,差不多占所有物种的99%,都没法在实验室里被培育。“它们就像是生物宇宙里的暗物质。”他打了一个比方。
为了探寻生物的“暗物质”,艾森展开了和世界上最出名的私人基因研究所——文特尔研究所的合作。“坏小子”文特尔因支持基因谱私有化和“人造生命”等立场而成为世界上最受争议的科学家之一,但是他拥有的私人研究所的确是当前最强大的基因研究机构之一。对于这项探究“暗生物”的挑战,他和他的同事们采用了一种现在很前沿的研究方法,叫做“宏基因组学”(微生物环境基因组学)进行研究,传统的微生物基因序列分析需要在实验室里培养微生物,但用宏基因组学,可以直接从环境样品中提取全部微生物的DNA,那就可以避开有的微生物很难在实验室里培养的难题。艾森表示,加上这种方法,无论是环境中采集的还是实验室里培养的,现在没有DNA序列是测不出来的。
假设可能只是“错觉”
在此次研究中,艾森和文特尔提取了“全球海洋取样考察”(Global Ocean Sampling Expedition)中采集的海水样品,通过宏基因组学分析,发现其中有一些基因序列和此前所知的彻底不一样,无论如何也放不进现有的演化树中。
“问题是,它们是哪儿来的?”艾森说。目前还没有一个科学家能够解答得了,这些基因不知道到底是属于什么生物。不过,艾森表示,现在出现了两种假设,一种是这些基因序列来自一些很与众不同的病毒,而另一种假设则更为令人惊讶,这些神秘的基因序列或许代表着生命树上一个完全崭新未知的分支。
这个假设是十分大胆的,生物学界一些人表示激动,但也有一些人认为现在就谈生命的“第四维度”为时过早。如加拿大渥太华麦克马斯特大学的生物学家古普塔(Radhey Gupta)说,尽管这个发现很有意义,但还是得小心下结论才行,因为可能有更多的解释,比如,这些基因序列可能来自一些生活在独特的环境中的细胞生物,有的环境可能导致生物的基因发生迅速的演变,这就有可能给做基因分析的科学家带来错觉,以为这是在很早很早以前就和其他生物分家了的“新”的生命形式。
“现在生物是否分成三个域,或者这三个域之间的生物是怎么相互联系的,这些都还有着很大的分歧。”古普塔说,“如果再加上对第四个域的讨论,只会让人们更加困惑。”
不过,法国巴黎第六大学科学家巴普苔丝特(Eric Bapteste)的回应则更积极一点:“事实就是基因是非常多样的,而且毫无疑问其中的大部分我们都是未知的,要设想还有一个全新的生物域在那儿这也是合情合理的。”
演化树面临再次重写
研究接下来的一个工作就是要更进一步地确定这些序列的来源,将寻找这些基因到底是突然变异的还是从另一个奇怪的“维度”来的。对这些样本的进一步分析,还可以确定这些神秘的基因序列到底属于什么生物体。
假设艾森等人的进一步工作发现,这些基因序列的确是来自一个全新的生物域,那生物演化树将再次被推翻重写。
艾森介绍说,到上世纪90年代之前,演化树上只有两个分支:一个是真核生物,包括动物、植物、真菌和一些奇怪的生物形式,比如黏液菌;而没有被列入真核生物的,则被称为“其他所有一切生物”。随着基因分析技术的进步,上世纪90年代后,科学家发现,所谓的“其他所有一切生物”并不能笼统地归在一起,它事实上有两个完全不同的域:细菌和古菌。
即使这样,生物学家对演化树如何来画依旧是分歧多多,还有不少存在争议的生物,比如拟菌病毒,这是目前所知的最大的病毒之一,有人就认为其应该单独代表一个新的域,它里面带有很多在细胞生物中才有的基因,所以不应该看成是病毒。“如果你把这些拟菌病毒看成是第四个分支,那我们的序列或许代表着第五个分支,只不过现在我们都还不知道而已。”艾森说。
【链接】沃斯创建“三域说”
美国微生物学家沃斯(Carl Woese)采用分子生物学的方法做基因关系比较。1977年,他将rRNA分子片段做出基因序列分析(这种方法后来被普遍采纳),然后重新绘制了演化树,将我们日常所熟知的千姿百态的细胞生物形式如动物、植物、真菌等都归于演化树上同一个分支——真核生物。
此外,在沃斯之前,人们普遍把动植物和真菌等之外的其他生物都全部归于原核生物,相对于真核生物,原核生物一般没有细胞内膜,没有细胞核膜,但依然有遗传物质,而真核生物不管是单细胞还是多细胞,细胞内都含有细胞核。
上世纪90年代的时候,他正式提出了三域说,生物分类法中最高的类别不再是“界”,而是“域”,三个域分别是细菌域、古菌域和真核域。尽管还存在很多分歧,但三域系统是目前生物界被大多数人认可的主流分类系统。
原文出处:
PLoS ONE 6(3): e18011. doi:10.1371/journal.pone.0018011
Stalking the Fourth Domain in Metagenomic Data: Searching for, Discovering, and Interpreting Novel, Deep Branches in Marker Gene Phylogenetic Trees
Dongying Wu1, Martin Wu1,4, Aaron Halpern2,3, Douglas B. Rusch2,3, Shibu Yooseph2,3, Marvin Frazier2,3, J. Craig Venter2,3, Jonathan A. Eisen1*
Background
Most of our knowledge about the ancient evolutionary history of organisms has been derived from data associated with specific known organisms (i.e., organisms that we can study directly such as plants, metazoans, and culturable microbes). Recently, however, a new source of data for such studies has arrived: DNA sequence data generated directly from environmental samples. Such metagenomic data has enormous potential in a variety of areas including, as we argue here, in studies of very early events in the evolution of gene families and of species.
Methodology/Principal Findings
We designed and implemented new methods for analyzing metagenomic data and used them to search the Global Ocean Sampling (GOS) Expedition data set for novel lineages in three gene families commonly used in phylogenetic studies of known and unknown organisms: small subunit rRNA and the recA and rpoB superfamilies. Though the methods available could not accurately identify very deeply branched ss-rRNAs (largely due to difficulties in making robust sequence alignments for novel rRNA fragments), our analysis revealed the existence of multiple novel branches in the recA and rpoB gene families. Analysis of available sequence data likely from the same genomes as these novel recA and rpoB homologs was then used to further characterize the possible organismal source of the novel sequences.
Conclusions/Significance
Of the novel recA and rpoB homologs identified in the metagenomic data, some likely come from uncharacterized viruses while others may represent ancient paralogs not yet seen in any cultured organism. A third possibility is that some come from novel cellular lineages that are only distantly related to any organisms for which sequence data is currently available.1 If there exist any major, but so-far-undiscovered, deeply branching lineages in the tree of life, we suggest that methods such as those described herein currently offer the best way to search for them.