包括人类在内的哺乳动物实现了高度的机体复杂性,这主要是由于它们的蛋白是如何被调控的;表征人类基因组的调控景观是现代生物学的一个长期目标。当前的方法测量全基因组的生化信号,包括染色质可及性、组蛋白修饰、DNA甲基化和大约1600种转录因子在人类基因组中的结合。利用这些方法,ENCODE联盟确定了近一百万个候选顺式调控元件(cis-regulatory element, cCRE)。另一种方法是利用进化保守性来确定潜在的调控区域。
在一项新的研究中,来自美国马萨诸塞大学医学院等研究机构的研究人员将这些方法结合起来,研究不同功能类别的调控元件如何应对进化压力。相关研究结果发表在2023年4月28日的Science期刊上,论文标题为“Mammalian evolution of human cis-regulatory elements and transcription factor binding sites”。
cCRE往往是保守的,而不同类别的cCRE表现出不同程度的保守性,这表明了有趣的进化动态。这些作者利用Zoonomia项目(Zoonomia project)开发的工具---胎盘哺乳动物的进化限制(evolutionary constraint)和无参考基因组的241种哺乳动物的基因组比对---对胎盘哺乳动物的进化动态进行了研究。他们确定了在哺乳动物谱系中保守的人类cCRE和转录因子结合位点(transcription factor binding site, TFBS),表征了cCRE和TFBS的进化历史,并确定了它们增加和减少背后的驱动力,此外还利用生化和表观基因组学数据,评估了保守的cCRE和TFBS在人类和其他哺乳动物中是否可能具有功能性。
这些作者探索了从表观基因组学数据中获得的ENCODE cCRE和从染色质免疫沉淀数据中获得的367种转录因子的结合位点。他们发现了哺乳动物调控元件的保护性图谱:一端是高度保守的cCRE和进化受限的TFBS,另一端是灵长类动物特有的与转座因子(transposable element)重叠的cCRE和TFBSs。保守性的调控元件主要位于在基本细胞过程(代谢、发育)中起作用的基因附近,并且在其他哺乳动物的基因组中往往具有功能性,而不存在进化限制的调控元件位于涉及与环境相互作用的基因附近。
人类调节景观的哺乳动物进化。图片来自Science, 2023, doi:10.1126/science.abn7930。
这些作者在哺乳动物的进化限制下确定了约43.9万个深度保守的cCRE(占cCRE的47.5%,占人类基因组的4%)和200万个TFBS(占人类基因组的0.8%)。利用69项全基因组关联研究,他们发现保守的cCRE和进化受限的TFBS实现了高遗传性富集,证明了它们在人类遗传变异的功能解释方面的有用性。
与此同时,超过85%的灵长类特异性TFBS---占所有TFBSs的20%以上---来源于转座因子。系统发育分析显示,在灵长类动物的基因组中,有数量惊人的TFBS集群共享存在和缺失模式,并在特定的转座因子家族中富集,表明在灵长类动物进化过程中,多波转座因子插入扩散了这些TFBS。
综上所述,这些作者绘制了胎盘哺乳动物中cCRE和TFBS的进化图谱,确定了哺乳动物谱系中纯化选择(purifying selection)下的调控元件亚群。这些调控元件在与多种复杂性状相关的人类遗传变异中高度富集,其遗传性富集是由哺乳动物和灵长类动物在进化限制下的核苷酸贡献的。
参考资料:
Gregory Andrews et al. Mammalian evolution of human cis-regulatory elements and transcription factor binding sites. Science, 2023, doi:10.1126/science.abn7930.