基因座和物种树中未分类的同源性
同源性(homology)的概念是进化生物学的根源。自 Fitch (1970) 的开创性工作以来,在分子水平上定义了同源关系的三个主要类别:直系同源(orthology)、旁系同源(paralogy)和异同源(xenology)。简而言之,如果两个基因拷贝是通过复制产生的,那么它们就是旁系同源物,而如果它们是通过物种形成产生的,那么它们就是直系同源物。如果其中一个是从同时代的物种转移过来的,我们称它们为异同源(Gray 和 Fitch (1983) ;惠誉 (2000))。然而,测序技术的进步改变了这个领域,并且现在收集包含多个基因位点或每个物种多个个体的数据集非常普遍。一般来说,这样的全基因组数据集不仅揭示了广泛的系统发育不一致性(Jeffroy 等人2006年;Salichos 和 Rokas 2013),而且也让人们重新关注祖先多态性如何在种群中排序(Edwards 2009)。总而言之,系统发育数据对于明确区分生物体和基因演化历史的当务之急。
让我们考虑三个不同层次的系统发育关系:物种、基因座和基因拷贝(图 1)。
图 1
物种树、多基因树和基因树
该图表示三个不同物种(A、B和C)中属于一个基因座的三个基因拷贝(A0、B0和C0)(基因树=细黑线)(基因座树=中粗线)的系统发育关系(物种树=背景中的粗浅树)。内部基因树结点被编号,用黑色圆圈表示。终端基因树结点代表单基因拷贝。在这种情况下,物种、基因座和基因树是完全一致的。
物种/种群树和基因树之间的区别几十年前就为人所知(Goodman 等人 1979 年;Pamilo 和 Nei 1988 年;Takahata 1989 年),而将多基因树引入这些模型是最近的事情(Rasmussen 和 Kellis 2012 年)。简而言之,物种树(species tree)描述了生物体样本的进化历史。在这种情况下,节点代表物种形成事件,通过分枝连接,分枝反映了一段时期的种群历史。它们的宽度代表有效种群规模 (Ne),它们的长度代表时间(通常以年或世代数为单位)。除了物种形成之外,只有影响物种整体的进化过程才会在这个层面上表现出来,比如杂交。
另一方面,多基因系统发育树(locus tree)则代表了基因片段的进化历史(参见 Rasmussen 和 Kellis 2012)。由于基因片段存在于物种个体内部,因此多基因树嵌入到物种树中。在多基因树中,节点描述了由于被嵌入物种树中的物种形成或基因片段事件(例如重复、丢失或水平基因转移)而导致的遗传分化,而分支长度和宽度分别表示时间和 种群规模(Ne)。
最后,基因树代表了多基因树内部采样的拷贝基因的进化历史。基因树节点表示聚结事件,这些事件对应于 DNA 复制和分化的过程,并且可能发生在物种形成时间前后,基因树的分支通常表示每个位点的替换量,也可以表示世代数或其他时间度量。
重要的是,这三种树不一定完全一致。由于基因重复、丢失或水平基因转移,真实的物种/种群树可能不同于真实的多基因树,而如果存在不完全谱系分选 (ILS),真实的基因树可能不同于它们的多基因树和物种树 (Maddison 1997) ; Page 和 Charleston 1997)(以及人口树的迁移)。
将 "hemiplasy "定义为由ILS引起的基因树和物种之间的拓扑结构不一致,导致明显的同源现象。但是问题是标准的同源亚型定义没有明确考虑这种潜在的分歧,因为它们是根据已经命名的(带有基因座和物种名称)基因树创造的。然而,为了充分考虑到进化过程的复杂性,我们发现理解同源关系取决于这三层的相互作用是至关重要的。正如我们将在下面展示的那样,这不仅从概念的角度来看是必不可少的,而且对于实际的进化推理也具有实际意义。在我们看来,物种树、多基因树和基因树之间的解耦脱钩,以及接踵而至的多谱系考虑意味着对传统同源关系的修正。
种群内部的复制和转移
首先分析基因座树和基因树之间的区别。基因家族进化研究的一个共同目标是定位甚至确定相关基因复制事件的日期。在传统中(即忽略了基因座树)的基因树中,重复事件被归类为“复制节点”,也被确定为两个旁系拷贝基因的最新共同祖先基因拷贝(MRCA)。然而,当我们考虑到在一个种群中出现多个世系时,MRCA往往不一定要与复制节点相吻合。在图2中,我们描述了一个发生基因复制的假定种群的谱系关系。在这种情况下,发生复制的原系(实心方块)已经灭绝,,由于新的基因座通过重组转换了系谱。因此仍然存在至今,简而言之,我们假设新的基因座通过随机漂移最终固定在种群中,因此种群中的所有个体都携带两个基因座。更重要的是,在这个图中,任何两个现存基因拷贝的MRCA(虚线方块)必然比与复制事件相关的基因拷贝要早。在实际中,这种情况会在大多数时候发生。在同一个体中,采样基因拷贝的MRCA和复制事件的重合是几乎不可能的。此外,这些考虑并不限于种内进化,同样的论点也适用于位于不同物种中的基因座。
图 1
一个种群中两个旁系同源基因的谱系
填充的圆圈代表分离的基因拷贝,不同的颜色表示基因座。新的基因座(浅色)是由实心方块所包围的基因拷贝复制而来,并独立进化(即两个基因座是不相连的)。当两个基因位点从不同的个体遗传时,就会发生重组事件,导致图中出现非平行的分支。推断的复制节点用虚线方块表示(以及任何两个同源拷贝的真实MRCA)。a)完整谱系,b)采样基因拷贝的谱系,c)重建的样本的基因树。
这些观察结果的含义有2个方面。首先,根据最初的同源性定义,图2中来自不同基因座的基因拷贝并不是严格意义上的旁系物,因为尽管它们被置于不同的基因座中,但它们的MRCA与凝聚事件有关,而不是与复制事件有关。第二,在大多数情况下,估计的基因树不包含 "真正的 "复制节点,所以复制事件被分配给两个相关基因拷贝的MRCA。因此,复制时间将一直被高估。
未分类的旁系同源
不同的谱系在基因座树内排序可能导致不寻常的同源关系。让我们首先考虑没有 ILS 且基因、基因座和物种树一致的情况(图 3a)。在这种情况下,即使基因复制事件比两个旁系同源物(节点 3)的 MRCA 更年轻,不同基因拷贝之间的同源关系也可以被认为是“典型的直系同源和旁系同源”(图 3b),
图 1
旁系同源进化
a) 物种树(背景中的粗浅树)、基因树(细暗线)、基因座树(中粗枝)A、B和C是物种/种群,而A1、A0、B1、B0和C0代表基因拷贝。黑色圆圈代表基因树中的节点(只有内部节点--即聚合点--被编号),其中虚线代表已灭绝/未采样的谱系。b) 基因拷贝之间的同源关系(O:直系同源;PBS:种间旁系同源;PWS:种内旁系同源)。c) 基因树和物种树的最合理的复制/丢失调节
如果基因座树内存在ILS(即同一基因座的多个谱系经历复制事件),就会出现不寻常的同源关系。例如,让我们考虑图4a中A1和B0之间的关系。这两个基因拷贝属于不同的基因座和不同的物种,因此它们应该被直观地认为是旁系同源。然而,它们的MRCA(节点3)是一个没有立即复制的聚合事件,这将表明它们不是旁系同源关系,而是直系同源关系。完全相同的情况发生在B0和B1之间,尽管在这种情况下,两个基因拷贝都来自同一个物种。这里的 "问题 "在于节点3是一个更深层次的凝聚,它先于凝聚节点2和随后的复制事件(用实心方形表示)。遭受复制的品系从未到达现在(虚线),而之前分化的A0和B0品系通过重组最终进入了与新基因座(A1和B1)相同的基因组。我们把刚才描述的情况称为 "未分化的旁系",即在复制之前,不同的品系在一个基因座内共存,通常是在同一个种群中--但请注意,B0品系的分离可能更深,发生在与复制事件不同的种群中(补充图S4a)。因此,在图4中,A1和B0将是 "物种间未分类的旁系同源",而B1和B0将是 "物种内未分类的旁系同源"。
重要的是,在传统的情况下,即不考虑多基因树,仅包含基因树与被嵌入物种树中的基因复制会错误地将节点 2 和 3 都识别为复制,而实际上只有一次复制(图 4c)。此外,一些直系同源物会被错误地识别为旁系同源物(例如 A0 和 B0)。
图 1
未分类的旁系进化
a) 基因树(细黑线)在嵌入物种树(背景中的厚浅色树)中的基因树(细黑线)内的进化,在基因座树级别具有 ILS。A、B 和 C 代表物种/种群,而 A1、A0、B1、B0 和 C0 代表基因拷贝。黑色圆圈代表基因树节点(只有内部节点——即聚结——被编号),其中虚线代表灭绝/未采样的谱系。方块表示复制事件。b) 基因拷贝之间的同源关系(O:直系同源物;UO:未分类的直系同源物;PBS:种间旁系同源物;PWS:种内旁系同源物;UPBS:种间未分类的旁系同源物;UPWS:种内未分类的旁系同源物)。c) 基因树和物种树的最简约的复制/损失协调。标签颜色表示不同的估计位点,而文本指的是真实位点。正方形表示重复事件,十字表示损失。
未分类的直系同源
最后,当考虑基因树如何与物种树相关时,会出现另一个有趣的观察结果。最初的 Fitch (1970) 直系同源定义适用于其 MRCA 位于携带所考虑基因拷贝的类群的最近共同祖先中的基因拷贝。然而,这个定义没有考虑到MRCA在Cenancestor出现之前发生的可能性。我们建议其 MRCA 合并比 cenancestor 更深的直系同源物,与是否导致不一致的基因树/物种树无关、被称为“未分类的直系同源物”。这种情况在实践中是广为人知的,但我们认为明确描述并将其包含在直系同源的定义中很重要。
基于 ILS 的同源性
我们已经展示出同源关系可能比传统上认为的更复杂,在我们看来,最初的同源性定义认为基因拷贝只有通过物种分离、复制或转移才会发生分化,这是不充分的,因为大多数基因拷贝实际上是在一个种群/物种内作为同一基因座的等位基因发生分化。考虑到具有重复、丢失和水平基因转移的现实多谱系场景,可以改进同源关系的定义,以便与物种树/基因座树/基因树不一致的范例兼容。因此,旁系同源(paralogy)将适用于其 MRCA 在基因座树级别对应于复制节点的基因拷贝。根据这些拷贝的 MRCA 在基因树中的相对位置,“标准”旁系同源物将是在复制前的第一个合并的基因拷贝,而“未分类的旁系同源物”(unsorted paralogs)将在它们至少错过一次合并机会时出现。异同源的概念没有改变,它是指在 MRCA 之后从另一个物种转移的基因拷贝。最后,直系同源(orthology)的概念适用于在基因座树水平的mrca对应一个物种的基因拷贝,或者在它们来自相同基因座的情况下对应于同一个物种。另一方面,“未分类的直向同源物”(unsorted paralogs)会区分那些 MRCA 未在其最近的祖先物种中发生的直系同源物。避免 ILS 潜在混杂效应。因此,如果基因座树中两个基因拷贝的 MRCA 是物种形成节点,则这两个基因拷贝将是直系同源物,而如果它是复制节点,则它们将是旁系同源物。然而,该框架将忽略 ILS 的影响,并且不会区分标准和未分类的旁系同源物/直系同源物,这对于解开基因家族进化可能很重要。
总之,为了正确理解基因组进化,我们需要重新思考序列同源关系在物种、基因座和基因树水平上是如何衔接的。然而,我们正在经历系统发育学的概念和方法的转变,这是由从多个个体收集的全基因组数据集的可用性促使的。这种转变需要明确考虑在物种内部之间不同的系统发育层次,包括物种、基因座和基因拷贝。重要的是,缺乏对多基因树的考虑可能不仅导致高估复制的数量,而且还导致持续高估复制的年代。在这方面,将多基因树同基因树和物种树同时考虑是至关重要的,并且多基因树能有效解决物种树和基因树不一致的问题。
Mallo, D., De Oliveira Martins, L., & Posada, D. (2014). Unsorted Homology within Locus and Species Trees. Systematic Biology, 63(6), 988–992. doi:10.1093/sysbio/syu050
原文链接 |https://doi.org/10.1093/sysbio/syu050
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除