第一章 医学遗传学基本理论
第一节 遗传的分子细胞基础
一、人类基因组
人类基因组指人体细胞内的全部脱氧核糖核酸(DNA)序列,包括人的所有遗传信息,由核基因组(nuclear genome)和线粒体基因组(mitochondrial genome)组成(图1-1)。完整的核基因组由细胞核内24条不同染色体(22条常染色体和2条性染色体X、Y)所对应的24个不同的DNA分子组成,约有30多亿个碱基对(3.2×109 bp)。线粒体基因组指存在于线粒体中的闭环双链DNA,即线粒体DNA(mitochondrial DNA,mtDNA)。
图1-1 人类基因组的组成
(一)DNA双螺旋结构
1944年,Avery、MacLeod和McCarty等通过肺炎球菌转化实验证实,真正的遗传物质并非蛋白质,而是DNA。1953年,Watson和Crick通过对DNA分子X射线衍射数据的分析,创立了DNA分子的双螺旋结构模型。如图1-2所示,DNA是两条多核苷酸链平行反向缠绕形成的双螺旋大分子,其基本组成单位为核苷酸。每个核苷酸包括戊糖(脱氧核糖)、磷酸基团和含氮碱基。碱基有两种类型,一种为嘌呤,包括腺嘌呤(adenine,A)和鸟嘌呤(guanine,G);另一种为嘧啶,包括胞嘧啶(cytosine,C)和胸腺嘧啶(thymine,T)。
1.双螺旋结构模型的主要内容
(1)DNA分子的两条链围绕一个假设的共同轴心形成右手螺旋结构,双螺旋的螺距为3.4nm,直径为2.0nm。
(2)链的骨架由亲水性脱氧核糖和磷酸构成,位于双螺旋的外侧。
(3)疏水性碱基位于双螺旋的内侧,两条链的嘌呤和嘧啶以氢键相结合,称为碱基互补配对或碱基对(base pair,bp),A与T互补配对形成两个氢键(A==T),G与C互补配对形成三个氢键(G≡C)。
图1-2 DNA的双螺旋结构
(4)DNA双螺旋的两条链反向平行,一条链为5′→3′方向,另一条链为3′→5′方向,双链在空间上构成一条大沟(major groove)和一条小沟(minor groove)。
2.DNA双螺旋分子的重要生物学意义
(1)DNA分子的碱基序列储存着大量的遗传信息。长度为n个碱基的DNA分子可能呈现4n种排列顺序,相邻3个碱基构成一个遗传密码,共有43=64个遗传密码。因此,生物体的全部遗传信息以碱基的不同排列顺序蕴藏在全部DNA序列之中。
(2)DNA分子的碱基互补结构是DNA复制和修复的基础。DNA复制时,双链的每条链都可作为合成新链的模板(template),生成的子代DNA包含一条模板链和一条新生链。当DNA分子受损修复时,可在DNA修复酶的作用下,以互补链为模板,按碱基互补原则进行修复,替代受损的碱基。
(3)DNA分子的双链互补性是分子杂交技术原理的基础。单链DNA通过碱基互补从复杂的分子混合物中找到其互补链。许多检测和分析基因功能的研究方法,如DNA印迹(Southern blotting)、RNA 印迹(Northern blotting)、PCR、DNA测序、DNA人工合成、DNA芯片等技术,都是依据碱基互补配对的原理而实现分子识别。
(4)DNA双螺旋结构中的大沟是DNA与蛋白质相互作用的结构基础。两条多核苷酸链相互缠绕的双螺旋分子形成大沟和小沟,在基因转录时,转录因子的基序(motif)识别并结合于DNA分子的大沟而发挥作用。
(二)核基因组DNA序列的特征
核基因组是指每个体细胞核中的父源或母源整套DNA,即每个体细胞有两套核基因组;每个核基因组的DNA约长3.2×109 bp。人类基因组中DNA序列的不同,决定了其具有不同的功能。主要有以下序列特征:
1.基因序列和非基因序列
人类基因组序列中约1.5%为编码蛋白质的基因序列,约5%为非编码蛋白质的调控基因序列和RNA基因,约75%为基因外的非编码DNA序列(其中55%为重复序列)。编码蛋白质的基因序列由起始密码子(ATG)开始,到终止密码子(TAA、TGA或TAG)结束。起始密码子和终止密码子之间的DNA序列称为可读框(open reading frame,ORF)。一个ORF相当于一个基因,其长短视不同的基因而异。非基因序列是指基因组中除基因序列以外的全部DNA序列,包括每个基因之间的基因间DNA(intergenic DNA)。
2.编码序列和非编码序列
编码序列是指编码蛋白质的DNA序列,也就是基因中的外显子(exon)编码序列。基因中的内含子(intron)不编码蛋白质,故非编码序列包括基因中的内含子序列、调控序列以及基因间的序列。
3.单一序列和重复序列
单一序列(unique sequence)是指在基因组中只出现一次的DNA序列,即单拷贝DNA序列。多数基因序列为单一序列,有些基因序列在基因组中出现多个拷贝;非基因序列中也有单一序列。重复序列(repeated sequence)是指在基因组中重复出现的DNA序列。在人类基因组中约45%为单拷贝序列,55%为低拷贝或中、高度重复序列。重复序列依其在基因组中重复频率的特征可分为串联重复序列(占10%)和散在重复序列(占45%)。
(1)串联重复序列(tandem repeated sequence):
是指一定长度的核苷酸序列串联在一起形成的高度重复序列。一般重复单位长度为2~200bp,根据重复单位的大小分为3种亚类,即卫星DNA、小卫星DNA和微卫星DNA。
1)卫星DNA(satellite DNA):
由较大的串联重复序列排列组成,分布在100kb至数个Mb范围内。重复单位可以是一个简单的短核苷酸序列或中等复杂核苷酸序列。卫星DNA一般聚集于染色体着丝粒的异染色质区,多数不发生转录。DNA经氯化铯密度梯度离心时,由于卫星DNA中GC含量低于主带,可以与总基因组DNA分开,形成DNA主带之外的小卫星带。卫星DNA的确切功能尚不十分清楚,目前已知α卫星(又称α-DNA)由171bp重复单位串联组成,存在于所有染色体上,构成着丝粒异染色质的主体,重复单位通常含有一个着丝粒蛋白的特异性结合位点。
2)小卫星DNA(minisatellite DNA):
由重复单位为6~64个核苷酸的串联重复序列组成,常分布在0.1~20kb范围内,位于染色体的端粒,绝大多数不转录。染色体的端粒DNA是小卫星DNA序列的主要家族,为六核苷酸重复单位TTAGGG组成的3~20kb的串联序列,其大小与特异的端粒酶活性有关,功能与细胞衰老及肿瘤发生密切相关。另外,高可变小卫星DNA(hypervariable minisatellite DNA)的重复单位大小可变,但常共享一个核心序列:GGGCAGGAXG(X为任意核苷酸),其作用不详,有报道认为与人类细胞的同源重组有关。
3)微卫星DNA(microsatellite DNA):
由重复单位为2~6个核苷酸的串联重复序列组成,常<1kb,又称短串联重复序列(short tandem repeat,STR)。STR数量多,分散于基因组中,一般构成染色体着丝粒、端粒和Y染色体长臂的染色质区,大多通过复制滑脱产生。二核苷酸重复是最常见的STR类型,约占基因组的0.5%。STR具有较高的多态性,可作为遗传学研究的遗传标记(genetic marker)。
某些位于基因编码区的微卫星DNA常为突变热点,与家族性疾病有关,如(CAG)n三核苷酸重复的动态突变是Huntington病等某些神经肌肉系统疾病的病因。
(2)散在重复序列(interspersed repeated sequence):
是指散布于基因组内的重复序列。依其重复序列的长短可分为短散在核元件(short interspersed nuclear elements,SINEs)和长散在核元件(long interspersed nuclear elements,LINEs)。
SINEs的长度为100~400bp,拷贝数可达106次以上。人基因组中SINEs之间的平均距离为2.2kb,分散于基因内、基因间或基因簇内,甚至内含子中,但未见于编码区外显子内。Alu序列是SINEs的典型代表,由282bp序列构成,因含有限制性内切酶AluⅠ的识别序列AGCT而得名,约有50万~70万拷贝,是人类基因组中含量最丰富的重复序列。Alu序列存在于人和某些灵长类的基因组中,因而可作为人和这些动物基因组的重要标记。
LINEs长度为5000~7000bp,重复拷贝数达102~104次。如KpnⅠ家族可由限制性内切酶KpnⅠ切割,分散于基因组中。这些序列构成转座因子(transposable element),使DNA 可在基因组内由一条染色体转移到另一染色体上,其功能研究具有重要意义。
(三)线粒体基因组的DNA结构
线粒体DNA是独立于细胞核基因组之外的遗传物质,被称为“人类第25号染色体”,位于线粒体细胞器中。细胞中的mtDNA含量取决于该细胞对能量的需求,大部分体细胞含有约500~10 000个mtDNA。mtDNA不与组蛋白结合,是裸露的闭合环状双链DNA分子(图1-3)。根据其转录产物在CsCl中密度的不同分为重链(H链,heavy chain)和轻链(L 链,light chain),外环的H链富含鸟嘌呤G,内环的L链富含胞嘧啶C。双链中有一小段三链的D-loop 7SDNA,是mtDNA复制和转录的起始点。mtDNA全长16 569bp,共有37个基因:13个编码氧化磷酸化酶亚基多肽链的基因、2个编码线粒体核糖体的rRNA基因、22个编码线粒体tRNA的基因。mtDNA基因密度大,结构紧凑(与细菌DNA相似),没有内含子,也不含重复序列。已发现mtDNA的100多种不同的重排和100多种不同的点突变可导致人类疾病,常累及中枢神经系统和肌肉组织。由于线粒体具有母系遗传、复制分离及杂质性等特点,造成这些疾病的遗传表型各异。
图1-3 线粒体基因组DNA的结构
二、基因与基因突变
人类基因组约有2万个蛋白质编码基因、6千多个RNA基因和1.2万个假基因(pseudogene)。这些基因可以是一段有功能的连续DNA序列,也可以位于其他基因的内含子中,或是在同链或不同链DNA上相互重叠而共享的编码序列和(或)调控元件;此外,许多基因的转录是可变剪接的,从而导致相同的基因产生不同的蛋白质分子。RNA基因是非编码蛋白质基因,多数位于蛋白质编码基因之间,其DNA双链均可转录为非编码RNA。目前已知的非编码RNA基因至少有1500多个,其中微RNA(microRNA)基因就有1000多个。在基因间距大的DNA序列中,非编码RNA基因进化高度保守,这些非编码RNA在干细胞多能化、细胞分化及染色质修饰等方面具有重要的调控功能。
(一)基因的基本结构
真核生物(包括人)的编码蛋白质基因与原核生物不同,编码序列不连续,被非编码序列间隔,故真核基因又称割裂基因(split gene)。人类的编码基因主要由外显子、内含子和侧翼序列组成(图 1-4)。
图1-4 真核生物基因结构模式图
1.外显子与内含子
外显子(exon)通常是指基因内的DNA编码序列,而内含子(intron,又称间插序列intervening sequence,IVS)是指基因内的DNA非编码序列。内含子在转录生成成熟mRNA之前被剪切掉,因而mRNA中没有内含子序列。割裂基因的每个外显子与内含子的连接处都有一高度保守的共有序列,为剪接识别信号,即每个内含子5′-端的两个碱基都是GT,3′-端的两个碱基都是AG,这种连接方式称为GT-AG法则(GT-AG rule),是真核生物基因表达时剪切内含子和拼接外显子的共有机制。基因一般由若干个外显子和内含子相间组成,外显子和内含子的长度变化很大。不同基因含有不同数目的外显子和内含子,一般基因越大,外显子越多,在转录时将耗费较多的时间和能量;高表达的基因通常会自然选择短的内含子。杜氏肌营养不良症(Duchenne muscular dystrophy,DMD)基因(其产生的蛋白质称为dystrophin)全长2.5Mb,由79个外显子及相应的内含子组成,cDNA全长约14kb,编码427kDa蛋白,是目前已知的人类最长的基因(图1-5)。DMD基因从开始转录到形成一条完整的mRNA大约需要16小时。
图1-5 DMD基因的结构
2.侧翼序列与调控序列
每个结构基因的5′-端和3′-端两侧都有一段不被转录的DNA序列,它们自身不被转录和翻译,然而对基因的转录及表达具有重要的调控作用,称为侧翼序列(flanking sequence),包括5′-端的启动子、增强子、3′-端的终止子等。一个基因不仅受近端侧翼的调控,还受一些远端调控序列的调控。
(1)启动子:
启动子(promoter)是基因5′-端的一段特异DNA序列,一般位于转录起始点上游-100~-200bp范围。启动子内包含多个顺式作用元件,能与转录因子及DNA聚合酶结合,促进基因转录。
1)TATA框(TATA box):
位于多数真核生物基因5′-端转录起始点上游约-19~-32bp处,由高度保守的一致序列TATAA(T)AA(T)7个碱基组成,其中只有2个碱基可以变化。TATA框能与转录因子TBP(TATA-binding protein)结合,再与RNA聚合酶Ⅱ形成复合物,准确识别转录起始位点,启动基因转录。
2)CAAT 框(CAAT box):
位于转录起始点上游-70~-80bp范围内,由高度保守的一致序列GGC(T)CAATCT 9个碱基组成,其中仅有1个碱基可以变化。CAAT框能与转录因子CBF结合,促进基因转录。
3)GC 框(GC box):
有些基因的启动子区没有TATA框和CAAT框,但富含G和C核苷酸序列,即具有一致序列为GGCGGG的GC框。GC框能与转录因子Sp1结合,促进基因转录。
(2)增强子:
增强子(enhancer)是位于基因 5′-端或 3′-端的短 DNA 序列元件(<20~30bp),能够与特异的转录因子结合,显著增强基因的转录活性。例如,SV40病毒中的增强子可使旁侧的基因转录活性提高100倍。增强子与启动子的区别在于:启动子位于基因的5′-端,起始点相对恒定;而增强子可以位于基因的任何位置,并且其功能与位置和序列方向无关,可以是5′→3′方向,也可以是3′→5′方向。启动子和增强子之间可以形成DNA环,使增强子的结合蛋白质与启动子的结合蛋白质相互作用,增强基因的转录。
(3)沉默子:
沉默子(silencer)是一种使基因转录降低或关闭的负调控元件。它与增强子有许多相似的性质,其功能不受序列方向的影响,能远距离发挥调控作用,并可对异源基因的表达起作用。
(4)终止子:
终止子(terminator)由一段特定序列AATAAA和回文序列组成,AATAAA为多聚腺苷酸(poly A)的附加信号,回文序列为转录终止信号,转录后形成发夹式结构,阻碍RNA聚合酶继续移动,转录终止。
(二)基因表达与调控
基因的功能通过基因表达来实现。基因表达(gene expression)指蕴含在基因DNA序列中的遗传信息通过转录(transcription)生成mRNA,再通过翻译(translation)最终生成蛋白质的过程。转录和翻译是基因表达的两个主要阶段,基因是否表达及表达水平受表达调控的影响。遗传信息从DNA传递给DNA,即完成DNA的复制过程;从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程,这就是所有生物共同遵循的中心法则(central dogma)。然而,某些病毒(如烟草花叶病毒等)的RNA可以自我复制,即遗传信息从RNA传递给RNA;某些病毒(如致癌病毒)还能以RNA为模板反转录成DNA,即遗传信息从RNA传递给DNA;这些都是对中心法则的补充(图1-6)。
图1-6 中心法则图解
1.复制
DNA复制是DNA合成的过程,即以原来的DNA为模板合成新的相同DNA分子,亲代DNA通过复制把储存的遗传信息随着细胞的分裂传递给子代或子细胞,在保持物种的延续以及遗传的稳定性方面发挥重要作用。DNA复制从特定位置开始,称为复制起始点(origin of replication,ori)。真核细胞的DNA复制有许多起始点,同时进行复制;在一个复制起点上进行的DNA复制区段称为一个复制单元或复制子(rep licon)。复制子在复制起始后双向同时展开,在两侧形成复制叉(replication fork),相邻复制叉逐渐汇合相连,复制终止。参与DNA复制的酶有多种,包括 DNA 聚合酶(polymerase)α、β、γ、δ、ε,解旋酶(helicase),拓扑异构酶(topoisomerase),引物酶(primerase),连接酶(ligase),单链结合蛋白(single-stranded binding protein)等,故 DNA 复制的机制非常复杂。DNA复制的主要特点是:
(1)半保留复制:
半保留复制(semi-conservative replication)是指复制过程中,DNA双链被解旋酶分成两条单链,每一条DNA单链指导合成一条互补链,形成两个子代DNA双链。每个子代DNA双链的一条来自亲代DNA,另一条为新合成的DNA,因而复制过程是半保留的(图1-7)。
图1-7 DNA的半保留复制
(2)半不连续复制:
DNA复制过程中,以脱氧三磷酸核苷(dATP、dCTP、dGTP、dTTP,统称为 dNTPs)作为原材料,在 DNA聚合酶的催化下合成新链。因为dNTP只能连接在多核苷酸链3′-端碳原子的羟基上,所以DNA复制是按照5′→3′方向进行的。复制过程从特定的起始点开始,形成“Y”形复制叉,双链同时进行双向复制:一条新链以 3′→5′DNA 链为模板,按 5′→3′方向连续复制,速度较快,复制完成较早,称为前导链;另一条新链以5′→3′DNA链为模板,无法按3′→5′方向连续复制,需先合成约100~1000bp的 DNA片段,称为冈崎片段(Okazaki fragment),DNA连接酶将这些冈崎片段连接起来,形成完整单链,复制完成较晚,称为后随链。只有前导链是连续复制的,后随链是不连续复制的,因而DNA复制是半不连续的(图1-8)。
图1-8 DNA的半不连续复制
2.转录
转录是指基因在启动子和调控序列与转录因子的相互作用下,从转录起始点开始,以DNA双链中的一条链为模板,以ATP、CTP、GTP、UTP为原料,按照碱基互补的方式,由RNA聚合酶催化合成RNA单链的过程。转录过程发生在细胞核中,转录时模板DNA的方向为3′→5′,转录产物RNA的合成方向为5′→3′,RNA的碱基序列与DNA模板链互补,与非模板链相同,只是将胸腺嘧啶T换成了尿嘧啶U。因此,通常把非模板 DNA链称为有义链(sense strand),模板DNA链称为反义链(antisense strand)。
真核细胞基因组中仅一小部分DNA依需要而被转录,转录产物包括编码RNA和非编码RNA。编码RNA即信使RNA(messenger RNA,mRNA),由RNA聚合酶Ⅱ催化合成。非编码RNA包括:核糖体RNA(ribosomal RNA,rRNA),由RNA聚合酶Ⅰ催化合成;转运RNA(transfer RNA,tRNA),由RNA聚合酶Ⅲ催化合成;核内小RNA(small nuclear ribonucleic acid,snRNA),由RNA聚合酶Ⅱ或Ⅲ催化合成;微RNA(miRNA)由RNA聚合酶Ⅱ催化合成。仅mRNA指导翻译成蛋白质,其他RNA不翻译成蛋白质,而是在RNA水平行使各自的生物学功能。成熟的mRNA是原始转录产物经过一系列加工而形成的合成多肽链的模板。加工过程一般包括剪接、加帽和加尾(图 1-9)。
(1)剪接(splice):
原始的mRNA转录产物又称核内异质RNA(heterogenous nuclear RNA,hnRNA),由基因的外显子和内含子转录生成。剪接是在酶的作用下,将hnRNA中的非编码内含子序列切除,各个外显子序列按照特定的顺序拼接起来的过程,是转录加工过程中的最关键步骤。剪接发生在外显子与内含子交接处的GT和AG,剪接起始的GT及相邻保守序列构成剪接供体位点(sp lice donor site),剪接终止的AG及相邻保守序列构成剪接受体位点(splice receptor site)。内含子末端AG上游约40个核苷酸处,有一段保守序列称为分支部位(branch site),该序列构成剪接信号,被细胞核内小核糖核蛋白(small nuclear ribonucleoprotein,snRNP)识别并结合于此处,形成剪接体(splicesome),切除内含子(图1-10)。snRNP由snRNA(snRNAU1、snRNAU2、snRNAU4、snRNAU5和snRNAU6)与特定的蛋白质组成,snRNP 通过 RNA-RNA 碱基配对识别原始RNA转录物,从而实现剪接反应的特异性。
图1-9 mRNA加工图解
图1-10 RNA剪接的机制
(2)加帽(capping):
是指转录时在mRNA转录物的5′-端连接上一个甲基化帽,即7-甲基鸟苷酸帽(图1-11)。加帽封闭了mRNA的5′-端,使该处不能再添加其他核苷酸;同时也保护mRNA转录物的5′-端,避免被磷酸酶和核酸酶消化,增强mRNA的稳定性。此外,加帽还有利于mRNA从细胞核运输到细胞质,有助于mRNA被细胞质中的核糖体小亚基识别。
(3)加尾(tailing):
是指在加帽的同时,mRNA转录物的3′-端在腺苷酸聚合酶催化下附加大约200个腺苷酸的长链,即多聚腺苷酸(poly A)尾,这一过程也称为多腺苷酸化(polyadenylation)。 mRNA 转录物 3′-端非编码区有一段6核苷酸序列AAUAAA,为加尾信号,poly A加在这段序列的下游约15~30bp处(图 1-12)。 poly A的功能包括促进mRNA从细胞核向细胞质转运,避免mRNA被核酸酶降解,增强mRNA分子的稳定性,帮助核糖体识别mRNA。
3.翻译
图1-11 加帽图
图1-12 加尾图
翻译是指mRNA将转录到的遗传信息转译为多肽链的氨基酸序列,最终生成蛋白质的过程,即将mRNA的特定碱基排列顺序转变为多肽链的特定氨基酸排列顺序。翻译发生于细胞质核糖体,故成熟的mRNA需要从细胞核转运到细胞质,指导合成蛋白质多肽链。通常成熟的mRNA中间序列被翻译成氨基酸,而5′-端和3′-端多为第一个和最后一个外显子的序列,其中包含5′-端加帽和 3′-端加尾的序列,不被翻译成氨基酸,称为 5′-端非翻译区(5′-untranslated region,5′-UTR)和 3′-端非翻译区(3′-untranslated region,3′-UTR)。
图1-13 翻译示意图
翻译是在mRNA、tRNA和核糖体三者的协同作用下合成多肽链的过程(图1-13)。核糖体是rRNA和蛋白质组成的复合物,由60S大亚基和40S小亚基构成。40S小亚基识别mRNA 5′-端的“帽子”结构,移动起始密码子AUG;60S大亚基结合40S小亚基,mRNA链横穿于大、小亚基之间。各种tRNA携带特异的氨基酸,tRNA上的反密码子逐一识别mRNA上的互补密码子,精确地将对应的氨基酸添加到不断延长的多肽链上。整个过程依照进位、转肽、移位和脱落等步骤不断重复进行,直至识别到终止密码子(UAA、UAG或UGA),多肽链从核糖体上脱离,合成结束。多个核糖体能以同一条mRNA分子为模板,按不同的进度翻译出多条相同的多肽链。
(1)遗传密码的简并性:
mRNA分子由起始密码子AUG开始,从5′-端到3′-端方向,每3个连续的核苷酸组成一个遗传密码(genetic code),也叫三联体密码(triplet code)或密码子(codon),在mRNA翻译时可被解译成某一种特定氨基酸。核酸分子中有4种碱基,可以组合形成64(43)个密码子,除外三个终止密码子尚有61个编码密码子。而氨基酸只有20种,因而不同的密码子可能编码同一种氨基酸,这种特性称为遗传密码的简并性(degeneracy)(表1-1)。甲硫氨酸与色氨酸仅有一个密码子,亮氨酸、精氨酸和丝氨酸分别有6个密码子,其余氨基酸分别有2~4个密码子不等。mRNA的密码子共有64个,但细胞质中tRNA的反密码子仅有30个,线粒体中tRNA的反密码子仅有22个,因此,关于密码子和反密码子的互补配对存在一个摆动假说(wobble hypothesis),即反密码子前两个碱基遵循A-U和G-C互补配对规律,但第3个碱基可以发生“摆动”出现G-U配对,这样在mRNA翻译过程中tRNA仍然能够有效地转运氨基酸。
表1-1 遗传密码
∗或甲酰甲硫氨酸
(2)翻译后修饰:
翻译后生成的初始多肽链需要进一步加工修饰,才能形成具有一定空间结构和生物活性的蛋白质,这个过程称为翻译后修饰。主要包括氨基端脱甲酰基、氨基端乙酰化、多肽链磷酸化、糖基化以及多肽链切割等,还包括两条以上多肽链之间的连接和进一步折叠,以形成特定的空间构象等。例如,运输到溶酶体、高尔基复合体和浆膜的蛋白或细胞的分泌蛋白都要进行糖基化加工,即在某氨基酸侧链附加寡糖而成为糖蛋白;血浆蛋白、胃蛋白酶、多肽激素、神经多肽以及生长因子等都需要进行多肽链切割后,才能成为有生物活性的产物。所有的分泌型多肽都是先翻译成蛋白质前体,其氨基端的信号肽序列引导蛋白质前体定位于膜上,然后信号肽被切除。还有一些蛋白分子含有其他信号序列,如转录因子、DNA聚合酶和RNA聚合酶等都含有细胞核定位信号,引导蛋白质从细胞质转运入细胞核,从而发挥生物学活性。
4.基因表达的调控
人体的每个体细胞都含有完整的基因组,而实际上特定组织的体细胞中只有部分基因表达,并且不同的基因需要在不同的时期或条件下进行表达。基因的这种差异性表达成就了人体内形态和功能各异的细胞类型(>200种),即细胞类型的区别并非在于所含的基因组不同,而在于基因的表达差异。如果基因在不恰当的时期或条件表达,或表达水平出现异常,均可能导致疾病。因此,认识基因的表达调控,对于探寻人类生命活动的本质以及疾病发生的机制具有重要意义。在大多数细胞中都表达的基因称为持家基因(housekeeping gene),如核糖体、染色体、细胞骨架的相关蛋白基因,约占基因总数的20%。基因表达的调控涉及以下几个因素:①基因转录成RNA的速率;②RNA的加工;③mRNA的稳定性和降解速率;④mRNA翻译为蛋白质的速率;⑤蛋白质翻译后的修饰;⑥蛋白质的稳定性和降解速率。
(1)基因的转录调控:
真核细胞的基因启动子中有一些保守序列,能够与转录因子特异性结合,调控基因的转录,这些保守的调控序列称为顺式作用元件(cis-acting element)。 除了启动子区的TATA框、CAAT框、GC框外,其他顺式作用元件包括糖皮质激素应答元件(glucocorticoid response element,GRE)、雄激素应答元件(androgen response element,ARE)、血清应答元件(serum response element,SRE)、热激元件(heat shock element,HSE)等。与顺式作用元件相作用的转录因子又称反式作用因子(trans-acting factor)。“trans”意味着转录因子转移到它们作用的位置,是相对于“cis”而言。现已发现许多不同的转录因子不仅与DNA靶序列相互作用,而且它们之间也有相互作用。只有少数转录因子能直接结合DNA序列,多数转录因子是通过蛋白质-蛋白质之间的相互作用形成复合体,再与DNA序列相互作用,从而实现基因的转录调控。转录因子与DNA顺式作用元件特异性结合的部位存在一些相似的结构域基序,分为4种类型,最常见的是螺旋-转角-螺旋(helix-turn-helix),由一个氨基酸短链连接2个α螺旋结构构成,其余3种分别为锌指蛋白(zinc finger)、亮氨酸拉链(leucine zipper)和螺旋-环-螺旋(helix-loop-helix)。
(2)转录后调控:
转录后调控主要发生于RNA的加工和运输、mRNA的翻译和降解等环节。真核基因转录产生的原始mRNA转录物并不只按一种方式剪接产生成熟mRNA分子,有些基因的原始mRNA转录物可以通过不同的剪接方式产生不同类型的mRNA剪接异构体,称为可变剪接(alternative splicing)。调控剪接的主要因子是RNA结合蛋白的SR家族(C端含丝氨酸和精氨酸)和一些snRNP蛋白,它们能促进剪接体装配的每一环节结合于剪接增强子序列。不同的剪接异构体可以翻译合成不同的异构蛋白,如组织特异性异构蛋白、可溶性及膜结合异构蛋白等。可变剪接使一个基因编码生成多个不同转录产物和蛋白产物,是调控基因表达和产生蛋白质组多样性的重要机制,也是人类基因数量和蛋白质数量存在较大差异的重要原因。
真核生物许多基因3′-UTR可以有一个以上的多聚腺苷酸信号,能在不同的组织细胞中产生具有不同多腺苷酸化的mRNA转录物。不同多腺苷酸化的转录物呈现明显的组织特异性,如降钙素(calcitonin)基因在甲状腺组织表达为降钙素,是参与调节循环钙离子稳定的重要激素;而在下丘脑组织中却表达为降钙素相关肽(calcitonin gene-related peptide),具有神经调节和营养活性。
(3)microRNA的调控:
microRNA是RNA介导的基因表达调控因子。基因组中的编码基因经RNA聚合酶Ⅱ转录为长约1kb的前体分子pre-miRNA,在细胞核中被核酸内切酶RNaseⅢ-Drosha和双链RNA结合蛋白Pasha处理成约70bp大小的茎环状pre-miRNA,随后在细胞质中经RNaseⅢ结构域蛋白Dicer作用,剪切产生约18~24bp的成熟microRNA双链。microRNA可以与靶基因mRNA的3′-UTR、5′-UTR或内含子序列完全或不完全互补结合,降解mRNA,抑制或激活翻译,起到调控基因表达的作用。
(4)组蛋白翻译后修饰:
组蛋白翻译后修饰(post-translational modification,PTM)是一系列酶复合物催化完成的对组蛋白氨基酸残基的共价修饰,包括组蛋白乙酰化、甲基化、磷酸化、泛素化、SUMO化等。组蛋白乙酰化(histone acetylation)程度是影响基因转录表达的重要因素。组蛋白乙酰化是指组蛋白N-端的赖氨酸在组蛋白乙酰转移酶作用下加上乙酰基,形成一个突出于核小体外的尾巴,使组蛋白对DNA的亲和力降低,致使染色质结构开放,易于基因表达。相反,组蛋白去乙酰化则抑制基因的转录。组蛋白甲基化(histone methylation)修饰是在组蛋白甲基化转移酶催化下使组蛋白的赖氨酸、精氨酸或组氨酸位点发生甲基化。组蛋白甲基化对转录调控的影响可以为正调控,也可以为负调控,其中H3K4、H3K36与H3K79的甲基化可以促进转录,H3K9、H3K27和H4K20的甲基化则可以发挥转录抑制作用。
(5)DNA甲基化:
DNA甲基化(DNA methylation)是在DNA甲基转移酶的催化下,由S-腺苷甲硫氨酸(SAM)作为甲基供体,CpG位点的胞嘧啶5′-碳原子被加上甲基基团形成5-甲基胞嘧啶(5m C)。DNA甲基化程度与基因的转录调控有关。一方面,由于CpG岛在真核基因启动子区域存在的普遍性,甲基化的5m C占位阻碍转录激活因子与启动子的结合;另一方面,CpG岛的甲基化为一些甲基化依赖的转录因子如MBD家族、MECP家族或其他抑制因子(如YY1)提供了可能的结合位点,导致基因表达受到抑制。DNA甲基化可以通过改变染色质结构、降低RNA聚合酶活性而抑制基因的表达。
(三)基因突变
所有生物体的基因组既要维持遗传学相对稳定性,又要有所变化。如果基因组的DNA一成不变,就不会有进化。基因突变(gene mutation)是指在DNA分子水平上遗传物质发生改变。自然界中DNA受到物理、化学及生物学因素的作用发生损伤,修复过程中出现错误导致自发突变(spontaneous mutation)。诱发突变(induced mutation)则是指在人为干涉下引起的基因突变。基因突变是生物界普遍存在的遗传事件之一,但突变的频率一般很低,高等生物的自发突变率约为每代每位点1×10-10~1×10-5/配子,即每10万~100亿个配子中可能发生一次突变,人类的突变频率约为每代每位点1×10-6/配子。突变不仅发生于生殖细胞,也可发生于体细胞。发生于生殖细胞的突变能够传递给后代个体,称为种系突变(germline mutation)。
基因突变是生物遗传变异的主要来源,突变产生的性状是进化过程中自然选择的对象,可以说突变是进化的原材料,选择是进化的动力。大多数基因突变是有害且不利于生存的,造成了群体的遗传负荷,也是导致各种遗传病和常见病的病因。
突变既包括发生在细胞水平上染色体数目、组成及结构的异常,即染色体畸变(chromosome aberration),也包括发生在分子水平上DNA碱基对组成与序列的变化。突变可以发生于编码序列,也可发生在启动子、内含子和剪切位点等非编码序列。突变类型如图1-14所示。
1.点突变
点突变(point mutation)是DNA单个碱基或碱基对的改变,为最常见的突变。包括两种类型:一是不同嘌呤间或嘧啶间的相互置换,称为转换(transition);另一种是嘌呤与嘧啶间的相互置换,称为颠换(transversion)。碱基替换如果发生在基因外DNA序列中,一般不会产生异常;如果发生于基因调控区转录因子的顺式作用元件中,可能引起基因表达水平的改变;如果发生在基因的编码区,则可能改变转录和翻译的产物。点突变分为以下3种突变:
(1)同义突变(same-sense mutation):
由于遗传密码子存在简并性,碱基置换后密码子虽然发生改变,但所编码的氨基酸没有改变。同义突变常发生在三联密码子的第3个碱基,如密码子GCA、GCG、GCC和GCU均编码丙氨酸,它们的第3个碱基发生的突变就是同义突变,并不产生遗传表型突变效应。
(2)错义突变(missense mutation):
碱基置换后编码某个氨基酸的密码子变成另一种氨基酸的密码子,从而改变多肽链的氨基酸序列,影响蛋白质的功能。错义突变常发生在三联密码子的第1和第2个碱基,因而导致许多分子病和代谢病。例如,DNA分子TCA的T突变为G,使mRNA密码子UCA变成了GCA,编码的氨基酸由丝氨酸变成了丙氨酸,从而影响蛋白质活性。
(3)无义突变(non-sense mutation):
碱基置换后使原本编码氨基酸的密码子变成不编码任何氨基酸的终止密码子(UAG、UAA或UGA),使得多肽链的合成提前终止,肽链长度变短而成为无活性的截短蛋白。例如,β-珠蛋白基因第145个密码子TAT突变成TAA,使mRNA密码子变成UAA终止密码,翻译提前终止,生成缩短的β-珠蛋白链,构成异常血红蛋白Hb Mckees Rocks。
图1-14 基因突变的类型
(4)终止密码子突变(terminator codonmutation):
与无义突变相反,碱基替换后使某一终止密码子变成具有氨基酸编码功能的遗传密码子,使本应终止延伸的多肽链合成异常地持续进行。终止密码子突变会使多肽链长度延长,其结果也必然形成功能异常的蛋白质结构分子。
2.移码突变
移码突变(frame-shift mutation)是由于编码序列中插入(insertion)或缺失(deletion)一个或几个碱基,使得插入或缺失点下游的三联密码子组合发生改变,造成突变点以后的全部氨基酸序列发生改变。移码突变引起蛋白质多肽链中的氨基酸组成和顺序发生多种变化,且都没有生物学活性。例如,α-珠蛋白基因第138密码子TCC中C缺失,使得突变位点之后的密码子全部发生改变,生成的α-珠蛋白链从第138位氨基酸之后的序列异常,且氨基酸长度从141延长到147个,构成异常血红蛋白Hb W。
3.动态突变
某些单基因遗传性状的异常或疾病的发生,是由于DNA分子中某些短串联重复序列,尤其是基因编码序列或侧翼序列的三核苷酸重复扩增所引起。三核苷酸重复的次数可随着世代的传递而呈现逐代递增的累加突变效应,因而被称为动态突变(dynamic mutation)。已知的动态突变性疾病已超过30余种,如Huntington病、脆性X综合征、脊髓小脑共济失调、强直性肌营养不良等。
三、染色体与染色体畸变
染色体(chromosome)是遗传物质的载体,由DNA和蛋白质等构成,具有储存和传递遗传信息的作用。真核细胞的基因大部分存在于染色体上,基因在细胞分裂过程中随着染色体的分离而传递,从母细胞传给子细胞、从亲代传给子代。不同物种的染色体其数目、形态、大小各具特征,而同一物种的染色体形态结构和数目是恒定的,故染色体的数目和形态可以作为物种的标志。如果染色体发生数目或结构的异常,将会引起许多基因的缺失或重复,因而染色体病常表现为多种异常或畸形的综合征,又称为染色体综合征。
(一)人类染色体的基本特征
1.染色质和染色体
人类染色体在不同的细胞周期执行不同的生理功能时展现出不同的存在形式,即染色质(chromatin)和染色体。染色质是细胞间期核内松散、伸展的DNA蛋白质纤维,而染色体则是细胞分裂期核内结构紧密盘绕折叠的DNA蛋白质纤维。在细胞从间期到分裂期的过程中,染色质通过螺旋化凝缩(condensation)成为染色体,而在细胞从分裂期到间期的过程中,染色体又解螺旋舒展成为染色质。
(1)染色质:
电镜下染色质呈现串珠样结构,串珠间由细丝连接,每一个珠体与其旁边的珠间丝构成一个核小体(nucleosome),核小体是染色质的基本结构单位。间期细胞核内染色质根据其所含的核蛋白分子螺旋化程度以及功能状态的不同,分为常染色质(euchromatin)和异染色质(heterochromatin)(表 1-2)。
表1-2 常染色质与异染色质的特性比较
常染色质在细胞间期核内螺旋化程度低,呈松散状态,碱性染料着色较浅而均匀,含有的DNA为单一或重复序列,具有转录活性,多位于细胞核的中央部位。异染色质在细胞间期核内螺旋化程度较高,呈凝集状态,碱性染料着色较深,其内DNA为重复序列,复制较晚,且少有或无转录活性,是不活跃的染色质,多分布在核膜内表面。异染色质又分为2种:一种为组成性异染色质(constitutive heterochromatin),是异染色质的主要类型,其在各种细胞及细胞周期的不同阶段总是处于凝缩状态(正异固缩),含有高度重复的DNA序列,没有转录活性,常见于染色体的着丝粒区、端粒区、次缢痕,以及Y染色体长臂远端2/3区段等;另一种为兼性异染色质(facultative heterochromatin),是由常染色质在特定细胞或一定发育阶段凝缩转变形成的异染色质。浓缩状态时基因失去了活性,无转录功能,而恢复到松散状态时,又转变为常染色质,具有转录活性(负异固缩)。
X染色质是一种兼性异染色质,位于正常女性间期细胞核中紧贴核膜内缘,直径约为1μm的深染椭圆形小体,又称X小体(Bar小体)。Y染色质是组成性异染色质,正常男性间期细胞用荧光染料染色后,在细胞核内可出现一强荧光小体,直径为0.3μm左右,又称为Y小体。
(2)染色体:
染色体由染色质经过多级螺旋包装形成的。因此,核小体是染色质和染色体的基本结构单位。核小体由核心颗粒(core particle)和连接区(linker)两部分组成,其核心颗粒是由4种组蛋白(H2A、H 2B、H 3、H4各2个分子)组成的八聚体以及缠绕在八聚体表面的DNA双螺旋所构成,直径约11nm。缠绕核心颗粒的DNA长约146bp,约缠绕了1圈,称为核心DNA,两个核心颗粒之间连接区的DNA约长60bp,组蛋白H1位于连接区DNA的表面。无数个核小体通过一条DNA链串联起来,形成串珠状的纤维,是染色体的一级结构;串珠状纤维进一步螺旋化形成螺线管(solenoid),是染色体的二级结构;螺线管进一步螺旋化形成超螺线管(super solenoid),是染色体的三级结构;由超螺线管再进一步缠绕和折叠形成了有丝分裂中期的染色体,是染色体的四级结构。经过这样几级包装,染色体的DNA从几厘米压缩到几微米,其长度约缩小为原来的万分之一(图1-15)。
图1-15 染色质包装成染色体
2.染色体的形态特征和命名
真核生物的一个正常生殖细胞(配子)中所含的全套染色体称为一个染色体组,含有一个染色体组的细胞称为单倍体(haploid),以n表示;含有两个染色体组的细胞称为二倍体(diploid),以2n表示。人类正常生殖细胞(精子或卵子)中的染色体数为23条,即n=23条;而正常体细胞中的染色体数目是46条,即2n=46。染色体数目是恒定的,其形态特征也相对稳定,因而人类细胞遗传学命名的国际体制(An International System for Human Cytogenetics Nomenclature,ISCN)确定了一个统一识别和描述人类染色体的标准。
(1)染色体形态特征:
在细胞有丝分裂中期,人类染色体的形态最典型、最易辨认、最好区别,是分析染色体的最好阶段。因此,体外培养细胞包括外周血淋巴细胞、骨髓细胞、胎儿绒毛标本、羊水胎儿细胞等标本,经过秋水仙素对纺锤丝蛋白合成的抑制作用,使细胞分裂停止在中期,达到细胞分裂同步化。获得大量分裂中期细胞后,进行低渗液处理,使细胞体积膨大,染色体松散;再经固定液固定处理后滴片,并用Giemsa染料染色,得到非显带中期染色体标本。每一中期染色体都具有两条染色单体(chromatid),互称姐妹染色单体,它们均含有完整的DNA双螺旋链。两条单体之间由着丝粒(centromere)相连接,着丝粒处的缩窄部分称为主缢痕(primary constriction)。着丝粒是纺锤体附着的部位,在细胞分裂中与染色体的运动密切相关,失去着丝粒的染色体片段通常不能在分裂后期向两极移动而丢失。着丝粒将染色体划分为短臂(p)和长臂(q)两部分。在短臂和长臂的末端有端粒(telomere),能维持染色体形态结构的稳定性和完整性。在某些染色体的长、短臂上还可见缩窄部分为次缢痕(secondary constriction)。人类近端着丝粒染色体的短臂末端有一球状结构为随体(satellite),随体柄部为缩窄的次缢痕。
(2)非显带染色体核型:
核型(karyotype)是指一个体细胞中的全部染色体,按其大小、形态特征顺序排列所成的图像。人类中期染色体根据着丝粒位置可以分为中着丝粒染色体(metacentric chromosome)、近中着丝粒染色体(submetacentric chromosome)和近端着丝粒染色体(acrocentric chromosome)。ISCN将有丝分裂中期染色体按照长度和着丝粒位置分为23对、7个组,其中第1~22对为常染色体(autosome),是男性和女性共有的22对染色体;其余一对随男、女性别而异,为性染色体(sex chromosome),女性为XX,男性为XY。 正常女性的核型描述为:46,XX;正常男性的核型描述为:46,XY(图1-16和表1-3)。
图1-16 正常男性核型模式图(非显带标本)
表1-3 人类染色体分组及形态特征(非显带标本)
(3)显带染色体核型:
染色体显带(chromosome banding)是染色体标本经过一定程序处理后,用特定染料染色,使染色体显现明暗或深浅相间的横行带纹;不同染色体显现出不同带纹,从而构成染色体的带型(banding pattern)。一般认为,易着色的阳性带为富含A-T的染色体节段;相反不易着色的阴性带为富含G-C的染色体节段。染色体显带技术主要有G显带、C显带、Q显带、R显带、T显带和N显带(详见“第二章遗传病诊断基本技术”)。ISCN将每条显带染色体划分为若干个区,每个区(region)又包括若干条带(band)甚至亚带。每一条染色体都以着丝粒为界标,分成短臂(p)和长臂(q)。区的序号从着丝粒为起点,分别向长臂和短臂由近向远依次为1区、2区等;作为界标的带属于以远的区,为该区1带;被着丝粒一分为二的带,分别归属于长臂和短臂,分别标记为长臂的1区1带和短臂的1区1带(图1-17)。描述某一染色体带时需要写明以下4个内容:①染色体序号;②臂的符号;③区的序号;④带的序号及亚带的序号。例如:1p31表示第1号染色体、短臂、3区、1带;2q31.2表示第2号染色体、长臂、3区、1带、2亚带。表1-4为ISCN制定的统一命名符号和术语。
图1-17 显带染色体的界标、区和带示意图
(二)染色体数目异常
染色体数目的恒定对于维持物种的稳定性具有重要意义,染色体数目是物种鉴定的重要标志之一。例如,正常人体细胞中染色体数目为46,小鼠为40,果蝇为8。如果人类某一条染色体数目发生增加或减少(非整倍体改变),或染色体组的成倍增减(整倍体改变),都属于染色体数目异常。
1.整倍体
染色体的数目变化是单倍体(n)的整数倍,即以n为基数成倍地增加或减少,称为整倍体(euploid)。超过二倍体的整倍体称为多倍体(polyploid)。例如,在2n的基础上如果增加一个染色体组(n),则染色体数为3n,即为三倍体(triploid);若增加2个n,则染色体数为4n,即四倍体(tetraploid);若减少一个 n,则称为单倍体(haploid)。
在自发流产的胎儿中,染色体畸变者占42%。其中三倍体占18%,四倍体占5%,可见3n是流产胎儿中常见的类型。只有极少数3n的个体能存活到出生,存活者多为2n/3n的嵌合体。一般认为,3n胎儿引发流产的原因是在胚胎发育过程中,细胞有丝分裂时会形成三极纺锤体,造成染色体在细胞分裂中、后期的分布和分配紊乱,最终导致子细胞中染色体数目异常,严重干扰胚胎的正常发育而引起流产。4n比3n更为罕见,多发生在流产的胚胎中,且往往是4n/2n嵌合体。
表1-4 核型分析中常用符号和术语
整倍体畸变的机制主要包括双雌受精、双雄受精、核内复制和核内有丝分裂;3n形成的主要原因是双雄受精或双雌受精;4n形成的主要原因是核内复制或核内有丝分裂。
(1)双雄受精(dispermy):
是指一个正常的卵子同时与两个正常的精子结合。每个正常精子都具有一个染色体组,故当2个精子同时与1个正常卵子结合时,将2个染色体组同时带入这一卵细胞,形成的合子就含有3个染色体组(3n),可产生69,XXX、69,XXY和69,XYY三种类型的受精卵(图1-18)。
图1-18 双雌受精与双雄受精
(2)双雌受精(digyny):
是指一个二倍体的异常卵子与一个正常的精子发生受精,从而形成一个3n的合子。异常的2n卵细胞的产生多为卵细胞在第二次减数分裂过程中,由于某种原因使次级卵母细胞未形成第二极体,故应分裂到第二极体中的染色体组仍然保留在卵细胞中。当它与1个正常的精子结合后,就会产生含有3个染色体组的合子(3n),可产生69,XXX或69,XXY两种核型的受精卵(图1-18)。
(3)核内复制(endoredup lication):
是指在一次细胞分裂过程中,DNA连续复制了两次,而细胞只分裂了一次,由此形成的两个子细胞都是四倍体。核内复制引发4n是肿瘤细胞常见的染色体异常特征之一。
(4)核内有丝分裂(endomitosis):
是指在细胞分裂过程中,染色体正常复制了一次,但至分裂中期时核膜仍未破裂和消失,也无纺锤体的形成,细胞分裂未能进入后期和末期,最终未能实现细胞质的分裂,致使细胞内含有4个染色体组,产生4n。
2.非整倍体
如果一个体细胞的染色体数目增加或减少了一条或数条,这种细胞或个体称为非整倍体(aneuploid),是临床上最常见的染色体异常类型。非整倍体可分为亚二倍体(hypodiploid)以及超二倍体(hyperdiploid)。
(1)亚二倍体:
是指体细胞中染色体数目少了一条或数条,即在正常2n的基础上,减少了一条或几条染色体,可写作2n-m(其中m<n)。人体若某对染色体少了一条,细胞染色体数目为45,即构成单体(monosomy)。临床常见的单体是X染色体的单体综合征,即女性性腺发育不全(Turner综合征),核型为45,X。缺少一条X染色体,胚胎绝大多数在胚胎期流产,只有少数可存活,但会有性腺/外生殖器不发育、无生殖细胞形成、副性征不发育等临床症状,并且合并身材矮小、蹼颈、肘外翻等畸形。对于常染色体而言,整条染色体的丢失会造成基因组的严重失衡,即使是最小的21号和22号染色体单体也难以存活。
(2)超二倍体:
是指体细胞中染色体数目多了一条或数条,即在正常2n的基础上,增加了一条或几条染色体,可写作2n+m(其中m<n)。人体若某对染色体多了一条,细胞内染色体数目为47,即构成三体(trisomy),是人类染色体数目异常中最常见、种类最多的一类畸变。目前,除了第17号染色体尚未见三体病例报道外,其余的染色体三体均有报道,因而增加一条染色体的危害似乎要轻于丢失一条染色体。染色体的增加,特别是较大染色体的增加,也会造成关键基因的剂量失衡而破坏或干扰胚胎的正常发育,故绝大部分常染色体三体只见于早期流产的胚胎或胎儿,少数病例可存活至出生,但多数寿命不长并伴有各种严重畸形。性染色体三体则与常染色体相比有更高的“耐受性”,如X-三体(47,XXX)的女性外观基本正常,生殖器官及生育能力也大多正常,部分患者可能表现出月经失调或闭经。但对于男性,无论是增加X染色体还是Y染色体都可能影响睾丸的发育,引起性征、体格和性格的改变。
体细胞中染色体增加一条以上,即三体以上的非整倍性改变统称为多体(polysomy),如四体、五体等。 多体常发生于性染色体,如 48,XXXX、48,XXXY、48,XXYY、49,XXXXX、49,XXXYY等。若体细胞中一对同源染色体同时发生缺失,即减少了一对同源染色体(2n-2),称为缺体(nullosomy),通常不能存活。
(3)嵌合体和假二倍体:
同一个体内存在两种或以上核型的细胞,这样的个体称为嵌合体(mosaic)。 例如,46,XX/47,XXY、45,X/46,XX 等。 嵌合体可以是数目异常之间的嵌合,或结构异常之间的嵌合,或数目和结构异常之间的嵌合。如果体细胞中有的染色体数目增加,有的染色体数目减少,并且增加和减少的染色体数目相等,此时虽然染色体总数仍然是2n(46条),但并不是正常的二倍体核型,这样的个体称为假二倍体(pseudodiploid)。
(4)非整倍体产生的机制:
多数是由于在生殖细胞成熟过程或受精卵早期卵裂过程中,发生了染色体不分离或染色体丢失。
1)染色体不分离(nondisjunction):
在细胞分裂中、后期时,如果某一对同源染色体或姐妹染色单体没有彼此分离而同时进入一个子细胞,则所形成的两个子细胞中,一个因染色体数目增多而成为超二倍体,另一个则因染色体数目减少而成为亚二倍体,这种现象称为染色体不分离。染色体不分离可以发生于细胞增殖的有丝分裂过程,也可以发生于配子形成的减数分裂过程。
有丝分裂不分离(图1-19):在受精卵卵裂早期有丝分裂时发生某一染色体的姐妹染色单体不分离,可产生由2种或3种细胞系组成的嵌合体。嵌合体的类型和比例取决于染色体不分离发生的早晚:不分离发生于初次卵裂,则形成具有两种不同核型细胞的嵌合体(47/45),两者各占50%;不分离发生于第二次卵裂及以后,可形成具有3种不同核型细胞的嵌合体(46/47/45)。不分离发生得越晚,正常2n核型细胞的比例越大,临床症状也相对越轻。此外,亚二倍体(45)细胞由于缺少一条染色体,尤其是常染色体,导致生存能力下降而被淘汰。因此,临床上多见常染色体46/47型嵌合体,46/47/45则较为罕见,而性染色体各种嵌合体核型都可能出现,如45,X/46,XX/47,XXX、45,X/46,XY/47,XXY 等。
图1-19 有丝分裂染色体不分离
减数分裂不分离(图1-20):在配子第一次减数分裂时,如果某一对同源染色体发生不分离而同时进入一个子细胞核,那么所形成的配子中,1/2有24条染色体(n+1),1/2有22条(n-1),与正常配子受精后分别形成超二倍体或亚二倍体。如果在第二次减数分裂时发生染色体不分离,则形成的配子中1/2为正常n,1/4为(n+1),1/4为(n-1),正常受精后分别产生正常二倍体、超二倍体和亚二倍体。临床上的减数分裂期染色体不分离多发生于第一次减数分裂后期,正常2n夫妇其中一方在形成生殖细胞时染色体发生不分离,受精后亚二倍体胚胎多不能存活,出生的后代一般为三体。
图1-20 减数分裂染色体不分离
2)染色体丢失(chromosome loss):
又称染色体分裂后期延滞(anaphase lag),是指在细胞有丝分裂过程中,某一染色体的着丝粒未与纺锤丝相连,不能移向两极,或发生移动迟缓,滞留在细胞质中分解消失,最终形成的新细胞丢失该条染色体而成为亚二倍体。染色体丢失也是嵌合体形成的一种方式,是部分病例仅有两种不同核型细胞,如46,XX/45,X或46,XY/45,X,而无三种细胞并存的原因。
(三)染色体结构异常
染色体结构畸变(structural aberration)又称染色体重排(chromosomal rearrangement),是指在物理、化学、生物学和遗传学因素等多种因素的作用下,染色体发生断裂,断裂片段未在原位重接,而是移动位置与其他片段相接或丢失,即异常重接(rejoin),造成基因数目、位置或顺序发生改变。染色体重排后导致缺失、重复、易位、倒位、环状染色体、等臂染色体以及双着丝粒染色体等染色体结构畸变。按照ISCN的统一规定,染色体结构畸变的核型描述方法有简式和详式两种:简式核型描述为染色体总数、性染色体组成、缩写字母表示的异常类型(见表1-4),并在第一个括弧内写明染色体序号,第二个括弧内写明断裂点发生的臂、区、带号;详式与简式不同之处在于第二个括弧中不是仅描述断裂点,而是描述重排染色体带的组成。常见染色体结构畸变的类型如下:
1.缺失(deletion)
是指染色体片段发生丢失,使得位于这个片段内的基因也随之发生丢失。可根据染色体断裂点的数目和位置分为末端缺失(terminal deletion)和中间缺失(interstitial deletion)两类。
(1)末端缺失:
指染色体臂发生断裂后未能重接,无着丝粒的片段不能与纺锤丝相连,在细胞分裂后期未能移向两极而发生丢失。如图1-21A所示,1号染色体长臂2区1带发生断裂,其远端片段(q21→qter)丢失,残余的染色体由短臂末端至长臂2区1带构成,染色体末端丢失造成了部分单体(partial monosomy)。 该例结构畸变的简式为:46,XX(XY),del(1)(q21);详式为:46,XX(XY),del(1)(pter→q21:)。
(2)中间缺失:
指一条染色体的同一臂内发生两次断裂,两个断点之间的无着丝粒片段丢失,两个断端重接。如图1-21B所示,3号染色体长臂q21和q25发生两处断裂,中间片段丢失,两端片段重接。 该例结构畸变的简式为:46,XX(XY),del(3)(q21q25);详式为:46,XX(XY),del(3)(pter→q21::q25→qter)。
图1-21 染色体末端缺失(A)与中间缺失(B)
2.重复(duplication)
染色体上部分片段增加了一份以上,使得这些片段内的基因随之增加了一份或几份。可分为顺接重复、反接重复以及同臂重复、异臂重复等(图1-22)。重复发生的原因包括同源染色体之间的不等交换、染色单体之间的不等交换、染色体片段的插入等。
图1-22 染色体重复
3.倒位(inversion)
同一染色体发生两次断裂,两断点之间的片段旋转180°后重接,造成染色体上基因的顺序发生重排。染色体的倒位可根据断裂点发生在同一臂内或两臂之间,分为臂内倒位(paracentric inversion)和臂间倒位(pericentric inversion)。
(1)臂内倒位:
指同一臂内(长臂或短臂)发生两次断裂,中间片段旋转180°后重接。如图1-23A所示,1号染色体短臂p22和p34同时发生断裂,中间片段倒转后重接,形成一条臂内倒位的 1 号染色体。 该例结构畸变的简式为:46,XX(XY),inv(1)(p22p34);详式为:46,XX(XY),inv(1)(pter→p34::p22→p34::p22→qter)。
(2)臂间倒位:
指一条染色体的长臂和短臂各发生一次断裂,中间片段旋转180°后重接。如图1-23B所示,4号染色体的短臂p15和长臂q21同时发生断裂,中间片段倒转后重接,形成一条臂间倒位的4号染色体。该例结构畸变的简式为:46,XX(XY),inv(4)(p15q21);详式为:46,XX(XY),inv(4)(pter→p15::q21→p15::q21→qter)。
倒位染色体在减数分裂同源染色体联会时,如倒位片段很小,倒位片段可能不发生配对,其余区段配对正常;如倒位片段很长,倒位的染色体可能和正常的染色体配对,形成一个倒位环(inversion loop),产生4种类型的配子,一种为正常的,一种为倒位的,另两种则存在部分缺失和重复形成异常胚胎。
4.易位(translocation)
一条染色体的断裂片段重接到另一条非同源染色体的臂上,称为易位。易位是最常见的结构畸变,包括相互易位(reciprocal translocation)、罗伯逊易位(Robertsonian translocation,罗氏易位)等。
图1-23 染色体臂内倒位(A)与臂间倒位(B)
(1)相互易位:
两条染色体分别发生断裂,断裂片段相互交换位置后重接,形成两条衍生染色体(derivation chromosome)。若相互易位仅改变染色体的位置,而染色体片段并无增加或减少,称为平衡易位(balanced translocation)。平衡易位的携带者虽然外观正常,但易位的染色体在减数分裂同源染色体联会时会形成四射体,形成18种配子,仅一种是正常的,一种是平衡易位的,其余16种都是不平衡的,因而大部分胚胎都将因为(部分)单体或(部分)三体而导致流产、死胎或畸形儿。如图1-24所示,2号染色体长臂q21和5号染色体长臂q31同时发生断裂,两个断裂片断交换位置后重接,分别形成衍生的2号和5号染色体,即der(2)和der(5)。该例结构畸变的简式为:46,XX(XY),t(2;5)(q21;q31);详式为:46,XX(XY),t(2;5)(2pter→2q21::5q31→5qter;5pter→5q31::2q21→2qter)。
图1-24 染色体相互易位
(2)罗伯逊易位:
又称着丝粒融合(centric fusion),是发生于近端着丝粒染色体之间的一种易位。两个近端着丝粒染色体在着丝粒部位或附近发生断裂,两者的长臂在着丝粒处重接,形成一条由长臂组成的衍生染色体,短臂形成的小染色体由于缺乏着丝粒或完全由异染色质构成,往往于第二次分裂时丢失。由长臂构成的染色体几乎包含了两条染色体的全部基因,因而罗氏易位携带者虽然仅有45条染色体,其表型一般正常,只是在配子形成时才会出现异常,造成流产或死胎等。如图1-25所示,14号染色体长臂q11和21号染色体的短臂p11同时发生断裂,两条长臂在着丝粒部位融合连接,形成的衍生染色体包含了21号染色体的21p11→qter节段和14号染色体的14q11→qter节段,短臂部分丢失。该例结构畸变的简式为:45,XX(XY),-14,-21,+t(14;21)(q11;p11);详式为:45,XX(XY),-14,-21,+t(14;21)(14qter→14q11::21p11→21qter)。
(3)复杂易位:
是指断裂和重接涉及三条以上的染色体,常形成数条衍生染色体。
5.环状染色体(ring chromosome)
一条染色体的长臂和短臂同时发生断裂,含有着丝粒的中间片段两断端发生重接,形成环状染色体。如图1-26所示,2号染色体的p21和q31分别发生断裂,断点远端的两个末端片段丢失,含有着丝粒的中间片段两断端相接形成环状 2 号染色体。 该例结构畸变的简式为:46,XX(XY),r(2)(p21q31);详式为:46,XX(XY),r(2)(p21→q31)。
图1-25 罗氏易位
图1-26 环状染色体
6.双着丝粒染色体(dicentric chromosome)
两条染色体同时发生一次末端缺失后,两个具有着丝粒的片段断端重接,形成一条双着丝粒染色体。如果该染色体在细胞分裂时被纺锤丝拉向相反的两极,则会形成染色体桥(chromosome bridge),发生染色体断裂或者阻碍两个子细胞分裂而产生四倍体。如图1-27所示,6号染色体的q22和11号染色体的p15分别发生了断裂,两个具有着丝粒的片段断端相互连接,形成了一条衍生的双着丝粒染色体。该例结构畸变的简式为:46,XX,dic(6;11)(q22;p15);详式为:46,XX,dic(6;11)(6pter→6q22::11p15→11qter)。
图1-27 双着丝粒染色体
7.等臂染色体(isochromosome)
是指一条染色体的两臂在形态和遗传结构上完全相同。等臂染色体的产生一般是由于细胞分裂时,连接两条姐妹染色单体的着丝粒未发生正常的纵裂,而是发生了异常横裂,则长臂和短臂各自形成一条等臂染色体,即形成了一条具有两个长臂和一条具有两个短臂的等臂染色体。如图1-28所示,具有两个长臂的等臂X染色体的简式为:46,X,i(Xq);详式为:46,X,i(X)(qter→cen→qter);具有两个短臂的等臂X染色体的简式为:46,X,i(Xp);详式为:46,X,i(X)(pter→cen→pter)。
8.插入(insertion)
一条染色体发生两处断裂,另一条染色体发生一处断裂,前者的断裂片段插入到后者断裂点位置形成衍生染色体,前者的两个断端重接形成中间缺失的染色体。插入实际上也是一种涉及两条染色体三次断裂的易位。插入可以是正向插入(图1-29A),即插入片段在新的位置上保持原来的带序;也可以是反向插入,即倒转了180°后插入(图1-29B)。
9.标记染色体(marker chromosome)
是指形态上可辨认,但又无法确定其来源或特征的染色体,用mar简示。若该染色体仅部分可由显带识别,则其无法识别部分用“?”表示。
图1-28 等臂染色体
图1-29 正向插入(A)与反向插入(B)
(四)X染色体失活假说
正常女性的间期细胞核中紧贴核膜内缘有一个染色较深,大小约为1μm的椭圆形小体,即X染色质(X chromatin)或X小体(图1-30)。1961年,Lyon根据X染色质的特征和性畸形病例的观察,提出了X染色体失活假说(Lyon假说)。
图1-30 间期核X染色质
1.Lyon假说的要点
(1)X染色体失活发生在胚胎发育早期(人胚第16天),此时细胞数目约5000个。
(2)X染色体失活是随机的,异固缩的X染色体可能来自父亲,也可能来自母亲。
(3)X染色体失活几乎完全的,女性体细胞仅一条有转录活性的X染色体,另一条X染色体不能转录。
(4)X染色体失活是永久而克隆式的,某一特定细胞内的一条X染色体一旦失活,则该细胞分裂的所有子代细胞总是这一个X染色体失活,即如果父源X染色体发生失活,则其所有子细胞中失活的X染色体都是父源的,有活性X染色体都是母源的。因此,一个正常女性的体细胞中,有的细胞是父源X染色体失活,有的细胞是母源X染色体失活。失活是随机的,但却是恒定的。
后续的许多研究进一步补充了Lyon假说:
1)虽然X染色体失活通常是随机的,但结构异常的X染色体(如有缺失的X染色体)优先失活;此外,当一条X染色体与常染色体发生易位时,通常是另一条正常的X染色体优先失活。
2)虽然X染色体失活是广泛的,但并非所有的基因都失去了活性,仍有部分基因保持一定活性。这些基因产物是某些Y染色体基因编码产物的同源物,以便维持性别之间的剂量平衡。据估计,人类X染色体上约有1/3的基因可能逃避了完全失活,因而X染色体数目异常时,个体会表现出多种异常表型。如47,XXY的个体有别于46,XY的个体;47,XXX的个体有别于46,XX的个体,而且X染色体数目越多,表型异常越严重。
2.Lyon假说解释了下列现象
(1)X小体的数目:
间期细胞核内X小体数目总是比X染色体少1个,即XX者有1个X小体,XXX者有2个X小体,正常男性没有X小体。
(2)剂量补偿(dosage compensation):
女性的两条X染色体的基因产物水平和男性的一条X染色体是一样的,如凝血因子Ⅷ;然而,某些基因产物如类固醇硫酸酯酶活性高于男性,是因为该基因位于X染色体的假常染色体区而逃避了失活。
(3)嵌合现象:
因为不同细胞中的X染色体随机发生失活,因而某些X连锁隐性遗传病如眼皮肤白化病的杂合子个体,其眼底可能表现出视网膜色素嵌合现象。
(4)携带者鉴别:
含有X染色体正常基因的细胞有优先选择或可矫正邻近的含有X染色体异常基因的细胞,表型可能完全正常。因此,单纯依靠临床检查或基因功能间接检测确定X连锁隐性遗传病的携带者是不可靠的。
(5)表型杂合子:
少数X连锁隐性遗传病的女性杂合子携带者会有轻度或完全的表型,原因在于正常基因的X染色体也会发生失活。
(6)46,Xr(X)表型:
临床上 46,Xr(X)核型的个体具有 Turner综合征(45,X)的特征,原因在于环状X染色体没有X序列,该序列在正常情况下不失活。