第二节 人类基因的结构与功能
一、基因的结构
基因(gene)是遗传信息的结构和功能单位。经典的基因序列为基因组中决定蛋白质编码的DNA序列,此外基因组DNA还可转录成为非编码的RNA,称为RNA基因,包括一些结构RNA,如转运RNA(transfer RNA,tRNA)、核糖体 RNA(ribosomal RNA,rRNA),以及调节 RNA,如微 RNA(microRNA)、干扰小 RNA(small interfering RNA,siRNA)和长链非编码RNA(long noncoding RNA,lncRNA)等。基因序列通常包括两个部分:一是蛋白质或功能RNA的基因编码序列;二是为表达这些基因所需要的启动子、增强子等调控区序列。
大多数真核生物的蛋白质编码基因序列是不连续的,由非编码序列将编码序列隔开,形成割裂基因(split gene)。编码序列称外显子(exon),间隔于编码序列之间的非编码序列称内含子(intron)。每个蛋白质编码基因在第一个和最后一个外显子的外侧都有一段不被转录的非编码区,称侧翼序列(flanking sequence),它对基因的表达起调控作用。图2-1-2为人类β珠蛋白基因的结构,它由3个外显子、2个内含子和上下游调控序列组成。

图2-1-2 人类β珠蛋白编码基因的结构示意图
(一)外显子和内含子
外显子多数是基因内的编码序列,而内含子是基因内的非编码序列,二者间隔排列。在基因中,外显子是直接为多肽链的氨基酸编码的DNA序列,而不编码的内含子虽也能转录成为初始核内不均一RNA(heterogeneous nuclear RNA,hnRNA),但在 hnRNA 加工时被剪切掉,不存在于成熟的mRNA序列中。每个外显子与内含子的接头部位,都有一段高度保守的DNA序列,称为剪接识别信号,每个内含子5'端的两个核苷酸都是GT,3'端的两个核苷酸都是AG,这种连接方式称为GT-AG法则,是真核细胞中基因表达时剪切内含子和拼接外显子的共同机制。
基因一般由若干外显子和内含子组成,外显子的数目总是内含子的数目加1。但有些人类基因没有内含子,如干扰素基因和组蛋白基因,而另一些基因又有数十个内含子。例如,进行性假肥大性肌营养不良的致病基因DMD有79个外显子和相应内含子组成。一般而言,没有内含子的基因较小,较大的基因有较多的内含子,由于内含子的长序列在转录时会消耗时间和能量,因此对于表达水平高的基因来说,自然选择短的内含子。
(二)侧翼序列
基因的侧翼序列一般包括启动子、增强子、沉默子、终止子和隔离子等。
1.启动子(promoter)
启动子是由一组短序列元件簇集在一个基因的上游构成的,一般位于基因转录起始位点上游100~200bp范围内,转录因子与启动子结合能够激活RNA聚合酶,在特定位置起始RNA合成。真核生物主要有三类启动子,分别对应细胞内三种不同的RNA合成酶和相关蛋白质。
(1)Ⅰ类启动子:
Ⅰ类启动子富含GC碱基对,主要调控rRNA基因的编码。它包括核心元件(core element)和上游调控元件(upstream control element,UCE)两部分,前者位于-45bp到+20bp,转录起始效率低,后者位于-156bp到-107bp,能增强转录的起始。
(2)Ⅱ类启动子:
Ⅱ类启动子具有TATA框特征结构,占绝大多数,主要是调控蛋白质和一些小RNA基因。TATA框一般位于转录起始位点上游-25bp,有一核心序列TATA(A/T)A(A/T),与转录因子(transcription factor,TF)Ⅱ结合,再与 RNA 聚合酶Ⅱ形成复合物,决定着RNA合成的起始位点。有的Ⅱ类启动子在TATA框的上游还存在CAAT框、GC框等特征序列。CAAT框有一段保守序列GGC(T)CAATCT,能够与转录因子CTF结合,提高转录效率。GC框由GGCGGG组成,能够与转录因子Sp1结合,促进转录过程。
(3)Ⅲ类启动子:
Ⅲ类启动子包括A、B、C盒,能够调控包括5S rRNA、tRNA、U6snRNA等RNA分子的编码基因。它在基因中的位置较独特,例如tRNA基因的启动子A、B、C三盒部分分别位于+10bp~+20bp以及+50bp~+60bp两个区域。
2.增强子(enhancer)
增强子是可以增强真核基因启动子转录效率的顺式作用元件(cis-acting element),其特异性地与反式作用因子(trans-acting factor)结合,在启动子和增强子之间形成DNA环,促使增强子的结合蛋白与启动子的结合蛋白相互作用,或者与RNA聚合酶相互作用,增强基因的转录活性。增强子可以位于基因的任何位置,且其功能与在基因中的位置和序列方向无关,可以是5'3'方向,也可以是 3'5'方向。
3.沉默子(silencer)
沉默子是与增强子具有相似性质的特定DNA序列,但其结合一些反式作用因子时对基因的转录起阻遏作用,使基因沉默。
4.终止子(terminator)
终止子位于基因末端,由多聚腺苷酸(poly A)附加信号AATAAA和一段回文序列组成,转录后能够形成发夹结构,阻遏RNA聚合酶继续移动,终止转录。
5.隔离子(insulator)
隔离子是处于抑制状态与活化状态的染色质结构域之间,阻止不同状态染色质结构域的结构特征向两侧扩散的DNA序列。隔离子可以保护基因免受邻近凝缩染色质沉默效应的影响,位于增强子和启动子之间的隔离子也可以干扰它们之间的相互作用,维持基因的时空表达特性。
二、基因的表达与调控
(一)基因的表达
如图2-1-3所示,基因的表达包括两个过程:以DNA为模板合成RNA的过程称为转录(transcription);以mRNA为模板合成蛋白质的过程为翻译(translation)。

图2-1-3 基因表达示意图
1.转录
转录是在RNA聚合酶的催化下,以DNA的一条链为模板,按照碱基互补原则,以ATP、CTP、GTP和UTP为原料合成RNA的过程。转录产物根据其生物学功能分为蛋白质翻译模板mRNA、氨基酸转运载体tRNA、蛋白质翻译场所rRNA,以及其他一些非编码RNA。
其中,mRNA的作用是转录基因组DNA遗传信息的碱基排列顺序,它指导蛋白质合成中的氨基酸排列顺序。在mRNA分子中,中间的一部分序列是一个特定多肽链的序列信息,称为多肽链编码区或开放阅读框(open reading frame,ORF),此段核苷酸序列决定着多肽链分子的一级结构。ORF通常从mRNA分子5'端的第一个AUG开始,每3个核苷酸决定肽链上一个氨基酸,称为三联体密码(triplet code)或密码子(codon),直到终止密码子结束。在ORF的5'端上游和3'端下游的核苷酸序列没有编码功能,称为非翻译区(untranslated region,UTR)。mRNA 是初始hnRNA转录本经过一系列的加工而形成的,这个加工过程一般包括剪接(splicing)、戴帽(capping)和加尾(tailing)。
(1)剪接:
在剪接酶的作用下,将转录产生的包括外显子和内含子的初始hnRNA中的内含子部分切除,再将外显子序列由连接酶逐段连接起来的过程称为剪接。剪接识别保守位点“GU-AG”是RNA剪接酶复合体的识别信号,在RNA剪接过程中起至关重要的作用。
(2)戴帽:
mRNA的5'末端以7-甲基鸟嘌呤-三磷酸鸟苷为起始结构,这种m7GpppN结构被称为帽子结构(cap sequence),是在初始 hnRNA 转录本的基础上添加的。帽子结构中的鸟苷酸及相邻的A或G都可以发生甲基化,由于甲基化位置的差别,可产生数种不同的帽结构。帽子结构与一类帽结合蛋白(cap binding proteins,CBPs)分子结合,对 mRNA 从细胞核向细胞质的转运、与核糖体的结合、与翻译起始因子的结合,以及mRNA稳定性的维系等均有着重要意义。
(3)加尾:
mRNA的3'末端有一段由数十个至百余个腺苷酸连接形成的多腺苷酸结构,称为多聚A尾(poly A tail)。poly A 结构是在转录完成后额外加入的,在细胞内与其结合蛋白[poly A-binding protein,PABP]相结合,与5'端帽结构一起负责mRNA从核内向胞质转位、mRNA的稳定性维系及翻译起始和终止的调控。去除poly A和帽结构是细胞内mRNA降解的重要步骤。
2.翻译
翻译是以mRNA为模板指导多肽链合成的过程,是在mRNA、tRNA 和核糖体协同作用下进行的。核糖体小亚基识别mRNA 5'端帽结构,沿着mRNA序列移动到起始密码子AUG,识别起始密码子后,多种tRNA携带特定的氨基酸依据tRNA上的反密码子逐一识别mRNA上互补的密码子,核糖体的大亚基结合小亚基开始精确的合成多肽链,整个过程按进位、转肽、移位和脱落等步骤不断重复,直到终止密码子(UAA、UAG或UGA),使多肽链从核糖体上释放出来。
(二)基因表达的调控
人类基因表达的特点是能在特定时间和特定细胞中激活特定的基因,从而实现机体有序地生长发育过程,即基因的表达具有时空性。不当的基因表达可能与疾病的发生、发展有关。真核生物的基因表达调控是通过多阶段实现的,包括转录、转录后、翻译和翻译后等。其中,转录水平的调控是基因表达的重要控制环节,调控因素主要包括顺式作用元件和转录因子、基因组DNA的表观修饰、一系列非编码RNA的作用等。
1.顺式作用元件和转录因子
基因启动子具有顺式作用元件及其特异性的反式作用转录因子。真核细胞中的RNA聚合酶本身不能启动转录,必须有许多转录因子特异结合在顺式作用元件上后才能激活RNA聚合酶,从转录起始位点开始合成RNA。在已知的众多转录因子的结构中都有一些相似的结构域基序,这些基序是蛋白质与DNA特定序列结合的部位,它们分为4种结构:螺旋-转角-螺旋(helixturn-helix)、锌指(zinc finger)、亮氨酸拉链(leucine zipper)和螺旋-环-螺旋(helix-loop-helix)结构。转录因子不仅与DNA靶序列结合,而且它们之间也会相互作用,正是它们这些相互作用共同决定了人类基因表达的复杂调控过程。
2.基因组DNA的表观修饰
真核细胞DNA需要与组蛋白结合,形成核小体(nucleosome),然后进一步形成染色质。细胞内的染色质分为有转录活性和无转录活性两种,无转录活性的染色质呈高密度,在细胞周期的S期中晚复制,DNA甲基化(methylation)程度高,与组蛋白紧密结合;有转录活性的染色质较松散,在S期中早复制,DNA甲基化相对少,与组蛋白结合较弱。
目前研究表明:①基因启动子区CpG岛序列的胞嘧啶的甲基化可以阻碍基因的表达,造成基因的沉默;在特定条件下的DNA去甲基化可以启动相应基因的转录。②组蛋白的修饰与基因表达的水平也有关,这些修饰包括乙酰化(acetylation)、甲基化(methylation)、磷酸化(phosphorylation)、泛素化(ubiquintylation)和SUMO蛋白修饰化(sumoylation)等。
3.非编码 RNA的调控
非编码 RNA(noncoding RNA,ncRNA)泛指不翻译蛋白质的RNA。除了前面介绍的rRNA和tRNA外,近年来其他ncRNA的研究日趋增多,逐渐变成研究热点。这些ncRNA根据RNA分子大小又分为:小分子非编码RNA(small non-coding RNA,sncRNA),包括 microRNA、siRNA和 piwi相互作用 RNA(piwi-interacting RNA,piRNA)等;长链非编码 RNA(long non-coding RNA,lncRNA)。它们在染色质构象的形成、转录水平调控、RNA的加工与转运、mRNA的稳定与翻译,以及蛋白质翻译后的修饰等过程中发挥作用,具有调控基因表达的功能。
(刘运强)