第一节 人类基因组的组成

人类基因组计划完成的数据信息显示每个核基因组的DNA约有32亿个碱基对(3.2×109bp),编码蛋白质的基因数目为20 000~25 000个。人类基因组复杂程度高,按DNA序列的拷贝数不同,可分为单拷贝序列和重复序列(图2-1-1)。

图2-1-1 人类基因组的组成

一、单拷贝序列

单拷贝序列(single-copy sequence)在基因组中仅有一个拷贝或少数几个拷贝,往往分散在重复序列中。大多数蛋白质编码基因为单拷贝序列。单拷贝序列体现了生物的各种功能,其序列变异通常与人类疾病密切相关,因此这些DNA序列的研究对医学实践有特别重要的意义。

二、重复序列

人类基因组DNA存在大量重复序列,其重复单元长度不等,短的重复序列仅两个碱基,长的多达数百乃至上千个碱基。重复次数变异较大,高度重复序列的重复次数从几十万到几百万次不等,中度重复序列重复次数从数十至数万次不等。根据重复序列的分布特点可以分为串联重复序列和分散重复序列。

(一)串联重复序列

串联重复序列指以不同长度核苷酸序列为重复单位,首尾相接,串联连接在一起而形成的重复序列,约占基因组的10%。根据重复单位大小可分为三种:卫星DNA、小卫星DNA和微卫星DNA。

1.卫星 DNA(satellite DNA)

由很大的串联重复DNA排列组成,分布在100kb至数个Mb范围内。当基因组DNA经氯化铯密度梯度离心时,卫星DNA可以与总基因组DNA分开,可见DNA主带之外还有小的卫星带,这是由于卫星DNA中GC含量少于主带所致。人类基因组中卫星DNA多聚集在染色体着丝粒异染色质区,例如α卫星DNA存在于所有染色体上的着丝粒异染色质区,其重复单位通常含有一个着丝粒蛋白的特异结合位点。

2.小卫星 DNA(minisatellite DNA)

由 6~64个核苷酸为重复单位,串联重复组成的序列,这些序列的总长度在0.1~20.0kb范围内,分布于所有染色体的端粒。其中端粒DNA是“TTAGGG”六核苷酸串联重复形成3~20kb的序列,由特异的端粒酶添加在染色体末端,担负着端粒的功能。

3.微卫星 DNA(microsatellite DNA)

重复序列较为简单,仅由2~6个核苷酸的重复单位串联排列而形成。它们数量众多,主要分布在内含子、间隔DNA中,少数在编码区。微卫星DNA一般构成染色体着丝粒、端粒和Y染色体长臂的染色质区,大多由DNA复制滑动产生。有些微卫星DNA位于基因的编码序列,由于复制滑动而成为突变热点,如(CAG)n等三核苷酸重复的动态突变(dynamic mutation)会导致一些神经肌肉系统的疾病。

(二)分散重复序列

分散重复序列是指分布于基因组中散在的重复序列,与单拷贝基因间隔排列。分散重复序列主要有两类:短分散核元件(short interspersed nuclear segment,SINE)和长分散核元件(long interspersed nuclear segment,LINE)。

1.短分散核元件

该重复序列的平均长度为100~400bp,与平均长度为1kb的单拷贝序列间隔排列,拷贝数可达100万以上。例如,Alu序列是人基因组中含量最丰富的一种散在重复序列,平均每3kb就有一个Alu序列,重复达30万~50万次,占人基因组的3%~6%。Alu序列可由RNA聚合酶转录成RNA分子,再经反转录酶(reverse transcriptase)的作用形成互补 DNA(complementary DNA,cDNA),然后重新插入基因组中。Alu序列存在于人类和一些灵长类基因组中,具有种属特异性,因而可作为人和这类动物基因组的重要标记。

2.长分散核元件

该重复序列的平均长度为3.5~5.0kb,与平均长度为13kb(个别长数万bp)的单拷贝序列间隔排列,拷贝数为 100~10 000。Kpn Ⅰ家族(LINE1)是一类长分散核元件,是人类基因组中仅次于Alu家族的第二大家族,也是最重要的人类转座因子。与Alu家族相似,Kpn Ⅰ家族中有一部分是通过Kpn Ⅰ序列的RNA转录产物的cDNA拷贝重新插入到人基因组DNA中产生的。这些序列构成可转座元件(transposable elements),使 DNA 可在基因组内由一个染色体转移至另一染色体。

三、多基因家族与假基因

人类基因组的另一结构特点是存在多基因家族(multigene family)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内;另一类是一个基因家族的不同成员分布于不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。一个多基因家族中可有多个基因,根据结构与功能的不同又可以分为亚家族(subfamily),例如人的低分子量小G蛋白家族至少有50个成员,其中又进一步分为Ras、Rab、Rho、Arf和Ran等亚家族。

人类基因组中存在假基因(pseudogene)。假基因是基因组中存在的一段与正常基因非常相似但不能表达的DNA序列。这类基因可能曾经有过功能,但由于在进化中获得的一个或几个突变,造成了序列上的细微改变,从而阻碍了正常的转录或翻译功能,使它们不再能编码蛋白质产物。与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一可能是基因经过转录后生成的信使RNA(messenger RNA,mRNA)经反转录产生cDNA,再被整合到基因组DNA中。