第一节 概述

一、基因的概念和发展简史

(一)基因的概念
基因(gene),主要是指合成具有功能的蛋白质和RNA产物的完整的DNA序列,是携带遗传信息的基本单位。
(二)中心法则
基因以线性方式排列于染色体的特定位置,通过半保留复制将遗传信息从亲代DNA传递给子代DNA(DNA 复制,DNA replication),DNA 通过转录(transcription)将遗传信息传递给 RNA,RNA经翻译(translation)将遗传信息表达成为蛋白质,这一过程称为中心法则(central dogma)(图1-1)。随着分子生物学和分子遗传学的深入,中心法则的形式和内容均得到了补充、修正和发展。例如,学者们发现以人类免疫缺陷病毒为代表的一些病毒中的RNA也具有自我复制的能力。某些单链RNA病毒,如肉瘤病毒,通过反转录酶的作用,能以 RNA为模板,反向合成 DNA。此外,朊粒(prion)是一种既不含DNA也不含RNA的蛋白质传染颗粒(proteinaceous infectious particle),在受感染的宿主细胞内产生与自身相同且具有生物学功能的分子,提示蛋白质也可作为遗传信息的载体。朊粒以及DNA重排、大量具有功能的非编码RNA分子的发现、RNA的自催化、剪接和编辑等现象虽均在中心法则覆盖的内容之外,但对基因的表达发挥着精细调控作用,大大丰富了现代基因表达调控的内容。
图1-1 中心法则
(三)基因研究的发展简史
人们对基因的认识经历了漫长的过程,最早可追溯到19世纪遗传学之父孟德尔(Gregor Johann Mendel,1822—1884)提出的“遗传因子”假说。孟德尔通过豌豆杂交实验发现,豌豆的“颗粒性”性状传递具有可预测的遗传规律。由此提出生物的性状由“遗传因子”决定,“遗传因子”负责将生物性状从亲代传递至子代。孟德尔所提出的“遗传因子”即现代“基因”的雏形。然而,在孟德尔的工作中,“遗传因子”仅仅是一种逻辑推理。20世纪初,遗传学家摩尔根(Thomas Hunt Morgan,1866—1945)在前人提出的“遗传的染色体学说”基础上,通过果蝇伴性遗传实验,证明基因存在于染色体上,并且呈线性排列,从而得出染色体是基因载体的结论。摩尔根的发现为细胞遗传学的建立奠定了重要基础。1905年,丹麦遗传学家约翰逊(Wilhelm Ludwig Johannsen,1857—1927)在《遗传学原理》(Elements of Heredity)一书中正式提出“基因”概念。1953年,沃森 (James Dewey Watson,1928—)和 克 里 克(Francis Harry Compton Crick,1916—2004)历史性地提出DNA的双螺旋模型,从分子水平推开了基因研究的大门。随后,在 1954年,物理学家伽莫夫提出三联体密码概念;1961年,尼伦伯格和马太利用三联体密码合成苯丙氨酸多肽链;1963年,64种遗传密码破译。经过几代科学家的共同努力,终于形成了现代的基因概念。

二、基因的结构和功能

(一)基因的结构
从结构上,一个完整的真核基因包括位于中央的转录区和分别位于上、下游的侧翼序列(图1-2)。转录区域既可以是编码蛋白质的序列,也可以是转录为通常不具有典型的蛋白质编码能力的非编码RNA的DNA序列,其功能是将携带的遗传信息转录成信使 RNA(messenger RNA,mRNA),再以mRNA为模板合成具有特定氨基酸序列的蛋白质,或者转录成以RNA为功能分子的转录产物。真核生物的转录区通常由外显子和内含子序列构成。基因转录首先合成前体RNA。前体RNA经过转录后加工剪接(splicing),切除内含子,保留外显子并进行拼接,是RNA成熟加工中的一个重要环节。侧翼序列,即真核基因的非翻译区(untranslated region,UTR)是在基因的转录和成熟等过程中发挥调控作用的序列,主要包括位于上游(5′端)近端的启动子、远端的增强子序列,以及位于下游(3′端)的终止密码和poly(A)尾等。启动子(promoter)是基因的重要组成部分,由于其控制DNA转录的起始时间和表达程度,因而常常被比喻为基因的“开关”。增强子(enhancer)是通过与启动子的相互作用,强化转录效果的一段DNA序列。增强子往往位于基因启动子的5′端上游。然而,也有一些增强子被发现位于基因的3′端,甚至内含子区域中。真核基因的5′UTR和 3′UTR分别具有的帽子结构和 poly(A)尾,能够保护RNA 本身免受 5′和 3′外切酶的降解。poly(A)尾还对mRNA由细胞核向细胞质这一转运过程发挥保护作用。近年来发现了大量的非编码RNA,在多种生理和病理过程中执行功能。从结构上,非编码RNA基因与mRNA基因具有很多相似性,同样具有 5′UTR、转录区和 3′UTR,受 RNA剪接、加工和修饰等调控。
图1-2 真核细胞基因结构图
(二)基因的功能
基因的功能主要有两方面:作为遗传信息的载体,控制生物体的遗传性状;通过转录和翻译等过程产生有功能的终产物,对细胞和个体的生命活动进行调控。生物个体的DNA分子上有许多基因,然而并不是所有基因的特征都能够表现出来。基因的表达受到精准的时空调控。空间调控主要表现在组织细胞类型、细胞亚群和细胞内亚定位等的位置分布;时间调控则受到增殖、分化和发育等信号的诱导或者抑制。如果在生命活动中发挥关键调控作用的基因在异常的时间或地点发生表达错调,则可能导致细胞功能障碍,引发病理生理活动变化。
一些基因的生物学功能较为明确,因此有时人们也根据这些基因的功能对它们进行分类。例如,与人体病理生理关系较为密切的主要有“癌基因”“抑癌基因”和“长寿基因”等。癌基因(oncogene)是与肿瘤转化呈正相关的基因,其编码产物以显性的方式,对细胞的生长和转化发挥促进作用。抑癌基因(tumor suppressor gene)在正常时起抑制细胞增殖和肿瘤发生的作用。长寿基因(longevity gene)是能够提高生物体的健康,延长生物体寿命的基因。随着近年来表观遗传调控在人类疾病研究中的深入,研究人员发现在基因型相同情况下,环境等因素亦能导致个体间差异并引发高血压、肿瘤、精神疾病等病理生理学改变。总体而言,绝大多数生理学现象(例如长寿)和病理过程(例如肿瘤)是多因素影响下的综合反映,单独一种基因的差异往往不足以改变生物学性状,多种基因变化的积累才能引发整体的机制紊乱,产生病变。

三、人类基因组计划与精准医学

出于人类对自身生命奥秘和健康的关心,对人类基因在医学领域的研究和应用一直是基因研究的中心。经过几十年的艰苦探索和许多科学家的卓越贡献,人们认识到搞清任何一种疾病发生发展的机制或某种健康状态的机制,必须从基因组层面上搞清涉及疾病或健康状态的所有基因的变化规律。“人类基因组计划(human genome project,HGP)”是一项旨在解密人体全部基因密码的国际合作性项目,由美国、英国、法国、德国、日本和我国科学家共同参与,于 1990年正式启动,2005年宣布完成,是21世纪生命科学领域最具影响力的一个国际合作计划。HGP研究结果表明人类基因组中的蛋白质编码基因约有21 000个,远远少于项目启动前估计的数量(约10万个)。HGP项目的另一重大发现是人类基因组中超过80%的序列是编码非编码RNA的序列,极大地推动了非编码RNA基因领域的研究。目前较为普遍的观点认为,非编码 RNA是蛋白质编码基因的一个重要补充,通过与DNA和蛋白质等生物大分子的协同作用,建立了一个多层面的、更为复杂精细的遗传信息传递方式和表达调控网络,在多种病理生理过程中发挥调控作用。二代测序技术(next generation sequencing,NGS)是一种基于边合成边测序(sequencing by synthesis)原理的新型DNA测序技术。受益于人类基因组计划需求的推动,二代测序技术在21世纪初得到了巨大突破。相比于传统的化学降解法和双脱氧链终止法,现阶段的二代测序技术由于费用低、高通量、速度快等优点已经渗透到医疗检验中的许多方面。正是在此背景下,美国前总统奥巴马于2015年1月20日在国情咨文讲演中正式提出“精准医学计划(precision medicine initiative,PMI)”。经过 1 年多筹划,2016年初我国的精准医学研究科技部重点研发专项也正式发布。精准医学(precision medicine)是以个体化医疗为基础、在二代测序技术的快速进步以及生物信息与大数据科学的交叉应用的前提下而发展起来的新型医学概念与医疗模式。其本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病的不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。