第一章 比你想的简单
柯克教授让遗传学像ACGT一样简单。
—谢默斯·柯克[1]
我的朋友兼同事史蒂夫·威瑟斯(Steve Withers)也是一位遗传学家,他经常说别人的大脑“有一颗行星那么大”。很多人觉得研究遗传学令人头大,它似乎总给人一种高深莫测的感觉,但事实证明这完全是假象。遗传学其实非常简单,如果你能够在高中毕业之前轻松驾驭小学数学,那么掌握遗传学的要领也不在话下。
为什么人们会觉得遗传学很难呢?也许只是因为它包含了大量的细节。遗传病有成千上万种,它们的严重程度各不相同,很多病症之间还会相互交叠。要想充分认识遗传疾病,了解细胞的工作机制必不可少,而其中又包含了海量的信息。不过,这都是信息的叠加罢了,其中的每一部分理解起来都很容易。
要证明这点不难。遗传学中最重要的信息,也许莫过于DNA与蛋白质的关系。这种关系和字母与单词的关系类似,但要简单得多。论据如下:
人体内的很多物质都由蛋白质构成。蛋白质是构成人体细胞的基本物质,也是细胞间质的组成成分。人体的任何生命活动都离不开蛋白质的参与。打个比方,假如你体内的细胞想要造一辆汽车,它需要的每一个机械配件和电子零部件都是由蛋白质构成的,而且不仅仅是这些零件,连你用于停放汽车的车库也是如此。蛋白质本身则是由氨基酸组成的。
脱氧核糖核酸(DNA)是一种携带遗传信息的化学物质。这些信息用只有四个字母的字母表记录,即A、C、G、T。它们分别代表腺嘌呤(adenine)、胞嘧啶(cytosine)、鸟嘌呤(guanine)和胸腺嘧啶(thymine)四种碱基(nucleobases)[2],是DNA的化学组成部分。
与英语不同,DNA的语言只有21个单词。它们的拼写通常包含3个碱基—这是一种三联体密码。在英文中,“CAT”是一种毛茸茸的宠物,但在DNA语言中,它代表的是一种叫组氨酸(histidine)的氨基酸。这套语言中一共有20种氨基酸,而第21个单词是“终止”。基因是编码特定蛋白质的一段DNA序列。也就是说,它是一串三联体密码,表示“先是一个组氨酸”,“再加一个甘氨酸(glycine)”,然后“再来一个脯氨酸(proline)”:“好了,停!”
你可以把碱基看作字母,氨基酸的名字就是它们拼成的单词,基因则是最终连成的句子。每个句子都说明了如何合成某个特定蛋白质,而每个DNA分子中都包含了很多这样的句子。可以说,这是一本《人体建造指南》。
遗传学的基本原理,仅此而已。这比学习阅读简单得多,6岁的孩子就能轻松掌握。更好的一点是,你不需要真正去学习这门语言—你只需要知道它有一套既定的法则,理解其中的原理就足够了。我研究了20多年遗传学,只知道三四个密码子的拼写,其他的我会在需要时查找。
读到这儿,即使之前从未接触过遗传学,你现在也已经掌握了遗传学中最为复杂的概念。除此之外,都是一些细枝末节。
幸运的是,遗传学不仅简单,而且特别有趣。染色体(chromosome)就是个很好的例子。
染色体是DNA在我们细胞内的存在形式,其构造十分特别。
学习遗传学有一大鲜为人知的好处,那就是你有机会亲自制备和检验自己的染色体。谁能放过这样的机会呢?但今天的医学生没有这样的机会,因为他们害怕自己会发现一些不想知道的东西。这可真是个遗憾,要知道透过显微镜近距离地观察自己的基因组很有满足感。我想这种感觉或许有点像动完手术后通过手术视频察看自己的心脏,只不过省去了开膛的麻烦罢了。
基因组是生物体所有遗传物质的总和,任何有生命的个体都有自己的基因组,包括你、我、鼻涕虫、你午餐吃的沙拉里的甘蓝,甚至餐厅服务员指甲里的微生物[3]。此外,细菌、原生动物和真菌都有各自的基因组,病毒也不例外。从细菌到一切比细菌更为复杂的生物体,基因组都以染色体的形式存在。不同物种的染色体数量差异很大,而生物体的复杂程度与其染色体的数量之间并没有明显的关联。关于细菌,我可以肯定地说,它们只有一两条聚集在一起的环状染色体。雄性杰克跳蚁[4]的结构比细菌复杂得多,但同样也只有一条染色体,而大西洋多眼灰蝶竟有450条染色体。
如果细胞正处于分裂中期,染色体集中排列在赤道板上,形态结构稳定,数目清晰,观察起来最为容易。人类(大多数情况下)有23对染色体。更具体一点,它们是46条存在于你体内数以万亿计的细胞中、总长约2米的细长DNA链。2米听起来也许不算长,但你可别忘了,储存了几乎所有细胞DNA的细胞核,它的直径只有六百万分之一米。如果说细胞核和你家客厅一样大,而DNA是由绳子组成的,那么你的客厅里就会有根长达1 000千米的绳子—足够从伦敦延伸至柏林,或者从旧金山延伸到波特兰。
大多数时候,这根“绳子”并不会紧密地捆绑在一起。它是一根纤细的游丝,在细胞核中延展和盘绕。它不是完全松散的,而是缠绕在一种被称为组蛋白(histone)的蛋白质周围。这种DNA与蛋白质的结合体被称为染色质(chromatin),它是破解生命奥秘的钥匙。
众所周知,DNA是信息的载体。这些信息代代相传,穿越漫长的时光。你的DNA不是一朝一夕形成的,而是一长串事件共同作用的结果,这一过程跨越了数十亿年,从来不曾中断。其间,它被复制了一遍又一遍,一些微妙的变化也在悄然发生。这个故事要从某片我们遗忘已久的海洋说起,那片温暖的浅海孕育了最原始的生命。自那时起,你的DNA开始了漫长的演化之旅。从哺乳动物到原始人,再从整个人类的存在直到你的出现,这一路走来的记忆都铭刻在了你的DNA里。我们的大脑也许会遗忘,但我们的基因不会。
与遗传学打了一段时间的交道后,我发现每条染色体都有自己的“性格”。与其说这是一种个性,不如说这是有人提起某条染色体时我的脑海里马上闪现的东西。1号染色体靠近顶部的部分有一块灰白色的区域。如果在受孕时将其中一条染色体上的这个区域去掉,那么这个孩子就会有智力障碍并伴有独特的面部特征,如深陷的眼睛和低垂的耳朵。7号染色体上有导致囊性纤维化[5]的基因位点,当时为了找到这个基因,还掀起了一场国际竞赛(这场角逐的最终赢家是当时在多伦多工作的加拿大籍华裔人类遗传学家徐立之[6])。乳腺癌1号基因(BRCA1)是一种与遗传性乳腺癌直接相关的基因,它位于第17号染色体上。寻找这个基因的竞争更加白热化,直到今天,这场争夺战的余烟仍未消散,专利权之争仍在上演,对人们的生活也产生了深远影响。15号染色体与普拉德-威利综合征(Prader-Willi syndrome, PWS)和天使综合征(Angelman syndrome)有关,这两种遗传病看似截然不同却又总是“难舍难分”。在人类基因组中存在一些“印记区”,这些区域的基因就像拥有记忆一般,会根据自己亲代的不同(父源或者母源)进行相应的表达。15号染色体上就有一块这样的区域[7]。第13、14、15、21及22号染色体都是近端着丝粒染色体(acrocentric chromosomes):它们的短臂极短,“腰部”都快到了本来“头部”所在的位置。有时,两条这样的染色体还会融合在一起,即所谓的罗伯逊易位(Robertsonian translocation)。相较之下,Y染色体宛如一片荒原,放眼望去,遍地都是破碎基因的遗骸,了无生机。它几乎没有任何存在的理由,但仍在挣扎。
染色体分析(chromosome analysis),又称染色体核型分析(karyotyp-
ing),是最早的基因检测。尽管在此之前已有其他一些可用于检验遗传疾病的医学测试,如可以诊断镰状细胞病(sickle cell disease)的血涂片检查等,但染色体核型分析才是真正意义上的基因检测。不仅如此,它是第一种也是很长一段时间内唯一一种基因组检测:它可以一次性完成一个人全部基因组的检查。其结果就相当于一幅鸟瞰图,用今天的标准来衡量可能不够详细,但不论如何,这一检测手段经受住了时间的考验,沿用至今。
面对一项全新的技术,我们人类究竟如何迅速积累经验呢?我对此充满了好奇。飞行就是个很好的例子。人类历史上第一架动力飞机诞生后不久,航空业就已摸索出一套自己的法则。例如,“飞行、定向、沟通”(aviate, navigate, communicate)[8],“世上有‘老’飞行员,也有‘勇敢’的飞行员,却没有‘勇敢的老飞行员’”,“对飞行员而言,没有什么比你上方的高度和你身后的跑道更没用”。
同样的故事也在细胞遗传学(染色体研究)领域上演,哪怕其他更新的基因技术亦是如此。年轻一代总能够“坐享其成”,毕竟我们一直以来都这么做(既然行得通,何必改变它呢)。而今,遗传学这一年轻的领域,也有了自己的传统。
说到传统,就不得不提起染色体各部分的命名。仔细观察染色体,你会发现有些染色体中间有一个像“腰”一样的部位。这是着丝粒(centromere),作用是在细胞分裂中固定染色体并引导其行为。着丝粒永远不会在染色体的正中间,也就是说它的两侧分别是短臂和长臂,被称作p臂和q臂。
为什么是p和q呢?这要从1966年的一场会议[9]说起。那时,染色体核型分析还处在起步阶段。第三届国际人类遗传学大会在芝加哥召开,旨在探讨人类染色体标准化命名的相关事宜。会上讨论决定将染色体的短臂命名为“p臂”—取自法语的“petit”一词,意思是“小的”。还曾有人讨论过用“s”来命名,灵感源自英语中的“short”(短的)。很显然法国细胞遗传学家杰罗姆·勒琼[10]是位有话语权的人。当然,这也可能是那些想要以自己的方式命名长臂的人做出的“战术让步”。
当以“p”来命名短臂的决定最终通过的时候,已是深夜时分。来自英语国家的参会专家们一再呼吁用字母“l”命名长臂[11],但又有人指出这很容易与阿拉伯数字“1”混淆。没有人想让法国人“独占”两条染色体臂,讨论一度陷入了僵局。打破这一僵局的是英国遗传学家莱昂内尔·彭罗斯(Lionel Penrose)[12]。他提议用字母“q”来命名,一来这样不会偏袒任何语言,二来在遗传学的另一分支—群体遗传学(population genetics)中有一个著名的等式,即p+q=1[13]。用在这里,则可以理解为:P臂和q臂构成一条完整的染色体。会议开到这个时候,每个人好像都已疲于争辩,都希望赶紧结束讨论回去休息。于是,“q臂”就这样诞生了。
通过观察染色体臂,细胞遗传学家掌握了利用显带技术识别染色体的方法。其原理是制备染色体载玻片时使用的染料会使染色体的特定部位呈现出深浅不一的带纹,即染色体的“带”。我们已经了解了1号染色体的顶部(p臂的末端)有什么特点,这里我再补充一点:1号染色体也是人体内最大的染色体。凭借这两点,你以后一定可以轻松地找到它。现在,我们看看7号染色体,它大小适中,在靠近其p臂末端的位置有一条明显的暗带。这样,你就肯定不会把它和1号染色体弄混了,就算在一堆染色体里你也应该能够把它们找出来。那么恭喜你!成为一名细胞遗传学家指日可待。
进行核型分析时,22对常染色体按照大小递减的顺序被标记为第1至22号染色体(尽管21号染色体实际上比22号染色体小一点),性染色体则用X和Y表示。此外,还可以根据带型对染色体进行分类,而这些带型也有极为细致的划分方式,人类细胞遗传学命名体系就这样形成了。例如:1号染色体可以被划分为1p和1q,而1p又进一步细分为1p1、1p2、1p3……到今天,我们已经有了诸如1p36.33的命名—从左至右分别代表染色体编号、臂号、区(3)、带(6)、亚带(3)及次亚带(3)。识别这些特定区域不仅对仪器设备的分辨率有极高的要求,也愈来愈考验遗传学工作者的技术水平。在我刚开始接触遗传学的时候,诊断遗传病的主要手段之一便是观察。一名经验丰富的科学家能够借助显微镜观察到任何细微的变化,不管是有东西缺失、增加,还是位置发生改变,都逃不过他的法眼。这是优秀的细胞遗传学家才拥有的火眼金睛,只有你想不到的,没有他找不到的。
当我自己尝试的时候,我甚至难以将染色体区分开来,因为它们并不是成对整齐排列在细胞中的。相反,它们杂乱无章地堆在载玻片上,还经常相互交叠。要想成为一名技艺娴熟的细胞遗传学家,至少需要花一年的时间在专人指导下练习观察染色体;要成为一名真正的专家,还要花上数年的时间。然而终有一天,也许就在不远的将来,新技术的出现会让我们这个职业及我们掌握的这些技能失去存在的价值。
染色体的数量对一个人而言至关重要,过多或者过少都可能带来严重的后果。除了Y染色体,最小的当数21号染色体,它的基因数量也最少。即便如此,如果体内有三条而非两条21号染色体,就会导致唐氏综合征(Down syndrome),这种复杂的遗传病会对身体各个系统造成严重影响。此外,少一条21号染色体也是致命的,这样的胎儿甚至活不过孕早期。这种由整条基因异常导致的遗传病还有很多。例如,爱德华兹综合征(Edwards syndrome)[14]就是因为患者体内多了一条18号染色体。至于多了一条13号染色体会怎样,读过前文那个小女孩儿的故事,相信你已经有答案了。
早期的细胞研究发现,蝗虫有巨大的生殖细胞(即最终分化为精子或卵子的细胞),而且它们体内的染色体也很大。在那个显微镜分辨率很低且使用不便的年代,蝗虫无疑是最好的研究对象。到20世纪初,科学家们已经发现了染色体和遗传之间存在某种联系。这本是个很好的开端,但一晃数十年过去了,人们才第一次证实基因与人类疾病有关。在20世纪的大部分时间里,我们甚至都不知道人类到底有多少条染色体。那时,人们一度认为答案是48条而非46条,所有人也都信以为真。
青霉素的发现堪称人类医药史上“最美丽的意外”,谁也不会想到这种拯救了无数生命的良药最初竟源自实验室里的一个失误。这个故事的主人公是亚历山大·弗莱明爵士[15],那时已经是一个著名研究员的他正在研究金黄色葡萄球菌(staphylococcus aureus)。1928年9月的一天,外出度假归来的弗莱明发现,自己放在实验室(出了名的杂乱不堪)里的一只细菌培养皿被霉菌污染了,而在这些霉菌周围似乎形成了一个“禁区”,让原本生长旺盛的金黄色葡萄球菌不敢越雷池一步。之后,弗莱明在研究青霉素的特性方面取得了一些进展,包括尝试分离提取青霉素、开发抗菌药物等。反复尝试过后,他最终得出的结论是这可能行不通,于是放弃了这项研究。真正让青霉素从实验室走向临床,成为救命良药的另有其人:当时一同在牛津大学工作的霍华德·弗洛里[16]和恩斯特·柴恩[17]是最主要的功臣。尽管在1945年,他们二人与弗莱明一起分享了诺贝尔生理学或医学奖的殊荣,他们的名字却远没有弗莱明广为人知。
读到这里你可能会想,如果当初意外发现青霉素的不是弗莱明,而是弗洛里和柴恩,这个故事的结局会不会有所不同?纵观人类科学发展史,你会发现一个奇怪的现象,很多人做出了开创性的贡献,却湮没在历史的尘埃中。徐道觉[18]就是这样一位无名先驱。像弗莱明发现青霉素一样,他发现低渗溶液预处理的染色体制备方法也是一个“美丽的意外”。不同于弗莱明,他并没有止步于此,最终成功地让自己的这一发现走出了实验室,写下了人类细胞遗传学的新篇章。弗莱明的名字家喻户晓,徐道觉的名字却鲜为人知。
这确实是一个遗憾。徐先生是一位高风亮节的君子,也是一位伟大的先驱者。倘若他的名字和他的贡献一样为人们所知,他现在应该至少是一部传记片的主角了。美国细胞遗传学会议的网站名起得非常绝妙:chromophile.org[19],但比起这个名字,更为醒目的还是“人物风采”那页上徐先生的照片。那张照片拍摄于2000年,照片里的徐老紧握着美国细胞遗传学会议颁发的首个杰出细胞遗传学家奖[20]的奖杯,看起来就像一位和蔼可亲的老爷爷。将时钟拨回半个世纪以前,那时的他还是一个极具冒险精神的年轻人。20世纪50年代初,中国还不是现在的模样,徐先生离开了自己的祖国,远渡重洋前往美国得克萨斯大学奥斯汀分校进行果蝇研究(即著名的黑腹果蝇,它们虽不受果农欢迎,却是遗传学家们的最爱)。得克萨斯州有很多远近闻名的地标,如休斯敦太空中心、棉花碗球场、阿拉莫遗址等。在一个更加理性的世界,得克萨斯大学奥斯汀分校的果蝇实验室(the Texas Drosophila Laboratory)比它们中的任何一个都更有名。
这一切还要从1956年的一个实验室“小插曲”说起。当时,一名助理在调配用来制备染色体的盐溶液时看错了说明,加了过多的水,在毫不知情的情况下配成低渗(过稀的)溶液。用这种溶液漂洗过的细胞会吸水膨胀,其内的染色体也会分离。这样再进行观察,染色体就不会“纠缠”在一起,辨识起来也更加容易。这一奇特现象引起了徐道觉的注意,他把握住了这个机遇,成功找出了其中的玄机[21],还找到屡试不爽的盐溶液配比,最终发表了自己的成果。
这一消息一出,蒋有兴[22](他至少被遗传学家们记住了)和阿尔伯特·莱文[23](他几乎不为人所知)马上便用这一方法证实人类二倍体细胞的染色体数是46条,而非48条。试想一下,如果你连有多少条染色体都数不清,发现染色体异常根本无从谈起。现在情况变了,就在几年后(1959),一个来自法国的团队(成员包括那个一举拿下染色体“p臂”的勒琼、玛尔特·戈蒂耶[24]和雷蒙德·特平[25])首次报告了唐氏综合征患儿体内有一条多余的21号染色体。这就像一把钥匙,开启了人类发现其他染色体疾病的大门。更重要的是,细胞遗传学的进步意味着我们能够准确识别单个染色体,进而绘制精确的遗传图谱。可以说,人类基因组计划[26]及现代遗传学的绝大多数成就都要归功于徐道觉实验室里的那个“失误”。
说巧不巧,也是在这一时期,DNA的研究终于有了实质性进展。1953年,沃森[27]和克里克[28](基于罗莎琳德·富兰克林[29]的实验数据)的论文发表了,首次对DNA的双螺旋结构进行了描述。这是一个具有划时代意义的重大发现,直接推动了本章开头所描述的人类对DNA与蛋白质关系的认识。正是在徐道觉、沃森、克里克以及走在他们之前的无数“开路人”的不懈努力下,遗传学这一崭新的学科冉冉升起了。
[1] 我的儿子可能并不是个完全公正的评论家。——如无特殊说明,注释均为原注。
[4] 杰克跳蚁(jack jumper ants),学名多毛牛蚁,是一种生活在澳大利亚的蚂蚁,其惊人的弹跳能力使它们获得了“杰克跳蚁”或“跳虫杰克”的名号。—译者注
[5] 一种由第7号染色体上CFTR基因突变引起的常染色体隐性遗传病,主要影响胃肠道和呼吸系统。—译者注
[6] 徐立之(Lap-Chee Tsui,1950— ),著名人类遗传学家,中国科学院外籍院士、香港科学院院长。他在1989年发现了首个与囊性纤维化连锁的DNA标记,在人类第7号染色体长臂上找到了有关基因,并成功地将致病基因分离出来,并发现了该基因最重要的突变,是人类遗传学史上的重要突破。—译者注
[7] 前面所述的两种遗传病都与这一区域有关,前者为父源性基因表达缺陷所致,后者为母源性基因表达缺陷所致。—译者注
[8] 这一法则适用于飞行员在飞行中遇到麻烦的情况:首先是“飞行”,即你要做的第一件事是保持飞机的飞行状态不变;其次是“定向”,即你要判断自己现在所处的方位,寻找可以着陆的地点;最后是“沟通”,即如果前两步操作都没有问题,你要和地面以及其他飞机进行沟通。
[9] 也许是因为最终的讨论结果,很多遗传学家误以为这是1971年巴黎命名会议的成果。如果你读过那次会议的相关记载便会发现,p/q臂的问题显然早就解决了。此外,根据这种说法,“q”之所以被选中是因为它在字母表上紧挨着字母“p”。多年来,我也是这么讲给我的医学生们的,直到写这本书的时候我才进行了查证,发现事实并非如此。在这里,我要向所有我误导过的学生道个歉。
[10] 杰罗姆·勒琼(1926—1994),法国细胞遗传学家,于1959年首次发现唐氏综合征是由于人体第21号染色体三体变异所致。—译者注
[11] 英语“long”(长的)一词的首字母是“l”。—译者注
[12] 莱昂内尔·彭罗斯 (1898—1972),英国遗传学家、精神病学家、数学家,是二战后英国遗传学领域的重要人物。—译者注
[13] 这一等式源自哈迪·温伯格定律,也称遗传平衡定律。该定律假设,在等位基因只有一对(Aa)时,设基因A的频率为p,基因a的频率为q,则A+a =p+q=1,AA+Aa+aa=p2+2pq+q2=1,即在理想状态下,各等位基因的频率在遗传中稳定不变,即遗传平衡。—译者注
[14] 这种遗传病以英国遗传学家约翰·赫顿·爱德华兹(John Hilton Edwards)的名字命名,他于1960年首次描述了这一病症。通常情况下,人们都是先根据症状确定某种病属于遗传病,之后再寻找病因。爱德华兹综合征可能是第一种先明确病因的遗传病。
[15] 亚历山大·弗莱明(Alexander Fleming,1881—1955),英国细菌学家、生物化学家、微生物学家,于1928年首先发现了青霉素。—译者注
[16] 霍华德·弗洛里(Howard Florey,1898—1968),澳大利亚病理学家。—译者注
[17] 恩斯特·柴恩(Ernst Chain,1906 —1979),出生于德国的英国生物化学家。—译者注
[18] 徐道觉(Tao-Chiuh Hsu,1917—2003),著名美籍华裔细胞生物学家,是美国细胞生物学会首位华裔主席,在哺乳动物细胞遗传学领域有突出贡献。—译者注
[19] “chromophile”一词,由“chromosome”和后缀“-phile”两部分构成,意为“染色体爱好者”。—译者注
[20] 美国细胞遗传学会议杰出细胞遗传学家奖设立于2000年,之后每两年评选一次,以表彰那些在细胞遗传学领域做出杰出贡献的人物。—译者注
[21] 为了找出是哪个环节出了“差错”从而造成这种奇特的现象,他花了三个月的时间试遍了各种各样的方法,而且一次只改变其中的一个环节,就这样不知重复了多少次,才找到答案。
[22] 蒋有兴(Joe Hin Tjio,1919—2001),出生于印度尼西亚的华裔细胞遗传学家。—译者注
[23] 阿尔伯特·莱文(Albert Levan,1905—1998),瑞典植物学家、遗传学家。—译者注
[24] 玛尔特·戈蒂耶(Marthe Gautier,1925— ),法国儿童心脏病专家。—译者注
[25] 雷蒙德·特平(Raymond Turpin,1895—1988),法国儿科专家、遗传学家。—译者注
[26] 人类基因组计划于1990年正式启动,是一项规模宏大、跨国跨学科的科学探索工程,被誉为生命科学的“登月计划”。—译者注
[27] 詹姆斯·杜威·沃森(James Dewey Watson,1928— ),美国著名分子生物学家、遗传学家,20世纪分子生物学的带头人之一,1962年获诺贝尔生理学或医学奖,被誉为“DNA之父”。—译者注
[28] 弗朗西斯·克里克(Francis Crick,1916—2004),英国生物学家、物理学家,1962年获得诺贝尔生理学或医学奖。—译者注
[29] 罗莎琳德·富兰克林(Rosalind Franklin,1920—1958),英国物理化学家与晶体学家。—译者注