第二节 药物基因组学相关数据库

一、最大的生物医学综合数据库NCBI
美国国家生物技术信息中心(NCBI)是美国国立卫生研究院(NIH)下属国立医学图书馆(NLM)的一个分支机构,于1988年由美国参议员Claude Pepper发起并建立,其任务主要是利用计算机信息化对生物医学研究进行指导,发展新的信息学技术来理解健康和疾病产生的基本分子生物学过程。
NCBI主要包括四项任务:①整合一个完善的系统对分子生物学、生物化学和遗传学等信息进行存储和分析,全面实现自动化;②从计算方法学上研究生物学上重要的分子化合物结构和功能;③促进生物技术研究者和医药人员对数据库和分析软件的应用;④开展世界范围内的生物信息技术合作。NCBI研究范围广泛,成立有多个研究小组,研究内容涉及计算机科学、分子生物学、数学、生物化学、实验物理学、结构生物学等方面,各研究小组齐心协力不断进行分子生物学的基本研究和应用。这些研究小组不仅在基础科学上有着突出的贡献,而且在应用研究领域也有独到的见解和成果。NCBI研究计划主要包括:检测和分析基因组织、重复序列、蛋白域和结构单元,建立人类和其他生命形式的基因组图谱、HIV感染动力学数学模型,分析数据库搜索中的各类错误,开发新的搜索和比对算法,构建非冗余序列数据库,评估比对模型等。
目前NCBI管理的资源数据库包括:Gene、SNP、Nucleotide、PubMed、Map Viewer等。这些资源都可以经由NCBI主页访问,并可以通过FTP站点ftp:// ftp.ncbi.nlm.nih.gov免费下载。此外,用户可以通过NCBI提供的各类在线指南、帮助文档和教程更深入了解和应用它。
NCBI的主页地址为http://www.ncbi.nlm.nih.gov,界面如图3-1所示。研究人员可以根据自己的需求点击相应的链接进行操作。正面界面包括6个操作选项,分别为Submit(提交数据或稿件)、Download(下载NCBI数据库中的数据)、Learn(获取NCBI数据库相关帮助文档)、Develop(利用NCBI提供的应用程序编程接口或代码库建立应用)、Analyze(应用NCBI中的工具进行数据分析)和Research(查看NCBI的研究及其合作性项目)。如果需要选择特定的数据库进行搜索可点击All Databases右侧的三角形显示下拉菜单(下拉菜单中包含42个选项),选择目的数据库即可。目前NCBI下属的数据库访问查看的地址为http://www.ncbi.nlm.nih.gov/gquery/。不同的数据库界面大致相同,可在界面中上部的长条处输入相应的关键词进行检索。NCBI数据库检索的关键词来源广泛,可以是单词、短语、句子、数据标识符和基因符号等。每个子数据库的搜索框下通常包含Advanced选项,利用该选项可以进行高级搜索。在Advanced的页面下,研究人员可以限定不同搜索字段,如作者、杂志、特定ID等,并且可以灵活运用布尔操作符“AND”“OR”“NOT”以及通配符“*”组成各种检索式来进行综合查询以提升检索的精确率和成功率。
图3-1 NCBI首页界面
作为全球最大的生物医学综合数据库,NCBI为各个数据库建立了一个功能强大的关联网络,几乎囊括了当前生物医学研究中所有常用数据库,以方便研究人员进行各类数据信息的查询和分析。通过对NCBI中的一个数据库进行检索,可根据检索内容链接至其他数据库甚至是非NCBI管理的数据库。本节将以人类药物代谢酶基因 CYP2D6为例,展示NCBI的数据库关联功能。首先,在NCBI主页All Databases处点击下拉箭头选择Gene数据库,在搜索框中输入CYP2D6并点击Search开始检索。然后,选择人类(Homo sapiens)进入 CYP2D6基因描述页面(图3-2)。
图3-2 CYP2D6基因信息界面
基因描述页面左侧包含基因的基本描述(summary)、基因位置信息(genomic context)、基因转录、翻译等信息(genomic regions、transcripts and products)和涉及基因的文献(bibliography)等。描述页面右侧则是一个侧边导航栏(sidebar),包含对本页面及一些其他数据库的索引。其中table of contents为对本页面的索引,对应本页面的各项信息,点击后可直接跳跃至索引所关联的信息页面。其他的则大多为各类数据库链接,可在相应的数据库中查询与 CYP2D6有关的信息。例如,点击map viewer可以图片的形式查看 CYP2D6在染色体上的相关信息;点击SNP可查看 CYP2D6中所有被NCBI的SNP数据库中收录的SNP的基本信息;点击nucleotide可查看 CYP2D6基因的DNA、RNA的序列信息。研究人员可根据自己的研究目的点击相应的条目获取 CYP2D6基因的各类信息。
二、基因组浏览器
基因组浏览器是基于基因组的浏览框架,可用于实现很多功能,如用户可进行交互式的浏览,能够查看大小的基因组区域。一些浏览器可以直接查看和SNP相关的信息,并可以把这些信息直接导入Excel电子表格或者其他数据分析工具中。
(1)UCSC基因组浏览数据库:
UCSC基因组浏览数据库(UCSC genome browser database)于2000年由美国加利福尼亚州的圣克鲁兹大学(University of California Santa Cruz)创立并维护,提供脊椎动物和一些模式生物的基因组装配序列和注释的数据库(http://genome.ucsc.edu/)。目前,数据库包括了覆盖91类物种的160种基因组序列。随着基因组序列的完成和不断更新,该库相应的装配序列等相关注释信息也随之更新并日趋完善,这包括:测序和装配的注释(这些原始序列来自RefSeq、GENCODE、Ensembl和UCSC)、转录实证(来自GenBank和其他资源)、表观遗传和基因调控的注释(来自ENCODE计划的综合数据集等)、比较基因组和进化保守序列的注释、重复元件的识别(来自RepeatMasker和其他资源)、包含表型的生物医药注释、文献和基因组突变注释(来自dbSNP、千人基因组计划和其他资源)和基因组重复元件的综合注释。此外,还包括概要、分析结果、建模研究和试验数据等信息。UCSC整个的功能模块除了可视化的基因组浏览器外,还提供多种网络或单机版的分析工具,因此UCSC本质上是一个BDMS,并非一个单纯的基因组浏览器。
UCSC是一个动态的网络接口,可以迅速显示目标序列,经由各种超链接可以导向其他模块。浏览器中所有的注释数据集被格式化并可以由用户以不同的配置在不同分辨率下进行图形化的浏览,例如可以对浏览器任意区域使用鼠标进行放大缩小(范围从完整的染色体到单个的碱基)、拖曳或者高亮显示,各种显示轨道的顺序可以单击鼠标拖曳来改变。UCSC浏览器主页的搜索框内可以键入基因符号、基因位置和其他搜索关键词来进行搜索,并且还配备其他定位器来进行搜索,例如基因组坐标、染色体条带、rs编号等。浏览器主页还配备4个按钮来进行配置,分别是轨道和显示、轨道搜索、添加自定义轨道和轨道hubs。轨道和显示页面可以用于配置浏览器导出文件的分辨率、注释文字标题的宽度等,以及配置基因、突变、表观遗传学和其他注释项目的轨道显示,例如显示UCSC的基因轨道、显示Ensembl的基因轨道、RefSeq的基因轨道等。此外,这些经过配置后的预览参数可被作为“session”保存,方便以后直接调出或者和其他用户共享。添加自定义轨道允许用户上传自己试验或者其他的小型注释文件,如果更大的文件需要利用浏览器提供的其他软件(例如GBiB)进行格式化以支持远程访问或者本地化的UCSC基因组浏览器。轨道hubs可以独立被预览也可以和其他用户共享,例如装配序列hubs(assembly hubs),它是一种专门用于基因组装配序列的轨道hubs,它可以经由用户配置把用户或者其他组织管理的基因组装配序列以远程可视化的方式来访问。
UCSC提供各种软件分析工具,主要包括:基于网络的表格浏览器(table browser)、突变注释整合器(variant annotation integrator,VAI)、基因分类器(gene sorter)、基因组图形化软件(genome graphs)、虚拟基因组显微镜Visigene和LiftOver等。表格浏览器可以对UCSC数据库进行基因数据的自定义下载,并可获得多种输出格式,也可把输出结果直接导入到其他外部软件进一步分析,例如Galaxy、Genome Space和GREAT等。VAI可使用户上传突变信息并且让用户浏览所选择的转录本或调控数据集,如ENCODE、COSMIC或保守元件。用户可以以各种方式上传突变信息:如直接输入dbSNP的rs编号,或者上传VCF和pgSNP格式的文件。输出的文件可以是HTML格式或者是带有tab分隔符的文本文件。基因分类器可以用以表格格式来显示一组相关基因。这些基因的相关性可以通过该软件页面的下拉框来设置。基因组图形化软件是一个用于显示全基因组数据集的工具,例如全基因组SNP研究结果集。虚拟基因组显微镜提供了由细胞到组织范围的原位图谱。这些图谱和用户查询的基因相关。用户可以对这些图谱进行缩放等操作。LiftOver可以把经由UCSC软件注释的装配序列文件转换成其他版本,它有网络版,也有命令行模式的单机版。
如果用户要求数据保密,或者进行可视化的研发,那么可以安装一个本地化的基因组浏览器或者盒子中的浏览器(genome browser in a box,GBiB)。GBiB是一个很重要的软件工具,它主要由一个运行于用户电脑上的虚拟机和网络浏览器组成,支持Windows、Mac OSX或者Linux等操作系统平台。可以通过虚拟机对UCSC数据进行远程访问也可由UCSC服务器来读取用户电脑上的大数据,例如NGS数据(由于数据量太大,这些数据不能使用UCSC的“自定义轨道”上传)。UCSC还提供应用广泛的BLAT序列比对工具。以上这些工具都可以在UCSC网站免费下载或者注册使用。
(2)ENSEMBL数据库:
ENSEMBL是一种对真核生物基因组进行自动注释的软件系统,由欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)和英国惠康基金桑格研究所(Wellcome Trust Sanger Institute,WTSI)共同协作创办并维护。该软件主要用于注释脊索动物和模式生物的基因组数据,例如基因和转录体位置、基因序列进化、基因组演变、序列和结构变异以及调控元件等。ENSEMBL目前版本为84,其对应的GENCODE版本为24。ENSEMBL提供这些注释数据的访问接口——ENSEMBL基因组浏览器(http://www.ensembl.org/index.htm l)。ENSEMBL数据库中的数据都可以从网站提供的API接口和FTP网址进行无限制访问和下载。
ENSEMBL基因注释数据近两年主要来自具有实验证据的Illumina RNA-seq。数据以计算机识别的二进制(binary alignment/map,BAM)格式存储。由一个基于矩阵的配置工具处理这些RNA-seq数据,接着进行自动和人工注释产生GENCODE基因集,同时为每个注释的基因生成一个转录本集,这个转录本集被称为GENCODE基本集。基本集中具有全长蛋白编码的转录本或者非编码转录本在浏览器中被高亮显示,其相关信息显示在浏览器查询的结果页,这些信息主要包括转录表格(transcript table)和转录概要(summary)。转录表格中“flag”字段有一个转录支持水平(transcript support levels,TSL)标签,代表该转录本的可信度,该值来自UCSC或者ENSEMBL对mRNA或者EST进行比对而确定的结果。ENSEMBL参与共识编码序列计划(consensus coding sequence,CCDS),该计划的协作者还包括其他几个大型基因组数据库中心(EBI、HGNC、MGI、NCBI、UCSC和WTSI),目的是对人类和小鼠基因组蛋白质编码区进行高质量的注释并获得一致。ENSEMBL定期把人类和小鼠的GENCODE基因和NCBI中的RefSeq基因进行比对以产生CCDS记录模型。
ENSEMBL的调控区注释是针对跨越整个基因组的表观遗传标记进行的,这些数据涉及十几种人类和几种小鼠细胞的基因组。ENSEMBL调控区的注释数据主要来自JASPAR数据库的转录因子结合模序。ENSEMBL注释了大量基因组突变信息,收录了约3.23亿个等位基因和基因型频率已知的短序列突变和插入删除突变,以及1300万个结构突变和14个物种的疾病相关信息。这些突变数据还包括胚系突变和体细胞突变。ENSEMBL经由API接口提供独有的全基因组范围内的基因型和连锁不平衡信息访问。此外,ENSEMBL还可以直接在自己的网站显示来自DECIPHER和Leiden Open Variation Database(LOVD)的突变注释数据。ENSEMBL在默认条件下的突变轨道显示的是来自千人基因组计划最小等位基因频率不小于1%的常见突变。ENSEMBL还利用Genocoding计划和PubMed提供更多的突变注释信息。
ENSEMBL提供各种访问和分析工具,如用于数据挖掘的表述性状态传输API(representational state transfer API,RESTAPI),用于序列搜索比对的突变效应预测器(variant effect predictor,VEP),用于数据筛选的BioMart等。ENSEMBL的软件架构基于Ehive。Ehive是一个内建的计算农场管理软件,它具有强大的处理大型数据集的能力。ENSEMBL很多软件都运行在这个平台上。
VEP是一个强大、灵活、针对用户的注释突变工具。可以被应用于所有ENSEMBL支持的物种,甚至不支持的物种。仅需要两个文件(基因组FASTA格式文件和GTF格式的转录注释文件)就可以运行并迅速获得结果。VEP输出结果包括概要统计信息、一个饼图和一个可分类、可过滤的数据表。ENSEMBL也提供支持更多数据的VEP单机版,如PubMed IDs、Exon Sequencing Project频率、UniProt IDs、HGNC IDs等,并且可以加载实现若干功能的插件集。VEP除了可以对RefSeq和ENSEMBL转录体、GENCODE基本转录体和座位参考基因组等序列进行注释外,还可以为用户自己的基因集进行注释。
ENSEMBL使用REST为用户提供一个访问服务器,REST支持JSON和FASTA文件格式,可以在大大减少客户端资源的同时,允许用户以多种程序语言对ENSEMBL数据进行检索。ENSEMBL数据可以经由几种方式访问,如基因组浏览器、BioMart挖掘工具、R软件包Bioconductor或者Dalliance浏览器。
三、基因组注释数据库
利用生物信息学相关的各种方法可以建立不同知识库,并将这些库里面的内容相互关联,提供综合的解释,由此诞生了基因组注释数据库。当前最著名的两个基因组注释数据库为日本京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)和基因本体论(cene ontology,GO)。
(1)KEGG:
KEGG成立于1995年,是一个破译基因组密码的参考知识库。它的信息来自试验性的数据,并可以由几个分子网络来表征(KEGG PATHWAY、BRITE HIERARCHY和KEGG MODULE)。KEGG的数据结构由KEGG ORTHOLOGY构成,该系统是把基因组中的基因与上述几个分子网络中的各个节点进行连接的关键组件。自成立以来,KEGG不断发展以求更好地满足大型计划和普通研究人员的需要,其近几年的任务主要是收集并注释能够影响上述分子网络的疾病和药物信息。KEGG可经由 KEGG网站(http:// www.kegg.jp/)和GenomeNet网站(http://www.genome.jp/kegg/)访问。
KEGG是一个整合的数据库资源,由15个主要子库组成(图3-3)。它包括各种KEGG数据对象。这些对象,被用于表征KEGG内部若干种分子系统,如系统信息(PATHWAY、BRITE、MODULE、DISEASE、DRUG和ENVIRON)、基因组信息(ORTHOLOGY、GENOME和GENES)、化学信息(COMPOUND、GLYCAN、REACTION、RPAIR、RCLASS和ENZYME)等。一般来讲,每个数据库记录的标示符由“db:entry”构成,db表示数据库名,entry是记录名。记录名由KEGG对象标识符组成(数据库前缀+5位数字)。由于记录名具有唯一性,因此db可以在由人工建立的13个数据库中省略。剩下的2个数据库KEGG GENES和KEGG ENZYME的数据分别来自RefSeq和ExplorEnz,这些原始数据经过KEGG再次注释以供用户访问和分析。除此之外,在基因组信息分类中还有计算产生的附加数据库,包括KEGG DGENES、KEGG DGENES、KEGG MGENES和KEGG SSDB。它们分别收录基因组草图中的基因、EST重叠组基因、宏基因组基因和序列相似性的关系。
图3-3 KEGG首页界面
KEGG GENES是一个收集所有物种基因(来自RefSeq数据库中的完整测序的基因组)的数据库。每个物种的编码由3字符的物种代码和记录名(要么是NCBI基因ID号,要么是locus标签)组成。其中数据库代码可以由KEGG GENOME数据库中的T编码标识符替换,如人类“hsa”等价于T01001。物种代码可以同时作为前缀来标识 KEGG pathway maps、BRITE hierarchies和KEGGmodules数据库物种专有版。KEGG DGENES和EGENES的物种可以用4字符的物种代码(分别以d和e开头)或者T编码来标识。MGENES的环境样本只通过T编码来标识。
KEGG PATHWAY由图形化的图表构成,它们用于表述各种分子互作和反应网络,如代谢、遗传信息、环境信息、细胞过程、物种系统、人类疾病和药物研发等。每张图的资料来源于具有试验实证的出版文献,由人工进行审议,并经过内建软件KegSketch处理。KEGG PATHWAY中基本的图形对象包括:方形盒(K编码标识的KO集合)、圆形图(C编码标识的小分子,G编码标识的聚多糖等)和线条(总代谢图中的KO集合)。在常规代谢图中的方形盒与总代谢图中的线条同时与EC编码标识的酶和R编码标识的反应连接在一起。参考通路图的名字由前缀“map”来标识,其3个子版分别使用前缀“ko”、“ec”或“rn”标识。
BRITE hierarchy文件,被称为htext(或hierarchical text),描述了已知基因与蛋白、疾病与药物、化合物与反应、物种与细胞的功能树分支。每个htext文件由人工和内建的KegHierEditor软件生成。文件的首列包括“A”“B”“C”等,它们用以显示分级关系,并且可以含有多个tab间隔的列。BRITE htext文件有两种类别,“ko”代表基因和蛋白,“br”(日文版的称为jp)代表疾病、药物和化合物。
KEGG的通路信息以3种分辨模式被显示:全图(代谢图)、常规图和模块图模式。为了更详细的显示通路中的相关信息KEGG MODULE被引入。KEGG模块有4种类型:通路、结构复合物、功能集和信号模块。前3种模块类型通常和KEGG部分通路图及BRITE树分支对应。信号模块是一套基因组或转录组中的基因,这些基因可以被作为诸如病因发生和代谢能力等表型的生物标记。每个KEGG模块通过K编码集来定义,并且和一个自动产生的模块图相关。
KEGG PATHWAY、BRITE和KEGG MODULE用一种相同的方式创建并应用于所有物种。这种方式是基于KO集合而非具体物种。每个KO记录表示一个人工定义的特定条件下的直系同源集合。这个集合是由基因组注释程序形成的直系同源基因,对应于PATHWAY、BRITE或MODULE中的每一个节点。
从本质上来讲,KEGG基因组注释是一种跨物种的注释,通过在所有可应用的基因组中搜索直系同源基因并分配K编码。
(2)GO:
GO是一个在生物信息学领域中广泛使用的数据库。它实质上是一个词汇表,具有树形结构,可对基因组序列进行注释。GO最早由果蝇、小鼠和酵母基因组项目的研究人员发起建立,1998年上述项目研究人员成立了基因本体联盟(Gene Ontology Consortium)。创建基因本体的目的在于为科研人员提供一个具有代表性的规范化的基因和基因产物特性的术语描绘或词义解释平台,对基因和基因产物的数据能够进行统一的归纳、处理、解释和共享。
随着生命科学的不断发展,人类对基因组的了解逐步深入,如何对基因组序列注释也显得尤为重要。目前,对基因组的注释主要分为两种,第一种是结构注释(structural annotation),主要分析序列在基因组中的具体位置如外显子、内含子、启动子等;另一种是功能注释(functional annotation),主要推断序列编码产物的功能。二者相互独立又相互关联。
当前高通量检测技术逐渐普及,海量的基因组、转录组、表观基因组的数据不断积累,注释描述的工作量和复杂度大大增加。另一方面,在不同真核生物中大多数基因拥有相同或相似的生物功能。也就是说在某些物种中获得的基因或者蛋白质的生物学信息,可以用来解释其他物种中对应的基因或蛋白。因此,为了避免重复的工作,提高科研人员的注释效率,减轻注释工作量,GO应运而生。GO通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色。每个基因会根据其不同的功能被分配到不同本体的子集中。随着生命科学研究的不断深入,本体数据将根据最新的科研成果不断积累和更新。
基因本体联盟目前建立了三大本体,分别是biological process生物过程、molecular function分子功能及cellular component细胞组分。这三个本体以下又可以独立出不同的亚层,层层向下构成一个树型分支结构。基因本体联盟建立了基因本体数据库方便科研人员进行注释。该数据库的网址为:http:// www.geneontology.org/。这里以人类CYP2C9基因为例介绍如何使用GO进行注释:①进入GO主页后,在检索框输入CYP2C9并点击Search;②点击Genes and gene products;③选择人类(Homo sapiens)的CYP2C9进入注释页面。图3-4为CYP2C9的注释页面,在找到的实体(found entities)中可查看注释结果,包括直接注释的功能(direct annotation)、证据类型(evidence type)、参考文献和日期等。关于各参数的详细解释可以在http://geneontology.org/page/guidego-evidence-codes页面查看。点击直接注释栏目下的注释内容可查看基因所对应的本体条目。例如,CYP2C9的第一个直接注释为单加氧酶活力(monooxygenase activity),点击后可查看单加氧酶活力条目的具体信息,如登记号、所属本体、功能定义等。
GO还能对用户所提供的基因集开展富集分析(enrichment analysis),该分析可帮助用户找到基因显著富集的本体,从而判定研究表型与哪些生物过程、分子功能或者是细胞组分有关。使用富集分析时只需将所获取的与研究表型相关的基因集输入,选定本体类型和物种类型即可进行分析。
四、药物基因组学专业数据库
(1)药物基因组学知识数据库:
药物基因组学知识数据库(Pharmacogenomics Knowledge Base,PharmGKB),始建于2000年,主站位于斯坦福大学,隶属于PGRN的一部分,由美国国家医学研究院(National Institute of General Medical Sciences,NIGMS)管理和维护,并由多个NIH的研究机构共同参与,包括NHLBI、NIDA、NCI、NIEHS、NHGRI、NIMH、NLM等。它主要提供人类遗传变异影响药物反应的各种信息,可以说是目前成立最早、最具权威的药物基因组数据库。该知识库融汇了多学科力量来解决遗传药理学和药物基因组学所提出的各种问题,并最终为每个患者制订安全有效的用药方案。
图3-4 CYP2C9的GO注释页面
PharmGKB的核心任务就是捕捉各研究机构并收录与药物基因组学相关的原始基因型、表型数据。这些表型可能发生在分子(结合)、细胞(表达)、组织(转化)或整体的级别(疾病和症状),所有的注释被编码分类以便于查询获取,并且每周从所出版的文献中挖掘基因、突变、药物、表型间的关系,以求在稳定的维护数据机制上达到最新、最全的目的。PharmGKB对基因和突变采用人类基因组命名委员会的推荐指南来命名;对药物则在RcNorm药物命名的基础上进行药物术语的统一;表型术语的统一标准则使用医学主题词(MeSH)和统一医学语言系统(UMLS)。PharmGKB分为查询模块和提交模块。查询模块主要分为5个基本内容:基因、变异、药物、疾病以及通路,并把数据的种类分为5类:临床结果(clinical outcome,CO),药效动力学(pharmacodynamics,PD),药代动力学(pharmacokinetics,PK),分子及细胞功能分析(molecular and cellular functional assays,FA)以及基因型(genotype,GN)。PharmGKB的记录都是经由人工注释的,其目的就是以更加结构化的方式来呈递基本的突变注释和它们潜在的临床表型。
PharmGKB鼓励研究者将临床科研数据集中起来,以建立大型的数据管理系统,以期达到增加样本量的作用,并使得样本管理和使用更加方便。因此,PharmGKB成立了国际华法林遗传药理学联合会(International Warfarin Pharmacogenetics Consortium,IWPC),这是第一个这类模式的大型国际合作组织。这一尝试的直接结果就是使一种针对华法林剂量计算的新方法诞生出来,并已被证实具有更加可靠的临床效应,这是个体化医学应用成功的代表之一。继而,又相继成立了国际他莫昔芬药物基因组学联合会(International Tamoxifen Pharmacogenomics Consortium,ITPC)、国际选择性五羟色胺再摄取抑制剂药物基因组联合会(International SSRIPharmacogenomics Consortium,ISPC)、国际氯吡格雷药物基因组联合会(International Clopidogrel Pharmacogenomics Consortium,ICPC)、国际抗高血压药物基因组联合会(International Consortium for Antihypertensives Pharmacogenomics Studies,ICAPS)等组织。
(2)药物相关药物基因组学生物标记列表:
药物相关药物基因组学生物标记列表是美国食品药品监督管理局(FDA)建立的用于提醒医生在临床用药时需予以重视的生物标记的列表(见附录)。
(3)抗癌药物敏感性基因组数据库:
抗癌药物敏感性基因组(genomics of drug sensitivity in cancer,GDSC)数据库是由英国惠康基金会桑格研究所建立的用于查询抗癌药物与癌症细胞系敏感性关系的数据库(http:// www.cancerrxgene.org/)。该数据库中的数据来源于由惠康基金会桑格研究所和美国马萨诸塞州综合医院癌症中心合作开展的癌症基因组计划中的抗癌药物敏感性基因组项目。抗癌药物敏感性基因组项目旨在识别癌症基因组可用于预测抗癌药物敏感性的分子特征。
GDSC包含140种抗肿瘤药物针对707种肿瘤细胞系的半致死浓度(half maximal inhibitory concentration,IC 50)数据,并提供每种细胞系的基因组和表达组信息。研究人员可以很方便地查询到某种抗肿瘤药物对哪些肿瘤细胞敏感,哪些肿瘤细胞不敏感,并获取这些肿瘤细胞的分子特征(如基因表达异常或者基因突变等)。在GDSC上,研究人员可对药物、基因或者细胞系的名称进行直接搜索以获取相关信息。这里以顺铂(cisplatin)为例。在GDSC主页的Search框输入cisplatin后可得到搜索结果。点击搜索结果中的cisplatin可获取用顺铂处理过的所有662种肿瘤细胞的IC 50值分布图,如图3-5所示。
图中每一条灰色的竖线代表一个细胞系,点击灰色的竖线可获取细胞系的名字、具体IC 50值及IC 50的排序等信息。点击图上菜单栏的火山图(volcano plot)、散点图(scatter plot)等选项可获取基因突变与顺铂IC 50关联分析的结果。在散点图选项中还可以对不同的肿瘤类型进行单独分析。在Download选项页面中则可以对包括顺铂的IC 50数据、基因突变关联分析结果等在内的信息进行下载,方便研究人员开展进一步的分析。
(4)DrugBank:
DrugBank由加拿大亚伯达大学开发并维护,是一个综合的在线药物信息数据库,涉及生物化学和药理学等,它通过相关领域的专家和评议员对各种文献资料的评审而进行维护和更新。它首次发布是在2006年,迄今为止已更新到了5.0版(http://www.drugbank.ca/)。DrugBank针对用户的反馈和药物研发的变化趋势快速发展。它早期的版本已被广泛用于药物和电子药物靶点的发现。最新版拓展了更多的内容和功能,这包括:药物动力学(吸收、分布、代谢、排泄和毒性,ADMET)和其他各种定量结构活性关系(QSAR)。这些更新促进了各方面的研究,如外源性代谢作用的研究(包括预测和表征)、药物动力学、药物效应学和药物设计/发现。目前版本包含有超过1200种药物代谢物(包括结构、名称、活性、丰度和其他信息)、超过1300种药物代谢反应(包括代谢酶和反应类型)、几十个药物代谢通路。此外,还包括许多新的和改进的搜索工具。
图3-5 顺铂处理细胞系IC 50分布图
DrugBank数据具有质量高、范围广、独特等特点。目前已经为药学研究者、药物化学家、临床医师、教育工作者、普通大众等所认可。它的大部分数据来自对原文献资料的精细评议,因此已经成为许多知名数据库(如PharmGKB、ChEBI、KEGG、GeneCards、PDB、PubChem、UniProt和Wikipedia等)筛选药物的参考数据。DrugBank首版只提供了FDA批准的药物和相关靶点;2.0版在FDA药物数量增加的基础上又添加了药理、药物基因组和分子生物相关数据;3.0版于2010年发布,增加的新数据包括药物-药物和药物-食物相互作用、代谢酶和转运体以及药代学和药动学等信息。当前版侧重于药物定量信息和关于药物本身、代谢物和下游效应检测的改进技术。特别值得一提的是,该版对QSAR、ADMET、药物代谢和药物基因组学领域的内容做出了明显的改进和添加,如对药物结构、药物晶型、药物名称、药物靶点和药物反应等原有信息进行了改进和更新。在大量批准和实验用药物被添加的同时,每个记录对应的新字段也陆续被添加。另外,新的搜索工具也被改进和开发。
(5)药物基因组命名数据库:
药物基因组命名数据库是由特定组织依据命名指南,对具有相似特性的一类基因或等位基因进行统一的标准化命名,以期规范化不同的命名方式所造成的科研报告、成果的混乱,并由此减少由于命名的不同而导致的科研重复。例如标准化对细胞色素P-450酶命名的人类细胞色素P-450酶基因命名委员会,始建于1999年,主站由瑞典的Karolinska研究所维护,包含大约30个CYP亚家族和一个POR基因(http://www.cypalleles. ki.se/);人类糖基转移酶基因命名数据库由加拿大药物基因组学研究中心管理,负责 UGT1A和 UGT2B的命名和维护(https://www.pharmacogenomics. pha.ulaval.ca/cms/ugt_alleles/);人类氮-乙酰基转移酶基因命名数据库由美国路易斯维尔大学建立,目前由希腊塞萨斯德谟克里特大学负责维护,提供NAT1和NAT2单核苷酸突变和单倍型信息查询(http://nat.mbg.duth.gr/)。进入这些数据库后只需点击相应的基因名即可以获取该基因所有等位基因及其相关的突变信息。