焦点论坛 Open Access
Copyright ©The Author(s) 2003. Published by Baishideng Publishing Group Inc. All rights reserved.
世界华人消化杂志. 2003-04-15; 11(4): 474-477
在线出版日期: 2003-04-15. doi: 10.11569/wcjd.v11.i4.474
生物信息学技术与新基因的研究
成军, 刘妍, 陆荫英, 李克, 王琳
成军, 刘妍, 陆荫英, 李克, 王琳, 中国人民解放军第302医院传染病研究所基因治疗研究中心, 全军病毒性肝炎防治研究重点实验室 北京市 100039
基金项目: 国家自然科学基金资助项目, No. C39970674; C03011402.
通讯作者: 成军, 10039, 北京市西四环中路100号, 中国人民解放军第302医院传染病研究所基因治疗研究中心, 全军病毒性肝炎防治研究重点实验室. cj@genetherapy.com.cn
电话: 010-6693 3391 传真: 010-6380 1283
收稿日期: 2002-10-29
修回日期: 2002-11-10
接受日期: 2002-11-18
在线出版日期: 2003-04-15

N/A

关键词: N/A

引文著录: 成军, 刘妍, 陆荫英, 李克, 王琳. 生物信息学技术与新基因的研究. 世界华人消化杂志 2003; 11(4): 474-477
N/A
N/A
Correspondence to: N/A
Received: October 29, 2002
Revised: November 10, 2002
Accepted: November 18, 2002
Published online: April 15, 2003

N/A

Key Words: N/A


0 引言

新基因的克隆化无异是生物医学领域创新知识源泉的重要组成部分. 这一任务, 不仅是人类基因组计划(HGP)的核心内容, 同时也是后基因组计划(post-HGP)的重要内容. 多年来, 随着以人的基因克隆化为主的不同生物类型基因克隆化研究的进展, 已然积累了大量的不同生物的基因序列、蛋白质的氨基酸残基序列, 同时对于不同生物种属之间基因序列、蛋白质以及结构序列的保守结构位点也积累了丰富的资料, 并据此建立了庞大的数据库系统. 对于这些数据的分析, 必须依靠计算机分析技术. 计算机分析技术的不断发展, 为这些资料和数据的分析建立了一些有效的分析技术. 因此, 自然而然就将基因和蛋白质结构的资料与计算机分析技术结合起来, 形成了目前极具潜力的新兴交叉学科-生物信息学(bioinformatics)技术[1]. 生物信息学技术的形成和发展, 大大促进了以基因的分子生物学为核心内容的现代生物医学的发展, 以基因的分子生物学为核心内容的理论和技术, 已经成为生物学领域、医学领域重要的创新知识源泉.

1 基因序列和氨基酸残基序列同源性比对及其应用

基因序列和蛋白质一级结构序列的同源性比对, 是目前生物信息学技术中最基本、应用最广泛的技术之一. 随着基因和蛋白一级结构序列数据库的不断扩充, 人们甚至单单从数据库的计算机分析就可以克隆新的基因. 目前以美国国家生物工程信息学中心(NCBI, national center of bioengineering information)建立的核苷酸序列数据库(GenBank)及其相应的检索分析系统的应用最为广泛[2].

基因序列同源性的比对, 对于分析基因组DNA序列以及完成新基因的染色体定位也是极为便捷的. 将确定的新基因的编码基因序列作为参照, 对于GenBank数据库中高通量基因序列(htgs)数据库中基因组DNA序列进行同源性对比, 当发现与新基因的cDNA序列完全同源的基因组DNA序列时, 根据Chambon原则, 内含子(intron)的序列总是以GT开始, 以AG结束, 就可以确定该基因的基因组DNA序列的结构, 及外显子(exon)-内含子序列结构. 因为在htgs数据库收录的基因组DNA序列, 其染色体的来源是十分清楚的, 因此就很容易、很方便地将该基因组进行染色体的定位, 而不再需要进行荧光原位杂交(FISH)的常规的基因染色体定位技术.可见基因的生物信息学技术的发展对于基因组DNA序列的确定和在染色体上的定位是多么重要. 我们根据基因序列同源性的比较, 曾经以人肝再生增强因子(ALR, augmenter of liver regeneration)的基因序列为参照, 确定了人ALR基因组DNA序列、小鼠ALR的cDNA序列, 甚至克隆了大鼠的ALR的假基因(pseudogene)序列[3-10].

核苷酸、蛋白质一级结构的序列对比, 不限于两两比较的方式, 多个序列彼此之间序列的比较技术, 逐渐发展成为遗传树分析法. 例如, 对于一个慢性乙型肝炎患者血清中乙型肝炎病毒(HBV)的基因序列进行克隆测定, 同时对于可能是传染源的血清标本中HBV基因序列进行测定比较, 就可以确定HBV的传染源. 即根据多个HBV DNA序列的比对分析, 判断序列的相似性, 确定彼此之间的序列的同源性, 从而确定传染源. 同样的道理, 对于一系列不同生物特定基因序列进行克隆分析、比较, 即可以确定彼此之间的亲缘关系, 并绘制成图谱, 进行分类, 这就是遗传分类学(cladistics).

2 基因启动子序列的预测分析

真核细胞的基因表达调节虽然是多个水平的调节, 但主要是转录水平的调节. 转录水平的调节基础就是转录因子蛋白与启动子DNA序列之间的结合和激活. 转录因子蛋白的结构可以分成结合域(BD, binding domain)以及激活域(AD, activation domain). 作为基因启动子DNA的序列也具有特征性的结构. 但是相比较而言, 目前基因启动子以及转录因子蛋白结合的种类, 积累的资料还十分有限, 数据库容量偏小, 计算技术相对滞后, 其预测结果仅供参考, 还必须结合其他的分子生物学技术进行证实.

一般情况下, 确定了一种新基因的编码区序列之后, 通过与htgs数据库的同源性比对, 可以很方便地确定其相应的基因组DNA序列. 在确定编码基因的起始密码子之后, 指导基因表达的启动子序列一般位于其上游基因序列300-3 000 nt之间, 鲜有例外. 可以从翻译起始密码子上有的基因组DNA序列, 选取3 000 nt左右的核苷酸序列进行生物信息学分析. 例如可以应用在线软件分析技术, 或自行研发的启动子序列分析技术等软件分析, 如; http://www.cbs.dtu.dk/services/promoter/http://www.fruitfly.org/cgi-bin/seq_tools/promoter.pl, http://bimas.dcrt.nih.gov/molbio/proscan/等. 根据这些软件分析的结果, 首先确定进行缺失突变体构建时应该采用的引物序列, 如果一段序列的缺失导致报告基因表达水平的升高, 那么说明这一段基因序列存在着启动子的静息子(silencer)的序列, 对于基因的表达水平具有负调节作用. 通过逐步缺失的策略, 最终确定启动子DNA的核心序列. 报告基因表达载体的构建以及细胞转染技术, 仍然是目前研究基因启动子序列活性最为基本的方法.

研究转录因子蛋白的结合及其对基因表达水平的调节作用和性质有许多技术, 但是利用生物信息学技术预测的启动子DNA序列的结合的转录因子蛋白结果只有部分参考的意义. 凝胶迟滞(gel shift)试验、超级迁移实验(super shift)、竞争性结合实验、酵母单杂交技术(yeast one hybrid)、噬菌体展示技术(phage display)等在转录因子蛋白与启动子DNA序列结合的研究中具有重要应用前景.

3 不同种属基因序列的克隆化及其分析

细胞凋亡(apoptosis)是生命活动的重要形式. 2002年的诺贝尔医学奖就颁给了3位在细胞凋亡研究领域做出突出贡献的科学家. 早期的细胞凋亡研究, 相当一部分的工作是在一种称为美丽线虫(C. elegans)的简单生物模型上进行研究的. 例如在美丽线虫凋亡相关基因研究中, 发现Ced-3基因与线虫细胞凋亡有关, 被称为线虫细胞的自杀基因. 根据不同生物同源基因序列的比对, 发现Ced-3蛋白与人白介素-1 β转换酶(ICE)的蛋白质一级结构序列同源性达到26%, 这种同源性在两种遗传背景相去甚远的物种的基因之间是鲜见的. 因此初步认为人的ICE基因是细胞凋亡促进基因, 即人细胞的自杀基因. 通过对人ICE基因对于细胞凋亡的研究, 发现ICE的确可以促进细胞凋亡, 从而直接导致了人类第一个自杀基因的发现与鉴定. 这是生物信息学技术, 基因序列同源性比对在发现新基因或基因的新功能方面一个十分成功的例子. 随着核苷酸数据库的容量不断加大, 计算机分析技术的不断进步, 关于不同生物种属之间序列的比对在发现新基因或发现基因的新功能方面越来越重要.

在生物进化过程中, 不同生物种属的基因都是高度保守的. 因此, 通过核苷酸序列同源性的比对, 就可以对来源于不同生物种类的同源基因序列进行分析. 这种分析过程也是新基因克隆化的重要途径. 例如, 我们在利什曼原虫新基因的克隆研究中, 为了探索与免疫应答的相关分子, 筛选基因疫苗的更好的靶抗原蛋白编码基因, 就是利用了生物信息学技术. 首先确定利什曼原虫这种细胞内寄生的原虫类型, 虫体表面的蛋白质抗原具有更多的与机体的免疫系统接触的机会, 在机体抗寄生虫免疫应答中具有重要作用[11,12].因此, 计划对于利什曼原虫表面蛋白分子进行研究, 以期有所发现. 为了完成这一研究, 我们首先对于GenBank核苷酸数据库中收录的锥虫(T. cruzi)的基因序列进行检索分析, 在GenBank我们首先发现了无鞭毛体蛋白(amastin)的编码基因序列. 然后以此序列作为参照, 利用BLAST作为检索工具, 对于GenBank中所收录的利什曼原虫的同源性基因序列进行搜索, 结果找到了一段309 nt的基因片段来源于硕大利什曼原虫(L. major). 随后, 我们利用这一片段作为探针, 对于硕大利什曼原虫的cDNA文库进行杂交筛选, 最终获得了硕大利什曼原虫的无鞭毛体蛋白的编码基因. 随后我们对于其他株的利什曼原虫的无鞭毛体蛋白的编码基因序列也进行了克隆与分析, 获得了显著的进展[13-20]. 这一基因序列是利什曼原虫基因组中的第一个无鞭毛体的基因序列, 对于研究利什曼原虫与宿主细胞之间的相互作用研究具有重要意义.

数据库的相似性搜索使我们能够从数据库中存在的数十万个基因序列中可以挑选出可能同感兴趣的序列有关联的序列, 这个方法有时会导致意想不到的收获, 用这种策略获得成功的第一个例子就是发腺病毒肿瘤基因v-sis是细胞中编码血小板衍生因子(PDGF)的正常细胞基因的一个变体形式. 那个时候, 序列的数据库还不是很大, 因此这一发现令人称奇. 随着数据库的不断扩大, 基本上可以检索到大部分基因的同源序列.

4 调节作用靶基因的分析

对于一种新基因生物学和医学意义的认识, 可以从多方面入手. 其中对于这种蛋白的表达及其在细胞中对于基因表达谱的影响研究, 也是重要的突破口. 获得基因差异表达谱的手段很多, 可以从蛋白方面入手, 也可以从基因的克隆化方面入手. 从目前的研究技术来看, 以基因芯片技术和抑制性消减杂交(SSH)技术最为有效. 首先构建这种新基因的真核表达载体, 然后与该空白载体分别转染相同的细胞获细胞系, 同时提取mRNA、逆转录为cDNA, 进行差异表达分析, 获得差异表达的基因片段. 因为目前的差异表达分析技术不能完全排除假阳性, 因此还必须首先借助杂交技术排除假阳性的可能[21-31].

获得差异表达基因片段之后, 因为这些基因片段有些是编码基因区片段, 有些是非编码区基因片段, 而且位于上游还是下游也不能一下得到确定, 这就要借助生物信息学分析技术的力量. 随着核苷酸序列数据库的不断扩大, 大部分的基因序列片段经过核苷酸序列同源性的比对就可以迅速得到确定. 如果在已经登录的基因序列数据库中没有发现同源基因序列时, 需要进行相对复杂的生物信息学技术的分析, 同时也蕴藏着发现新的基因序列的可能. 首先可根据基因序列同源性对比的原则, 以新发现的cDNA片段序列作为参照, 对于GenBank数据库中来源于人的表达序列标签(human EST)数据库以BLAST为检索工具进行同源序列的比对. 一般可以发现多个与之同源的EST序列, 然后根据这些同源的EST序列进行电子拚接, 得到更长的cDNA片段, 然后对于这一cDNA片段6种可能的开放读码框架(ORF, open reading frame)进行计算机预测. 一般来讲, 除了个别的基因之外, 其编码基因序列都在100个氨基酸残基以上, 即>300 bp的ORF要得到特别的重视. 之后以此ORF为参照, 利用上述核苷酸序列同源性比对的原则, 确定相应的基因组DNA序列, 基因组DNA序列的确定对于新基因编码取得确定同样具有决定性的意义. 从确定的基因组DNA序列中, 首先要检查该新基因序列的起始密码子(ATG)是否符合Kozak[32]原则, 即ATG周围的序列是否是哺乳动物细胞起始密码子序列特定性的结构. 大部分人的基因序列都符合这一特点. 如果能够证实这一新基因的起始密码子序列符合Kozak原则, 那么关于这一新基因序列的起始密码子的确定就可以认为是基本正确的. 关于终止码子序列的确定在生物信息学理论中同样有章可循.在人类大部分基因的基因组DNA序列中, 终止密码子序列是TAA、或者TAG、TGA, 但无论是哪一种终止密码子, 在其后大约200-600 nt的位置上, 都有mRNA的加尾信号(tailing signal), 即AATAA序列, 有时这一加尾信号序列还多次重复出现, 保证基因转录得到及时终止, 在转录终止的mRNA尾部, 加上数量不等的多聚腺苷酸, 对于维持所转录的mRNA的稳定性至关重要, 同时也是调节mRNA稳定性, 调节基因翻译水平和表达时空的重要机制之一. 如果在编码基因序列下游可以确定明确的多聚腺苷酸信号序列, 那么这一新基因的生物信息学预测结果基本是可信的.

1.  Altschul SF, Gish W, Miller W, Meyers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990;215:403-410.  [PubMed]  [DOI]
2.  Zhang J, Madden TL. Power BLAST: A new network BLAST application for interactive or automated sequence analysis and annotation. Genome Res. 1997;7:649-656.  [PubMed]  [DOI]
3.  成 军, 钟 彦伟, 刘 妍, 董 菁, 杨 继珍, 陈 菊梅. 人肝再生增强因子基因组DNA的克隆化与序列分析. 传染病信息. 1999;12:62.  [PubMed]  [DOI]
4.  成 军, 钟 彦伟, 刘 妍, 董 菁, 杨 继珍, 陈 菊梅. 小鼠肝再生增强因子cDNA的克隆化与序列分析. 肝脏. 1999;4:138-140.  [PubMed]  [DOI]
5.  成 军, 钟 彦伟, 刘 妍, 董 菁, 杨 继珍, 陈 菊梅. 人肝再生增强因子基因组DNA的克隆化与序列分析. 中华肝脏病杂志. 2000;8:12-14.  [PubMed]  [DOI]
6.  Cheng J, Zhong YW, Liu Y, Dong J, Yang JZ, Chen JM. Cloning and sequence analysis of human genomic DNA of augmenter of liver regeneration. World J Gastroenterol. 2000;6:275-277.  [PubMed]  [DOI]
7.  成 军. 肝再生增强因子超家族研究进展. 生物学杂志. 2000;17:4-6.  [PubMed]  [DOI]
8.  董 菁, 成 军, 王 勤环, 刘 友昭, 王 刚, 施 双双, 钟 彦伟. 大鼠肝再生增强因子基因组DNA的克隆化与序列分析. 临床肝胆病杂志. 2001;17:36-37.  [PubMed]  [DOI]
9.  董 菁, 成 军, 刘 友昭, 王 勤环, 王 刚, 施 双双. 大鼠肝再生增强因子假基因的克隆化与序列分析. 中华肝脏病杂志. 2001;9:105-107.  [PubMed]  [DOI]
10.  成 军主编. 程序性细胞死亡与疾病. 北京医科大学、协和医科大学联合出版社(第1版). 1997;125-129.  [PubMed]  [DOI]
11.  成 军, 斯 崇文, 王 勤环. 硕大利什曼原表面蛋白"无鞭毛体蛋白(amastin)"的基因克隆化与序列分析. 中国寄生虫学与寄生虫病杂志. 2000;18:30-32.  [PubMed]  [DOI]
12.  成 军, 钟 彦伟, 刘 妍, 董 菁, 杨 继珍, 陈 菊梅. 利什曼原虫无鞭毛体蛋白基因的克隆化与序列分析. 中华传染病杂志. 2001;19:27-31.  [PubMed]  [DOI]
13.  成 军, 钟 彦伟, 刘 妍, 董 菁, 杨 继珍, 陈 菊梅. 墨西哥利什曼原虫无鞭毛体蛋白的基因克隆化与序列分析. 中国人兽共患病杂志. 2000;16:39-41.  [PubMed]  [DOI]
14.  成 军, 钟 彦伟, 刘 妍, 董 菁, 杨 继珍, 陈 菊梅. 巴西利什曼原虫无鞭毛体蛋白的基因克隆化与序列分析. 寄生虫与医学昆虫学报. 2000;7:193-197.  [PubMed]  [DOI]
15.  成 军, 钟 彦伟, 刘 妍, 杨 继珍, 董 菁. 亚马逊利什曼原虫无鞭毛体蛋白的基因克隆化与序列分析. 中国地方病杂志. 2001;20:175-177.  [PubMed]  [DOI]
16.  成 军, 夏 小兵, 王 刚, 刘 妍, 钟 彦伟, 王 琳, 杨 继珍. 杜氏利什曼原虫蛋白磷酸酶2C的基因克隆化与序列分析. 中国人兽共患病杂志. 2001;17:37-39.  [PubMed]  [DOI]
17.  Melby PC, Yang J, Zhao W, Perez LE, Cheng J. Leishmania donovani p36 (LACK) DNA vaccine is highly immunogenic but not protective against experimental visceral Leishmaniasis. Infect Immun. 2001;69:4719-4725.  [PubMed]  [DOI]
18.  成 军, 夏 小兵, 王 刚, 刘 妍, 钟 彦伟, 王 琳, 杨 继珍. 硕大利什曼原虫激活蛋白激酶C受体的基因克隆化与序列分析. 中国寄生虫学与寄生虫病杂志. 2001;19:373-374.  [PubMed]  [DOI]
19.  成 军, 夏 小兵, 王 刚, 刘 妍, 钟 彦伟, 杨 继珍. 巴西利什曼原虫激活蛋白激酶C受体的基因克克隆化与序列分析. 寄生虫与医学昆虫学报. 2001;8:193-198.  [PubMed]  [DOI]
20.  成 军, 夏 小兵, 王 刚, 刘 妍, 钟 彦伟, 王 琳, 杨 继珍. 杜氏利什曼原虫激活蛋白激酶C受体的基因克隆化与序列分析. 中国人兽共患病杂志. 2002;18:24-27.  [PubMed]  [DOI]
21.  董 菁, 成 军, 王 勤环, 王 刚, 施 双双, 夏 小兵, 斯 崇文. 外周血中乙型肝炎病毒截短型囊膜中蛋白基因的克隆化与分析. 中华肝脏病杂志. 2001;9:163-165.  [PubMed]  [DOI]
22.  刘 妍, 成 军, 王 刚, 李 克, 段 惠娟, 王 琳, 董 菁, 洪 源, 张 跃新, 李 莉. 应用抑制性消减杂交技术克隆丙型肝炎病毒核心蛋白反式激活基因. 解放军医学杂志. 2001;26:880-883.  [PubMed]  [DOI]
23.  李 克, 王 琳, 成 军, 张 玲霞, 段 惠娟, 陆 荫英, 杨 继珍, 刘 妍, 洪 源, 夏 小兵. 酵母双杂交技术筛选克隆HCV核心蛋白结合蛋白基因1. 世界华人消化杂志. 2001;9:1379-1383.  [PubMed]  [DOI]
24.  倪 勤, 成 军, 李 莉, 夏 光明, 王 红旗, 王 刚. 肝移植术后败血症患者粪肠球菌PBP4基因的克隆化与分析. 中华医药杂志. 2001;1:1-3.  [PubMed]  [DOI]
25.  Cheng J, Wang L, Li K, Lu YY, Liu Y, Duan HJ, Hong Y, Wang G, Li L, Zhang LX. Cloning and expression of the gene of human augmenter of liver regeneration in yeast cells. Hepatobil Pancreatic Dis Int. 2002;1:87-91.  [PubMed]  [DOI]
26.  李 克, 王 琳, 成 军, 陆 荫英, 张 玲霞, 李 莉, 刘 妍, 段 惠娟. 丙型肝炎病毒NS2基因酵母双杂交"饵"载体构建及表达. 世界华人消化杂志. 2002;10:129-132.  [PubMed]  [DOI]
27.  王 琳, 李 克, 成 军, 陆 荫英, 王 刚, 刘 妍, 钟 彦伟, 段 惠娟, 洪 源. 筛选与克隆肝再生增强因子结合的蛋白基因. 世界华人消化杂志. 2002;10:161-164.  [PubMed]  [DOI]
28.  成 军, 杨 守纯. 现代肝炎病毒分子生物学.第1版. 北京人民军医出版社. 1997;204-210.  [PubMed]  [DOI]
29.  Dong J, Cheng J, Wang QH, Shi SS, Wang G, Si CW. Cloning and analysis of the genomic DNA sequence of augmenter of liver regeneration from rat. Chin Med Sci J. 2002;17:63-67.  [PubMed]  [DOI]
30.  李 克, 王 琳, 成 军, 张 玲霞, 段 惠娟, 陆 荫英, 杨 继珍, 刘 妍, 邵 得志, 夏 小兵. 筛选与克隆丙型肝炎病毒核心蛋白结合蛋白6基因. 中华实验与临床病毒学杂志. 2002;16:51-54.  [PubMed]  [DOI]
31.  王 琳, 李 克, 成 军, 陆 荫英, 张 健, 洪 源, 刘 妍, 王 刚, 钟 彦伟, 段 惠娟. 丙型肝炎病毒核心蛋白与载脂蛋白AI结合的研究. 世界华人消化杂志. 2002;10:1018-1021.  [PubMed]  [DOI]
32.  Kozak M. Interpreting cDNA sequence, some insights from studies on translation. Mamm Genome. 1996;7:563-574.  [PubMed]  [DOI]