生物信息学数据库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。






数据库

目前有数百个分子生物学数据库:文献,大分子序列与结构,分子化学性质,
基因组图谱与多态性,分类与系统发育,以及实验材料(生物株,克隆文库等)
等等。
详情可见http://expasy.hauge.ch/cgi-bin/listdoc
另有两个数据库的目录集:
MBDL(英) /nar/Volume_27/Issue_01/summary/gkc105_gml.html 和
DBCat(法) biogen.fr/services/dbcat

注意:上课时讲的很多数据库,可以自己从上面三个地址中获得列表。




其中套件BLAST 最为常用:

1 、BLAST

会操作此软件的生物学家很多,但有几点要注意的:

(1) 好多人弄不清,输出行上的Score ,expect,P(N)何意?

Score = ,用打分表BLOSUM-62 ,Score in bits = ,?=0.319 ,k = 0.133
,稍有变化。expect简称E-value ,已经考虑了数据库的因素。其意义是:当用
咨询序列搜索一个数据库(如非冗余的SwissProt ,现有77419 条序列,共27864727
残基),纯由机会击中对象的平均数。例如E=1 ,表示在目前大小的数据库中,
纯由机会搜到的对象数平均值为1 。而P(N)指N 个最高分匹配段的分数和纯由机
会超过域值的概率。这些P 与E 有关系式P=1-e-E 。如何计算这些Score, Expect
和P(N),须有较专门的统计数学的知识。对一般用户,乃须知道它们的含义。

(2) 在BLAST2.0,2.05新版中启用了gapped BLAST、PSI-BLAST 和PHI-BLAST
。gapped BLAST是比原BLAST 更灵敏更快的局部相似联配(俗称局部同源)搜索
法;PSI- BLAST用迭代型的剖面打分算法,每次迭代所费时间与前者相同,它可
检索弱同源的目标;PHI-BLAST 98年刚出台,是模体(Motif )构造与搜索软件
,是更灵敏的同源搜索软件。例如线虫的CED4是apoptosis 的调控蛋白,含有涉
及磷酸结合的P 环模体,在各种ATP 酶和GTP 酶中可发现。在用gapped BLAST搜
索NR数据库时,CED4仅跟人凋亡调控蛋白Apaf-1显著同源或相似(其中含有P-loop
保守区)。

但PHI- BLAST搜索,另有一个显著同源(E=0.038 )目标,是植物抗病蛋白
Arabidopsis thaliana T7N9.18,证实此动物与植物蛋白确实在apoptosis 中有
相似的功能。另有,按PHI- BLAST搜索在MutL DNA修复蛋白中的ATP 酶域,II型
拓扑异构酶,组氨酸激酶和HS90家族蛋白,发现一个新的真核蛋白族,共有HS90
型ATP 酶域。再有在古核tRNA核苷酸转移酶中发现核苷酸转移酶域,在细菌DNA
引物酶的古核同源体中发现螺旋酶超家族II的模体VI。用以往的搜索法这些是得
不到的。

(3) 在操作中,注意选项即掩盖低熵区和重复区,它们会引发许多高分假阳
性。

2 、数字克隆(In Silico Cloning )

在公共EST 库dbEST

中,现在已存储有1200000 条以上的EST ,来自不同种
族和组织。其中人和鼠各占833000和237000条(最近又扩大了)。为了得到全长
转录体和它的染色体定位(mapping ),数字克隆是既快又省钱的一种方法。可
以用核酸或蛋白序列作为咨询序列搜索dbEST 。咨询序列可以是基因组序列,要
检查它是否是推定的转录物(像在定位克隆计划中);也可以是一个已知基因,
要验证相关序列(基因家族新成员)。可以用搜索软件BLAST2.0
(/blast)。TIGR和NCBI-UniGene不断分析已
知EST 和已知基因序列,把属于同一转录物的EST 聚成类。

UniGene 含近五万条转录类。这些可用于实现虚拟northern blots以及基因
表达电子差异显示。输入人EST 存取号,输出相应转录类,经用软件集装,能形
成一条较长甚至全长的转录序列。

数字克隆站点有:
UniGene /UniGene/index.html
TIGR /tdb/hgi/searching/hgi_reports.html
TIGEM http://gcg.tigem.it/cgi-bin/uniestass.pl

ESTBlast /ESTBlast/
注意:这个站点需要注册通过才能使用,所以一般可以用TIGEM站点或
STACK站点

STACK http://ziggy.sanbi.ac.za/stack/stacksearch.htm

3 、电子PCR 高度特异的和灵敏的PCR 用来构造人类基因组遗传与物理图谱
的专一路标STS (序列标记位点)。此STS 已达3 万。用e-PCR 识别新序列上的
STS 位点,从而确认新序列的图谱位置(mapping )。对cDNA测序策略中,有EST
图谱定位查询(In silico mapping )。从UniGene 查询目标EST 的类,由此类
获得放射杂交的区段图谱信息。

4 、3D结构模建现在,一半蛋白质家族的结构已经知晓,故常可提供蛋白的
结构甚至功能信息。Entrez 3D structure database(还有其他)提供了这种服
务。

/Entrez/
/Structure/CN3D/cn3d.html
info@

欧洲生物信息学研究所/
欧洲生物信息学研究所是一个非盈利学术机构,是欧洲分子生物学实验室的一部分。它是生物信息学研究和服务的中心。它所管理生物数据的数据库包括核酸,蛋白质序列和大分子结构。它的使命是保证从分子生物学和基因组研究的日益增长的信息向公众公开,并且对科学研究团体提供任何方面的免费使用,以促进科学发展。
欧洲生物信息学研究所Ensembl基因组浏览器:ttp:///ensembl/index.html
欧洲生物信息学研究所Thornton研究组/Thornton/index.html
欧洲生物信息学研究所多序列联配数据库:
 /embl/Submission/alignment.html

欧洲生物信息学研究所工具箱/Tools/
欧洲生物信息学研究所核酸数据库/Databases/nucleotide.html
欧洲生物信息学研究所计算基因组研究组/research/CGG/index.html
欧洲生物信息学研究所完整基因组数据库/genomes/
欧洲生物信息学研究所序列数据库研究组/seqdb/index.html

Brutlag生物信息学研究组/
Brutlag生物信息学研究组是斯坦福大学的一个研究团体,主要研究从蛋白质一级结构预测蛋白质结构和功能,其开发了EMOTIF、EMATRIX和3MOTIF软件应用于非鉴定的基因组序列的功能确定,另外还开发了LOCK和3DSEARCH软件用于比较蛋白质结构和蛋白质结构数据库的搜索。

生物GBF信息学小组主页http://transfac.gbf.de/
生物信息学小组主页是德国生物技术研究中心的生物信息组的主页。其提供的资源十分丰富,包括出版物、研究计划、研究组介绍、五个重要数据库、十二个工具软件和资源链接等。

Pune大学生物信息学中心http://bioinfo.ernet.in/
Pune大学生物信息学中心成立于1987年,是生物技术系统的九大中心之一。提供生物工程领域的信息,侧重病毒学,蛋白质和核酸序列与结构。其提供的资源丰富,包括数据库、微生物菌株数据网络系统、生物信息学中心图书馆、Alpha服务器的软件包、生物信息学的有用网址、EBI和PDB的数据库镜像等。

北京大学生物信息学中心/
北京大学生物信息中心(CBI)成立于1997年,是欧洲分子生物学网络组织EMBnet的中国国家接点。几年来,已经与多个国家的生物信息中心建立了合作关系。目前是国内数据库种类最多,数据量最大的生物信息站点。在基因预测、基因组、蛋白质结构等领域都有相应的研究项目。

加拿大生物信息学资源http://cbr-rbc.nrc-cnrc.gc.ca/index_e.php
这是加拿大生物信息学资源(CBR)的网站。该网站由加拿大国家研究委员会(NRC)创建,旨在为国家研究委员会与其它**、学术部门的科学家提供广泛使用的生物信息学工具和共享数据。加拿大生物信息学资源部分由一个专门使用该资源的委员会管理,而且其资源在用于教育和非盈利研究时只需注册均可免费作用。网站还提供有关新闻、服务与下载等信息。
结构生物信息学公司/
结构生物信息学公司是世界上占领导地位的、蛋白质组学推动的药物发现的公司,他们大规模地产生和使用蛋白质结构信息,以期加速发现和优化过程。它提供的软件主要针对加速药物发

现和优化过程、提高筛选效率和降低成本、极大地重视知识产权的地位、提高药物性能和增加技术和市场成功的可能性。此外,还提供三个药物数据库。

林奈斯生物信息学中心http://www.lcb.uu.se/
这是林奈斯生物信息学中心(LCB)的网站。林奈斯生物信息学中心研究非常活跃,隶属于瑞典Uppsala生物医学中心。作为一个由Uppsala大学与瑞典农业大学的联合研究机构,确保了高质量的尖端的研究与教育,其研究范围从微生物与哺乳动物基因组学经计算机的功能基因组学到分子进化。网站还提供有关入学、新闻时事、研讨会、工具、学生计划等方面的信息。
曼彻斯特大学生物信息学教育与研究/
曼彻斯特大学生物信息学教育与研究是欧洲分子生物网络的节点之一,负责维护一些数据库(如蛋白质模体指纹数据库,PRINTS)。站点提供蛋白质同源性分析,蛋白质模体指纹分析,系统发生和序列进化分析,以及微阵列分析,并提供生物信息学和PRINTS数据库数据下载。

《生物信息学》/jnls/list/bioinformatics/etoc.html
生物信息学》是由英国牛津大学出版社出版。其主要刊登生物信息和计算生物学方面的研究论文、书评、综述、读者来信和述评等文章。其刊载的文章在两年内供给学术界免费使用。
生物信息学/pages/bioinfo.html
生物信息学是印第安纳大学分子和细胞生物学研究所提供的生物信息学资源。此资源包括数据库、基因发现程序、蛋白质模建、生物信息学在线教程、研究基金的来源、研究项目和生物信息学工具软件等。

生物信息学的网络资源/~cleslie/cs4761/resources.html
生物信息学的网络资源是美国哥伦比亚大学的Bill Noble教授建立的有关生物信息学的网络资源总集。其涉及面广,包括基因组学和生物信息学中心、生物信息学工具和基因组计划索引、DNA和蛋白质分析工具、生物信息学课程主页、生物信息学和生物技术的学术项目、生物信息学文献参考,以及网上引物。

生物信息学趋势导向/genpedscrr/Trends.htm
生物信息学趋势导向主要提供《今天免疫学》杂志的增刊有关生物信息学的内容。这些内容包括的资源十分丰富,涉及文本格式数据库,原理和实用数据库搜索,计算生物学基因发现,多序列联配和检索,蛋白质分类和功能归属,系统进化分析和比较基因组学,功能基因组学等。

生物信息学网/
这是生物信息学的网站,主要是负责中

国医学科学院肿瘤医院/肿瘤研究所生物信息学研发及服务工作。该网站提供生物统计分析以SAS和R为主,并且设有其他数十种生物信息学分析辅助软件,如Blast, Phrap, Bioperl, EMBOSS, Hmmer, GO等等。另外也提供论坛,相关论文以及常用生物信息学网址等。

生物信息学小组.au/
生物信息学小组成立于1997年,主要从事分子生物信息学和生物多样性信息学的研究。其提供丰富的软件资源,可免费下载使用。软件种类涉及重组扫描、系统发生分析、联配、重复片段的检测和PCR引物设计等。此外,还有许多数据库资源。生物信息学入门教材



除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。

ExPASy的网址是:http://www.expasy.ch/tools/。

PROSEARCH的网址是:http://www.embl-heidelberg.de/prs.html。 2. 预测蛋白质的物理性质

从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有: Compute pI/MW:是ExPASy工具包中的程序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。 PeptideMass:是ExPASy工具包中的程序,分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。

TGREASE:是FASTA工具包中的程序,分析蛋白质序列的疏水性。这个程序延序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线,用这个程序可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。 SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析、电荷聚集区域、高度疏水区域、跨膜区段等等。

ExPASy的网址是:http://www.expasy.ch/tools/。

下载FASTA的网址是:ftp:///pub/fasta/。

SAPS的网址是:http://www.isrec.isb-sib.ch/software/SAPS_form.html。 3. 蛋白质二级结构预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白

等四个折叠类型。预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得“一致序列”。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。

nnPredict:用神经网络方法预测二级结构,蛋白质结构类型分为全α蛋白、全β蛋白和α/β蛋白,输出结果包括“H”(螺旋)、“E”(折叠)和“-”(转角)。这个方法对全α蛋白能达到79%的准确率。

PredictProtein:提供了序列搜索和结构预测服务。它先在SWISS-PROT中搜索相似序列,用MaxHom算法构建多序列比对的profile,再在数据库中搜索相似的profile,然后用一套PHD程序来预测相应的结构特征,包括二级结构。返回的结果包含大量预测过程中产生的信息,还包含每个残基位点的预测可信度。这个方法的平均预测准确率达到72%。

SOPMA:带比对的自优化预测方法,将几种独立二级结构预测方法汇集成“一致预测结果”,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法。多种方法的综合应用平均效果比单个方法更好。

nnPredict的网址是:/~nomi/nnpredict.html。

PredictProtein的网址是:/predictprotein/。

PredictProtein的国内镜像在:/predictprotein/。

SOPMA的网址是:http://pbil.ibcp.fr/。 4. 其它特殊局部结构

其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。

COILS:卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。

TMpred:预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。 SignalP:预测蛋白质序列中信号肽的剪切位点。

COILS的网址是:/software/COILS_form.html。

TMpred的网址是:/software/TMPRED_form.html。

SignalP的网址是:http://www.cbs.dtu.dk/services/SignalP/。 5. 蛋白质的三维结构

蛋白质三维结构预测时最复杂和最困难的预测技术。研究发现,序列差异较大的蛋白质序列也可能折叠成类似的三维构象,自然界里的蛋白质结构骨架的多样性远少于蛋白质序列的多样性。由于蛋白质的折叠过程仍然不

十分明了,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作用的三维结构预测方法。最常见的是“同源模建”和“Threading”方法。前者先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。后者将序列“穿”入已知的各种蛋白质的折叠子骨架内,计算出未知结构序列折叠成各种已知折叠子的可能性,由此为预测序列分配最合适的折叠子结构。除了“Threading”方法之外,用PSI-BLAST方法也可以把查询序列分配到合适的蛋白质折叠家族,实际应用中发现这个方法的效果也不错。

SWISS-MODEL:自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。

CPHmodels:也是利用神经网络进行同源模建预测蛋白质结构的方法。

SWISS-MODEL的网址是:http://www.expasy.ch/swissmod/SWISS-MODEL.html。

CPHmodels的网址是:http://www.cbs.dtu.dk/services/CPHmodels/。


1)从氨基酸组成辨识蛋白质

根据组成蛋白质的20种氨基酸的物理和化学性质可以分析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。ExPASy工具包中提供了一系列相应程序:

AACompIdent:根据氨基酸组成辨识蛋白质。这个程序需要的信息包括:氨基酸组成、蛋白质的名称(在结果中有用)、pI和Mw(如果已知)以及它们的估算误差、所属物种或物种种类或“全部(ALL)”、标准蛋白的氨基酸组成、标准蛋白的SWISS-PROT编号、用户的Email地址等,其中一些信息可以没有。这个程序在SWISS-PROT和(或)TrEMBL数据库中搜索组成相似蛋白。

AACompSim:与前者类似,但比较在SWISS-PROT条目之间进行。这个程序可以用于发现蛋白质之间较弱的相似关系。

除了ExPASy中的工具外,PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。程序作者用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的“查询向量”与SWISS-PROT和PIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。

2)预测蛋白质的物理性质

从蛋白质序列出发,可以预测出蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。相关工具有:

Compute pI/MW:是ExPASy工具包中的程

序,计算蛋白质的等电点和分子量。对于碱性蛋白质,计算出的等电点可能不准确。

PeptideMass:是ExPASy工具包中的程序,分析蛋白质在各种蛋白酶和化学试剂处理后的内切产物。蛋白酶和化学试剂包括胰蛋白酶、糜蛋白酶、LysC、溴化氰、ArgC、AspN和GluC等。

TGREASE:是FASTA工具包中的程序,分析蛋白质序列的疏水性。这个程序延序列计算每个残基位点的移动平均疏水性,并给出疏水性-序列曲线,用这个程序可以发现膜蛋白的跨膜区和高疏水性区的明显相关性。

SAPS:蛋白质序列统计分析,对提交的序列给出大量全面的分析数据,包括氨基酸组成统计、电荷分布分析、电荷聚集区域、高度疏水区域、跨膜区段等等。


4)其它特殊局部结构

其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。

COILS:卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。

TMpred:预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。

SignalP:预测蛋白质序列中信号肽的剪切位点。


SWISS-MODEL:自动蛋白质同源模建服务器,有两个工作模式:第一步模式(First Approach mode)和优化模式(Optimise mode)。程序先把提交的序列在ExPdb晶体图像数据库中搜索相似性足够高的同源序列,建立最初的原子模型,再对这个模型进行优化产生预测的结构模型。

CPHmodels:也是利用神经网络进行同源模建预测蛋白质结构的方法。


蛋白质的亚细胞定位
关于蛋白质的亚细胞定位的预测,In general,预测方法分为3个步骤。首先,为每一类亚细胞locations构建客观而具有代表性的数据集。其次,从数据集中提取特征参数或 descriptor。最后也是最关键的一步,通过算法比较查询序列中所包含的特征参数与各类相应的location的相似度,作出判断,一般会用一组概率的形式来表述。很明显,其中大量运用的是机器学习理论和统计学的方法。对算法有兴趣的朋友可以参考下面这一篇综述,“An overview on predicting the subcellular location of a protein” In Silico Biology 2002 http://www.bioinfo.de/isb/2002/02/0027/main.html

以下是该综述中涉及的部分server,都是比较经典的。

PSORT:http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge

TargetP:http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide

MitoProt:h

ttp://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide

Predotar:http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide

NNPSL:/nnpsl
By amino acid composition

SobLoc:/SubLoc/
By amino acid composition

SubLoc: /SubLoc/
By more sequence information besides the amino acid composition

一篇文献:/papers/2003_loci_3dnet/paper.html

“Better prediction of sub-cellular localization by combining evolutionary and structural information”

发布于 由 shininglake 有 0 篇评论
2004年9月10日 14:08
生命科学网络资源的重要门户——ExPasy


Amos' WWW 网站(/alinks.html)

超过1000以上的生命科学网络资源,更新得很快,针对不同的特定领域组织成不同的分类.



WORLD-2DPAGE(/ch2d/2d-index.html)

所有已知的二维凝胶电泳网络数据库服务器的列表及其相关的服务.



BioHunt(/BioHunt)

提供一个在互联网上检索分子生物学数据的服务.



2DHunt(/ch2d/2Dhunt)

二维凝胶电泳相关站点的专门索引


Biochemical Pathways(/tools/pathways)

是Boehringer Mannheim的"生物化学途径"的一个有索引,数字化,可以点击的版本.

允许用户检索图形化表示的代谢途径,可以直接连接到ENZYME数据库上.



DeepView(Swiss-Pdbviewer)(/spdbv)

一个可以在Windows,Mac OS,SGI 和Linux多平台下运行的程序,提供了很多的选项用于观

察和操纵蛋白质结构.也可以用作基于web的服务程序,用来显示PDB格式的序列.

Swiss-Pdbviewer可以作为SWISS-MODEL同源建模工具的补充.



2-D PAGE(/ch2d)

关于2D PAGE的信息收集,包括实验原型的详细描述,并提供一个2D凝胶浏览器下载.



Protein Spotlight(/proteinspotlight)

关于一些热点研究的蛋白质或蛋白质组的周期性综述.



Swiss-Quiz(/swiss-quiz)

如果你答对了一个分子生物学的问题,你就有可能得到一块真的瑞士巧克力.



ExPasyBar()

一个有用的导航条,可以链接到绝大多数重要的ExPasy 数据库和工具.可以作为免费的

Mozilla浏览器()的插件,可以从这个地址()下载.



镜像站点

ExPasy的镜像站点均从位于日内瓦的ExPasy服务器上完全拷贝了所有的信息资源,也同样

的定期进行更新.这有利于那些不能连接到瑞士ExPasy服务器或者连接速度很慢的用户访

问当地的ExPasy服务.截至目前,一共有8个镜像站点

澳大

利亚

玻利维亚

巴西

加拿大

中国大陆

韩国

中国台湾

美国



如何引用ExPasy

如果你想在出版物中引用ExPasy,请使用下面的格式:

Gasteiger E., Gattiker A.,Hoogland C.,Ivanyi L.,Appel R.D.,Bairoch A.

ExPasy: the proteomics server for in-depth protein knowledge and analysis:Nucleic Acids Res.

31:3784-3788(2003)



PROSITE(/prosite)

是个蛋白质结构域和蛋白质家族数据库,含有生物学上显著的位点(site),模式(pattern)和模体

(profile),可用于鉴定一个未知的蛋白质序列属于哪一个已知的蛋白质家族.



SWISS-2DPAGE(/ch2d)

是由双向聚丙稀酰胺凝胶电泳鉴别的蛋白质数据库.数据来源于很多不同的样本,例如人,鼠,

枯草杆菌,大肠杆菌,酵母等.



ENZYME(/enzyme)

是一个与酶命名的有关信息的集合



SWISS-MODEL(/repository)

SWISS-MODEL库是个结构蛋白模型的数据库,使用同源建模方法自动产生.




软件和工具

ExPasy工具页(/tools)里面有很多有用的序列分析和蛋白质分析工具

的链接.其中一些工具由ExPasy团队开发,其他的则指向世界上的其他服务网站.

序列和分析工具

BLAST

提供非常快的序列搜索,可用于蛋白质核酸的序列搜索.

ExPasy BLAST服务由EMBnet的瑞士节点维护.BLAST的原始输出经过扩展.



ScanProsite

使用一个序列来检索在所有在PROSITE 数据库中的模式(pattern),模体(profile)和规则

(rule).或者反之,用PROSITE 数据库中的模式(pattern),模体(profile)和规则(rule)来检索

Swiss-Prot,TrEMBL和/或PDB数据库中对应的序列



SWISS-MODEL

一个自动的蛋白质建模服务,如果一个3维结构未知的蛋白质的序列和已知三维结构的蛋白

质的序列有很近的相似关系,那么就可以使用这个工具来构建这个蛋白的3维模型.



ProtParam

计算一个蛋白质序列的理化参数例如氨基酸残基位置,等电点,原子位置等等.



ProtScale

根据一个蛋白质序列上的任何氨基酸的scale来计算和表示一个蛋白质的的模体(profile).

一个amino acid scale 定义是为每种氨基酸赋的一个数值,最常用的scale是疏水或者亲水

性,或者二级结构构像参数等等.目前有50个可用的scale .



RandSeq

产生一个随机的蛋白质序列,基于用户指定的氨基酸位置和序列长度.



Myristoylator

用神经网络的方法预测蛋白质N端的myristoylation



Sulfinator

在蛋白质的序列内预测酪氨酸的硫化位点



Translate

使用6个读码框把核酸序

列翻译成蛋白质序列



蛋白质组学工具

AACompIdent

通过蛋白质的氨基酸成分来鉴别一个蛋白质



AACompSim

给定一个Swiss-Prot的序列,查询得到有最高的相似度的序列



Compute PI/MW

计算用户输入的序列或者Swiss-Prot或者TrEMBL数据库中序列的等电点和分子量



FindMod

预测潜在的蛋白质翻译后修饰和蛋白质中潜在的单氨基酸替换.



FindPept

综合分子量的信息、化学修饰,翻译后修饰等其他信息共同来鉴定蛋白



GlycanMass

计算oligosaccharide结构的mass



GlycoMod

预测可能的oligosaccharide结构.



PeptideCutter

预测给定蛋白序的蛋白酶剪切位点和化学剪切位点



PepIndent ,tagIndent, MultiIndent

使用很多不同的实验信息来鉴定一个蛋白质,例如等电点,分子量,氨基酸组成,部分序列标记,

和肽的质谱数据.(peptide mass fingerprinting data)



参考:

*EMBnet- European Molecular Biology Network是一个主要位于欧洲的生物信息学服务支

持网络. 提供培训课程和其他对于生物信息软件用户的服务. 网址是



2004年4月20日 16:54
EBI的生物信息学教程(原创)——序
这是EBI的生物信息学教程,教你怎样使用EBI网站提供的生物信息学工具。包括核酸分析、蛋白质分析、蛋白质功能、蛋白质结构、基因组浏览、数据库浏览等六个专题。该教程非常之好,于是决定尽我所能把它翻译出来,也许对生物信息学的初学者有所帮助,不当之处请大家多多指教!(我的Email:yxgao@). 该教程特别地送给生物谷及中国生命科学论坛的战友们!(如转载请注明作者——中国生命科学论坛管理员gaoyx )

\
蛋白质序列分析

Compute pI/Mw - (is a tool which allows the computation of the theoretical pI (isolectric point) and Mw (molecular weight) for a list of SWISS-PROT entries or for a user entered sequence)蛋白质序列的理论等电点、分子量的计算

CATH - (Protein Structure Classification CATH is a hierarchical classification of protein structural relationships derived using a combination of automatic and manual methods. CATH identifies the different groups in the classification by a unique CATH number, as well as a descriptive name) 通过自动、手动方式进行蛋白质结构相关性的系统分类,
CATH是以下四个单词的第一个字母的组合
Class类 ——(The highest level of the classification, derived from gross secondary structure content) 源于二级结构的最高级别的分类
Architecture构造——( Description of the gross arrangement of secondary structures. Independent of topology)独立于拓扑结构的二级结构排列描述。

Topology拓扑结构——( Topological description, with reference to

previously observed structures and well-known folds)参照已知的折叠及观测的结构进行拓扑分析
Homology 同源——( Discrimination between structures with same topology, but more diverse structures Often correlates with functional homology)结构间相同的拓扑布局、不同的二级结构(与功能相似性相关)描述




重要主页 European Molecular Biology Laboratory (EMBL) ,欧洲分子生物学实验室。
/ebi_docs/embl_db/ebi/topembl.html
Cambridge, UK.

· UK Human Genome Mapping Project - Resource Center (HGMP-RC) ,英国医学研究委员会所属人类基因组图谱资源中心。
/default.htm

· SeqNet: UK Node of European Molecular Biology Network (EMBNet) ,欧洲分子生物学信息网。
/default.htm

· GenBank ,美国国家生物技术信息中心 (NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。
/Web/Search/index.html
GenBank at the National Center for Biotechnology (NCBI) of The National Library of Medicine (NLM) at The National Institutes for Health (NIH) campus, USA.

· National Center for Biotechnology Information (NCBI), 美国国家生物技术信息中心
/

· DNA Databank of Japan (DDBJ) ,日本核酸数据库。
http://www.ddbj.nig.ac.jp/default.htm

· Genome Sequence DataBase (GSDB) ,美国国家基因组资源中心维护的DNA序列关系数据库。
/default.htm
The National Center for Genome Resources, Genome Sequence Database.
The server is a supercomputer with genomic algorithm accelleration.

· Online Mendelian Inheritance in Man (OMIM), 在线人类孟德尔遗传数据库 。
/Omim/searchomim.html
Database of human genes and their disorders, with textual information, images and references. Links to Entrez and MedLine.

· European Drosophila Genome Project
/default.htm

· The Institute for Genomic Research (TIGR) ,美国基因组研究所。
/default.htm

· The Sanger Centre
/default.htm

· Swiss Institute of Bioinformatics (Expasy)
http://www.expasy.ch/default.htm

· GenomeNet (Japan)
http://www.genome.ad.jp/default.htm

· Australian National Genomic Information Service (ANGIS)
http://morgan.angis.su.oz.au/default.htm

· Bioinformatics and Biology Resources on the Internet
/biology/index.html
An excellent site, well worth a visit!

· List of other Genome Sites
/GenomeWeb/default.htm
List of other genome web sites. Concise and clearly presented.

· Brunel University Onlin

e Teaching Programme
/depts/bl/project/front.htm

· Whitehead Institute for Biomedical Research (WI)
/

· WICGR (WI/MIT Center for Genome Research)
/

· Cold Spring Harbor Laboratory (CSHL)
/

· SMI (Stanford Medical Informatics)
/projects/helix/

· BNL (Brookhaven National Laboratory),美国布鲁克海文国家实验室
/

· Weizmann Institute of Science ,以色列魏兹曼科学研究所
http://bioinformatics.weizmann.ac.il/

· 中国科学院上海生命科学院生物信息中心(BioSino)
/

· 北京大学生物信息中心(CBI或PKUCBI)
/

· 中国军事医学科学院情报研究所(AMMSnic)

/bio/



二.综合数据库

l INSD,国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。

l EMBL库,欧洲分子生物学实验室的DNA和RNA 序列库。
/embl.html

l GenBank ,美国国家生物技术信息中心 (NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。
/Web/Genbank/

l DNA Databank of Japan (DDBJ) ,日本核酸数据库。
http://www.ddbj.nig.ac.jp/

l GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。
/gsdb/

l TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。
/tdb/hcd/overview.html

三.DNA序列和结构数据库

包括与DNA的复制、转录、修复等有密切关系的蛋白质因子。

l BioSino是中国自主开发的核酸序列公共数据库。
/

l CUTG,密码子使用频度表。
http://www.dna.affrc.go.jp/~nakamura/CUTG.html

http://www.kazusa.or.jp/codon/

http://www.dna.affrc.go.jp/~nakamura/CUTG.html

l EPD,真核生物启动子数据库(Eukaryotic Promotor Database)。
http://www.epd.isb-sib.ch/

l TRANSFAC,真核生物基因表达调控因子的数据库。
http://transfac.gbf.de/TRANSFAC

l TRRD.真核生物基因组转录调控区数据库。
http://www.mgs.bionet.nsc.ru/mgs/dbases/trrd4/

l OOTFD,转录因子和基因表达数据库。
/

l RepBase,真核生物DNA中重复序列数据库。
/~server/repbase.html

l MicroSatellite,微卫星重复序列数据库。
/gopher-menus/MicroSatelliteDatabase.html

l ALU数据库是人及其他灵长类代表性的Alu重复片段。

(/pub/jmc/alu/)

l Simple Repeats,简单重复序列库。
/

l COMPEL,复合元件数据库。
ftp://ftp.gbf-braunschweig.de(/pub/compel/)

l MPDB,分子探针数据库。
http://www.biotech.ist.unige.it/interlab/mpdb.html

l HvrBase,灵长类mtDNA调控区序列库,主要是人的HVI和HVII两个高变异区的序列。http://monolith.eva.mpg.de/hvrbase/

l PlantCARE,植物顺式作用(cis-acting)调控因子数据库.
http://sphinx.rug.ac.be:8080/PlantCare/

l PLACE是从文献中搜集的植物顺式作用调控元件DNA模体的数据库,只涉及维管植物.
http://www.dna.affrc.go.jp/htdocs/PLACE/

ftp://ftp.dna.affrc.go.jp(/pub/dna_place/place.seq)

l Mendel数据库,搜集植物STS和EST序列.
/

l HOX Pro同源异型盒(homeobox)基因数据库.
http://spirov.iephb.nw.ru/hox_pro/hox-pro00.html

l OPD,寡核苷酸探针数据库(Oligonucleotide Probe Database).
/OPD/

l dbSTS,序列标记位点(Sequence Tagged Sites)数据库.
/dbSTS/

ftp://(/repository/dbSTS)

l dbEST.这是GenBank的重要组成部分,它包含若干物种的已表达的序列标记信息.
/dbEST/

ftp://(/repository/dbEST)

l AmmtDB,后生动物线粒体DNA多序列联配数据库,搜集了脊椎动物线粒体中编码蛋白质和tRNA的多DNA序列对比数据,以及哺乳动物mtDNA主调控区序列联配数据.
r.it:8000/BioWWW/#AMMTDB

l HOVERGEN,脊椎动物同源基因数据库(HOmologous VERtebrate GENes)。
http://acnuc.univ-lyon1.fr/

ftp://biogen.fr(/pub/db/acnuc/hovergen)

l DNA结构参数库.
ftp://transfac.gbf.de(/pub/structure_library)

l NUCLEOSOME数据库,收集实验测定的核小体数据,用于预测DNA中与组蛋白八聚体结合的位点.
ftp:///pub/databases/nucleosomal_dna/

l SELEX_DB,随机化序列库.
http://www.mgs.bionet.nsu.ru/mgs/systems/selex/

l ASDB,交替剪接基因的数据库.
:8888/

l Intronerator,秀丽线虫内含子和交替剪接数据库。/~kent/intronerator/

l IDB和IEDB前者是内含子序列数据库,后者是内含子演化数据库。/intron/index.html

l EID,外显子、内含子数据库。
/gilbert/EID/

l ExInt,外显子、内含子数据库。
.sg/rint/exint.html

l NDB,核酸晶体结构数据库。
ftp:///

/NDB/ndb.html

l VectorDB,载体数据库。
/

l Vector和Vector-ig,包分子生物学常

用的许多载体的注释和序列信息。ftp://(/repository/vetcor-ig)

ftp://(/repository/vector)

四.RNA序列和核糖体数据库。

l 1993年成立的RNA学会,在出版RNA刊物同时,还维护着两个信息网页:
/~rna1/

/Journals/JNLSCAT/rRNA/rna.html

l snoRNA,小核仁RNA数据库。
/biochem/rna-sequence/Yeast-snoRNA-Database/snoRNA-DataBase.html

l Small RNA数据库。
/smallRNA/smallrna.html

l RNAse P数据库,包含RNA水解酶P的RNA亚基序列、联配、二级结构和三维模型。/RNAseP/home.html

l tmRNA网点。包含 tmRNA序列、公认蛋白质水解标记、序列联配、确定新tmRNA的导引,以及简要综述等。
/~tmrna/

l tmRDB.已经联配好的、加有注释的、按亲缘关系排列的tmRNA序列数据。
/dbs/tmRDB/tmRDB.html

l gRNA,导引RNA数据库。
http://www.biochem.mpg.de/~goeringe/

l SRPDB,信号识别粒子数据库。
/dbs/SRPDB/SRPDB.html

l TransTerm,信使RNA的组分和翻译控制信号数据库。/Transterm/

l 类病毒和类病毒样RNA数据库。
herb.ca/~jpperra/

l UTRdb和UTRsite。UTRdb是真核生物mRNA的5’端和3’端非翻译区序列的非冗余数据库,UTRsite搜集这些非翻译区序列中的功能片段。
r.it:8000/EmbIT/UTRHome/

l ncRNA,似mRNA的非编码RNA数据库。
http://www.man.poznan.pl/5Sdata/ncRNA/index.html

l RNAmods,RNA修饰数据库。
/RNAmods/RNAmods.html

ftp://(/library/RNAmods)

l AARSDB,酰氨基tRNA合成酶数据库。
http://rose.man.poznan.pl/aars/index.html

l tRNA序列和基因、结构与功能数据库。

http://www.uni-bayreuth.de/departments/biochemie/trna/

l PLMItRNA基于FastA的绿色植物线粒体tRNA分子和tRNA基因的数据库。

r.it:8000/srs6/

/services/

l 16SMDB、16S-likeMDB 、16SMDBexp 、23SMDB、 23S-likeMDBexp数据库,是一批16S和23S核糖体RNA突变数据库。

/departments/biology/databasee/rna.html

ftp://(/nar/)

l RNA www,RNA二级结构网页,也有16S RNA和23S RNA的数据。

:8080/RNA/

l uRNADB,已经联配好的、加有注释的、按亲缘关系排列的uRNA序列数据。

/dbs/uRNADB/uRNADB.html

l U-insertion/deletion,编辑序列数据库,包含5个无脊椎动质体目物种的线粒体基因和编辑后的mRNA序列。

/RNA/trypanosome/database.html

l PseudoBase,假扭结数据库。

http:

//www.bio.leidenuniv.nl/~Batenburg/PKB.html

l RDP,核糖体数据库计划。包含小亚基和大亚基的两部分rRNA,由已联配的RNA序列以及亲缘树组成。

/RDP/

/

(/pub/)

l SSU rRNA欧洲核糖体小亚基RNA结构数据库。

http://rrna.uia.ac.be/ssu/

l LSU rRNA欧洲核糖体大亚基RNA结构数据库。

http://rrna.uia.ac.be/lsu/

l 5S rRNA数据库。

http://rose.man.poznan.pl/5Sdata/index.html

l DRC,核糖体交链数据库。

http://www.mpimg-berlin-dahlem.mpg.de/~ag_ribo/ag_brimacombe/drc/

l ACTIVITY,DNA和RNA中功能位点数据库。

http://www.mgs.bionet.nsu.ru/systems/Activity/

l RNA非正则配对数据库。

/bp_type/

五.基因图谱数据库

l Rhdb,辐射杂交数据库。

/RHdb

/Rhdb/species/HUMAN/gm99.html

ftp://(/pub/databases/RHdb)

l Mouse RH数据库。

/mouse_rh/

l GDB,人类基因组数据库。

/

ftp:///

l GeneMap’99,人类基因图谱1999年版。

/genemap/

l HuGeMap,人类基因遗传图谱和物理图谱的分布式集成数据库。

ftp://(/pub/databases/RHdb/gm99.map)

六.人类基因组有关数据库

人类染色体数据网址:

1
http://linkage.rockefeller/chr1/


/HGP/chr1

2
/HGP/chr2

3
/


/

4
/HGP/chr4

5
/

6
/HGP/chr6

7
http://www.genet.sickkids.on..ca/chrdb

8
:8080/chr8/home.html

9
/chr9


/HGP/chr9

10
/htdocs/chr10-mapping/


/HGP/chr10/

11
/


/datapage/


/database.html

12
/chr12/home.html

13
/~genome/


/HGP/chr13/

14
/HGP/chr15/

15
/HGP/chr15/

16
/


/tdb/humgen/c16.html

17
http://bioinformatics.weizmann.ac.il/

18
/HGP/chr18/

19
/


/bbrp/genome/genome.html

20
http://www.expasy.ch/cgi-bin/lists?humchr20.txt


/HGP/chr20/

21
http://www.expasy.ch/cgi-bin/lists?humchr21.txt


/chr21/welcome.html


http://www.cephb.fr/chromosome21.html

22
/HGC2

2.html


http://www.expasy.ch/cgi-bin/lists?humchr22.txt


/hum22/HGP/chr22/


/gifs/

X
http://www.expasy.vh/cgi-bin/lists?humchrx..txt


:8080/chrX/home.html


/HGP/chrX/

Y
http://www.expasy.ch/cgi-bin/lists?humchry.txt

线粒体
/mitomap.html




1.人类基因组测序中心

l HUGO是人类基因组组织的缩写。

/

l HUGO Pacific GENOME Newsletter 是HUGO在太平洋部分,其中反映中国情况的短文在:

http://hugo-pacific.genome.ac.jp/3_2contents/china.html

l 美国能源部支持的人类基因组计划

/production/ober/hug_top.html

l 美国国家卫生署对人类基因组计划的支持,通过NHGRI即国家人类基因组研究所(National Human Genome Research Institute)体现。

/

l 英国Wellcome Trust是人类基因组计划的另一个主要资助者。

/

l 百慕大原则:测序的中间和最终结果都必须迅速的公开。

/hugo/bermuda.html

l 世界上主要人类基因组测序中心的名单。

/inf/Hgcenters.html

/hgmis/centers.html

l NCBI的GenBank数据库从1999年10月起,建立了智人基因组子目录,其下按染色体编号设子目录。

/genbank/genomes/H_sapiens/

l 英国的Sanger中心的人类基因组计划网页,不仅有它们负责测序的染色体数据,还有到其他染色体数据的链接。

/HGP/

l 日本的DDBJ和信息生物学中心(CIB)联合建立了一个Human Genomics Studio,可以按染色体编号检索和查找基因序列。

http://studio.nig.ac.jp/

l Sanger 中心是世界上最大的DAN测序中心之一。承担人类基因组计划的三分之一,集中在1、6、9、10、13、20、22和X。

/HGP/stats.html

LBNL,Lawrence Berkeley 国家实验室。

/GenomeHome.html

l LLNL,Lawrence Livermore 国家实验室。

/bbrp/genome/genome.html

l LANL,美国洛斯阿拉莫斯国家实验室。

/index.html

l JGI,由美国能源部支持的,依托LBNL、LLNL和LANL三个国家实验室的人类基因组研究部门建的联合基因组研究所(Joint Genome Institute)。

/

l UWGC,华盛顿大学基因中心,是国际上最活跃的测序中心之一。

/

ftp:///

l SHGC,斯坦福大学人类基因中心,主要做高分辨率辐射杂交图谱,以及人类第四号染

色体BAC克隆的测序。

/

l 美国哥伦比亚大学基因中心,主要研究和人类疾病有关的基因和第13号染色体图谱。

/~genome/

http://genome3.cpmc//~legion/

l GENETHON,法国人类基因组研究中心。

http://www.genethon.fr/genethon_en.html

2.人类基因组有关数据

l GenBank、 EMBL 、GSDB 、GDB等综合数据库的主要内容都来自人。

UniGene,人类基因序列集合,搜集了GenBank中不同基因产物的序列。

/UniGene/

l HIB数据库,是德国人类基因组计划中基因分析项目所建立的自动注释的基因集团数据库。

http://www.mips.biochem.mpg.de/proj/human/

l dbSNP,设在美国国家生物技术信息中心NCBI的单核苷酸多态性数据库,收录单核苷酸置换,以及短的删除和插入所导致的多态性。

/SNP/

l Whitehead的生物医学研究所的人类单核苷酸多态性(SNP)数据库。

/SNP/human

l HGBASE是人类双等位基因序列(Human Genic Bi-Allelic Sequences)的缩写,这是人类基因从启动子到转录终点,即基因及其前后所发现的所有单核苷酸多态性和其他变化的数据库。

http://hgbase.interactiva.de/

http://hgbase.cgr.ki.se/

l 位于St.Louis的华盛顿大学的SNP数据库。

/SNP/

l I.M.A.G.E协作组,他们共享高质量的cDNA克隆库,并把有关序列、图谱和表达数据公开。

/bbrp/image/image/html

l 美国菌种保藏中心(American Type Culture Collection)。

/

l GenMapDB,V.Cheung实验室维护的一个BAC图谱数据库。

/vcheung/

l BAC Ends,人类BAC末端数据库。

/tdb/humgen/bac_end_search/

l HUGE,人类未经实验证实的编码基因的数据库。

http://dazusa.or.jp/huge/

l IXDB,集成的人类X染色体物理图谱数据库。

http://ixdb.mpimp-berlin-dahlem.mpg.de/

l Genotype,法国人类多态性研究中心的基因型数据库。

http://www.cephb.fr/cephdb/

l VIRGIL,专门为GDB中的人类基因和GenBank中的DNA序列提供对应链接关系的数据库。

biogen.fr/services/birgil/Hpvirgil.html

ftp://biogen.fr(/pub/db/viogil/virgil.ffl)

l KinMutBase,人类致病蛋白质激酶突变数据库。

http://www.uta.fi/imt/bioinfo/KinMutBase/

l CpGIsle,人类基因中CpG岛数据库。

ftp://bioslave.uio.no(/cpgisle)

ftp://biogen.fr(/pub/db/cpgisle/)

ftp://(/pub/databases/cpgisle)

l p53数据库。研究人类肿瘤及肿瘤细胞系p53基因

突变的数据库,包括:p53库、体细胞突变库、种系突变库和细胞系突变库。

http://perso.curie.fr/tsoussi/

l IARC p53数据库。法国国际癌症研究会的肿瘤和细胞系P53基因突变数据库。

http://www.iarc.fr/p53/homepage.html

/

l p53数据库。具有癌症倾向家族P53种系突变数据库。

http://www.lf2.cuni.cz/projicts/germline_mu_p53.html

ftp://ftp.lf2.cuni.cz(/pub/doc/medical/)

l 人类P53基因突变及软件。

/dnam/des_p53.html

l 人类hprt即次嘌呤磷酸核糖基转移酶基因突变数据库和在PC视窗下运行的分析软件。

/dnam/des_hprt.html

l 转基因啮齿动物LacI数据库。

/dnam/des_laci.html

l 转基因啮齿动物LacZ突变库。基因突变数据库及分析软件。

/dnam/des_lacz.html

l WRN基因突变与遗传病Werner综合征有关。

/werner/ws-wrn.html

l OMIM,在线人类孟德尔遗传数据库。

/omim/

l STACK,南非国家信息中心SANBI维护的一个序列标记联配和代表序列知识库。

http://www.sanbi.ac.za/Dbases.html

l SANIGENE是与STACK密切相关的一个数据库。它包含所有经过计算机处理联配过的人类基因EST的集团。

http://www.sanbi.ac.za/Dbases.html

七.其他物种基因组数据库

l DOGS,基因组尺寸数据库。

http://www.cbs.dtu.dk/

l GenBank的/genomes/子目录:

ftp://(/pub/databases/genband/genomes/)

l EuGenes,真核生物基因综合知识库,目前包括果蝇、人、小鼠、拟南芥、线虫、酵母、和斑马鱼的数据。

/eugenes

1.原核生物基因组

l 细菌基因组计划的进展情况,可从以下网站查询:

/PMGifs/Genomes/bact.html

l MOT ,欧洲生物信息研究所EBI的基因组测序进展表。

/~sterk/genome-MOT/

l GIB,日本DDBJ设立的Genome Information Broker for microbial genomes 的缩写。

http://mol.genes.nig.ac.jp/gib/

l MAGPIE测序计划清单也可以参考。

/~gaasterland/genomes.html

l EMGLib,增补微生物基因组库。

http://pbil.univ-lyon1.fr/emglib/emglib.html

l 大肠杆菌K12菌株的完全基因组序列,可由GenBank的子目录/genomes/获取,或从华盛顿大学大肠杆菌基因组中心,即Blattner实验室的网页读取:

/pub/sequence/

l ECDC,大肠杆菌菌株K12的基因序列库,包括基因、读框、调控区、启动子、终止子、tRNA和rRNA等。

http://susi.bio.uni-giessen.de/ecdc/ecdc.ht

ml

ftp://)/pub/databases/ecdc)

l EcoGene和EcoWeb,大肠杆菌K12菌株基因组数据库,包括基因、蛋白质、基因间蛋白质组信息。

/EcoGene/EcoWeb/

l RegulonDB,大肠杆菌转录调控和操作子数据库。

http://www.cifn.unam.mx/Computational_Biology/regulondb/

l NRSub,非冗余枯草芽孢杆菌DNA数据库,包括完全基因组、密码子使用表、基因图谱和基因家族。

http://acnuc.univ-lyon1.fr/nrsub/nrsub.html

ftp://ftplnig.ac.jp(/pub/db/nrsub)

l HIDB,流感嗜血菌完全基因组的原始数据库。

/tdb/mdb/hidb/hidb.html

ftp:///pub/data/h_influenzae

l HIDC,流感署血菌基因序列库。

http://susi.bio.uni-giessen.de/ecdc/hidc.html

l CyanoBase,蓝细菌数据库,实际上是集胞蓝细菌的基因组数据库。蓝细菌具有氧化和光合作用所需的全套基因。

http://www.kazusa.or.jp/cyano/cyano.html

l MJDB,詹氏甲烷球菌基因组数据库。

ftp://(/pub/data/m_jannaschii)

/tdb/mdb/mjdb/mjdb.html

l MycDB,分枝杆菌数据库。

http://www.biochem.kth.se/MycDB.html

l RsGDB,类球红细菌基因组数据库。第一作者联系:

mailto:/madhu@

l PGI,疫霉属基因预研究计划的数据库。

/pgi/

2.真菌基因组

l SGS,酿酒酵母基因组数据库。

/Saccharomyces/

ftp://(/pub/yeast)

l LISTA,LISTA-HOP和LISTA-HON是酿酒酵母基因组中蛋白质编码序列及其同源性的数据库。

/

ftp://bioftp.unibas.ch/

l MYGD,酵母基因组、蛋白质和同源关系的数据库。

http://www.mips.biochem.mpg.de/proj/yeast/

l YIDB,酵母内含子数据库。

http://www.EMBL-Heidelberg.DE/ExternalInfo/seraphin/yidb.html

l MNCDB,由德国MIPS所维护的粗糙链孢霉基因组数据库。

http://www.mips.biochem.mpg.de/desc/neurospora/

l 真菌基因组资源的网址:

:5080/main.html

l FGSC,真菌遗传学信息中心。

/

3.原生生物和线虫基因组

l 欧洲生物信息研究所EBI的原生生物网页:

/Projects/Protozoa/

l AceDB,线虫综合数据库。

ftp://(/pub/acedb)

ftp://(repository/acedb)

ftp://lirmm.lirmm.fr(/pub/acedb)

l 关于线虫发育特别是化学感觉神经的研究。

/

4.昆虫基因组

l 斯坦福大学的果蝇基因组中心。

/

l FlyBase,果蝇基因和分子数据库。

/

ftp:///

l FlyNets,

相关文档
最新文档